Cómo llegamos a ICRA2024 / Sudo Null IT News

Hola Habr! Mi nombre es Alexander Panov y dirijo el grupo científico “Integración neurosimbólica” en AIRI, trabajo en el Centro Federal de Investigación de Ciencias de la Computación de la Academia de Ciencias de Rusia y enseño IA y RL en MIPT. Los intereses de investigación de nuestro grupo incluyen el aprendizaje por refuerzo (multiagente, modelo mundial, memoria, transformadores), planificación del comportamiento y modelos fundamentales para plataformas robóticas.

Recientemente, mis colegas y yo regresamos de Yokohama, donde se estaba llevando a cabo la principal conferencia sobre robótica: la Conferencia Internacional IEEE sobre Robótica y Automatización o simplemente ICRA2024. En este post hablaré en detalle de lo interesante, en mi opinión, que se presentó este año (solo una pequeña parte de todo lo que hubo, ya que la conferencia es grande), compartiré mis impresiones y fotografías (tomada con el teléfono – ¡No juzgues estrictamente!), y también resumiré brevemente lo que nuestro equipo presentó allí.

¿Qué tipo de evento?

El nombre de la conferencia habla por sí solo: robótica y automatización. Este año se hizo hincapié en la interacción de esta área de la ciencia y la tecnología con otros aspectos de la actividad humana.

Un evento con una larga historia: la primera conferencia tuvo lugar en 1984 y desde entonces se celebra anualmente en todo el mundo. El estatus de la conferencia creció cada año: en la última década, ICRA recibió una calificación A en informática según la calificación CORE, ahora tiene una calificación A* y se considera el evento principal en este campo, al menos por criterio de citación.

Conferencias de robótica ordenadas por citas.

Conferencias de robótica ordenadas por citas.

mayo 13. Talleres de trabajo

Mis colegas Alexey Staroverov y Konstantin Mironov y yo estuvimos en Yokohama el 13 de mayo y llegamos hasta el principio.

Vista del Centro de Convenciones Pacífico Yokohama donde se llevaron a cabo las charlas

Vista del Centro de Convenciones Pacífico Yokohama donde se llevaron a cabo las charlas

No muy lejos del centro de conferencias hay un parque con un velero tan hermoso.

No muy lejos del centro de conferencias hay un parque con un velero tan hermoso.

Yo calificaría el paquete para participantes de esta manera: modesto, pero con buen gusto. El pañuelo de baño local (furoshiki) con motivos tradicionales japoneses me pareció muy lindo. Por cierto, se esfuerzan por alimentarte todos los días.

Paquete para participantes

Paquete para participantes

ICRA2024 comenzó con talleres. Uno de ellos se refiere precisamente al tema de la manipulación móvil que nos interesa: 2do Taller sobre Manipulación Móvil e Inteligencia Corporada (MOMA.v2). Entre los oradores plenarios estuvo Keerthana Gopalakrishnan de DeepMind, participante de los famosos proyectos SayCan, RT-1, RT-2, RT-X. Centrado en dos problemas de la era VLM en robótica: cómo enseñar estrategias efectivas y qué hacer con los datos. Para las estrategias, recomienda el último trabajo de su grupo, que mejora la DT utilizando ejemplos negativos: transformador Q. Bueno, con los datos solo hay una salida: todos deben colaborar y generar más y más, como en el proyecto. Abrir x-encarnación.

Los geniales robots de Google Robotics cocinan y ponen la mesa ellos mismos

Los geniales robots de Google Robotics cocinan y ponen la mesa ellos mismos

Segundo orador – Tetsuya Ogata de Japón, como un verdadero robotista, mostró muchos videos y contó pocos detalles. Se centró en el aprendizaje predictivo profundo y el control de todo el cuerpo. La manipulación a dos manos está de moda ahora, y también se mantuvo al día con ejemplos de cómo abrir el bolso de una mujer y cocinar comida (¿por qué si no necesitamos robots? ).

También conocida por su planificador PRM. Lydia Kavraki. Dijo que la manipulación móvil universal es importante para todos ahora. Anunciado un nuevo conjunto de datos para planificadores Creador de banco de movimiento.

al final me alegré Tamim Asfour un reportaje sobre las tareas cotidianas con manipulación móvil y desde hace 15 años, con diferentes versiones del robot ARMAR, el robot soluciona el problema de preparar la cena para dos en la cocina. Después de tantos años hicieron lo mismo. conjunto de datosya lanzaron la séptima versión de su robot de dos brazos y comenzaron a resolver el problema de ayudar a las personas con las reparaciones (¡por fin, más de una persona puede colgar papel tapiz!).

Línea de robots ARMAR

Línea de robots ARMAR

14 de mayo. Parte principal

El primer día de informes de la conferencia comenzó, como de costumbre, con estadísticas. Cada año hay más artículos, en 2024 habrá presentaciones de casi 4K; esto es 7 veces más que en 1994 (recuerde, dije: la conferencia es antigua). Tasa de aceptación: 44%. Los más activos, como en otros lugares, son Estados Unidos y China, pero Alemania y el Reino Unido se están poniendo al día.

En ICRA, casi una cuarta parte de los artículos se redirigen desde RA‑L, y alguien incluso sugiere hacerlo como en ARR: todo debe revisarse únicamente a través de RA‑L. La conferencia en sí es muy grande: 285 sesiones (!), 70 talleres, 11 concursos y 80 robots en la exposición, lo que merece una historia aparte.

Las mismas estadísticas de la conferencia.

Las mismas estadísticas de la conferencia.

El discurso de apertura del primer día fue de Yoky Matsuoka una y otra vez sobre el camino de la vida, espinoso y, por supuesto, exitoso. Se jactaba mucho de no haber publicado durante 10 años y de que sólo fabricaba productos robóticos útiles. El mensaje principal es que las fronteras entre la industria y la academia se están borrando gradualmente y ahora es mucho más libre que antes para avanzar y retroceder, y nuevos resultados científicos, en el calor del momento, comienzan a estar disponibles para todos en tan solo un momento. unos meses (como con GenAI). Bueno, ser explorador (investigador) en la industria ahora es tan interesante como en la ciencia.

Caminos entre la industria y la ciencia

Caminos entre la industria y la ciencia

De los artículos orales, enumeraré mis temas favoritos sobre LLM en robótica (por cierto, aquí se llama robótica habilitada para IA o basada en IA) y RL (principalmente con seguridad; esto es importante para la robótica ahora). El primer bloque trata sobre LLM y VLM:

Y un bloque de artículos sobre RL:

15 de Mayo. Parte principal

Ese día, la conferencia finalmente tuvo un muy buen informe plenario sobre el caso y con detalles. Sami Haddadin, TUM, habló sobre su visión sobre la robótica y su futuro. Comencé con la definición funcional de robot = f (encarnación, inteligencia) y repasé sus dos componentes: encarnación e inteligencia.

En su opinión, se justifican tres hipótesis: aprendizaje zero-shot, IA cooperativa y aprendizaje colectivo. Encarnation ha evolucionado mucho en los últimos años y tareas industrialmente importantes, como insertar objetos en objetos y manipular herramientas de precisión, ahora funcionan bien en robots como Franka.

En el campo de la inteligencia, en su opinión, el futuro está en la integración del control clásico y RL (incluido el prometedor DMP – primitivas de movimiento dinámico). Se centró en la formación colectiva de habilidades a la vez en toda una fábrica de robots, y en Europa se está lanzando todo un proyecto sobre este tema: AI.Factory. En términos de hardware, considera prometedor el diseño de buenas formas de robots con la ayuda de los propios robots (también me acordé de Neumann con sus autómatas autorreproducibles). Una persona solo controlará este proceso.

Cronología de los logros del laboratorio del orador

Cronología de los logros del laboratorio del orador

Allí estuvo nuestro informe oral y póster hoy. Campo NPF, dedicado a representaciones de redes neuronales de mapas y obstáculos para evitar colisiones de forma eficaz, con el que acabamos con todos los SOTA. Con código abierto y una demostración de un robot real, por cierto .

Nuestros colegas estaban muy interesados ​​en nuestra técnica de integrar cuadrículas directamente en el proceso de cálculo MPC a través de L4Casadi. Entre las infinitas opciones para evitar colisiones con diferentes heurísticas, nuestro enfoque parece mucho más universal.

Una decena de artículos seleccionados de este día que me gustaría destacar, principalmente sobre el tema de la planificación docente:

1. Gimnasio Human-Robot: Evaluación comparativa del aprendizaje por refuerzo en la colaboración entre humanos y robots — un punto de referencia y un entorno útiles para probar la colaboración entre robots y personas;

2. Optimización de políticas rápida y segura basada en proyecciones para el aprendizaje por refuerzo — ampliación segura de TRPO con proyectores adaptativos;

3. Destilación guiada en línea: promoción del aprendizaje por refuerzo seguro mediante demostración fuera de línea — destilación segura de la estrategia obtenida de demostraciones con IQL;

4. Mapeo topológico neuronal activo para la exploración de múltiples agentes — estudio eficaz del medio ambiente en un entorno con múltiples agentes utilizando datos de Gibson y H3M;

5. DiPPeR: Planificador de rutas 2D basado en difusión aplicado a robots con patas — pruebas de difusión para crear un plan para perros en movimiento con pruebas para Go1 y Spot;

6. PathRL: un método de generación de rutas de un extremo a otro para evitar colisiones mediante el aprendizaje por refuerzo profundo – similar a nuestro trabajo, pero en RL, generación de trayectorias para evitar colisiones y también con mapa de costos;

7. ¡ZAP! Acuerdo de zonótopo de predicción y planificación para evitar colisiones en tiempo continuo con dinámica de tiempo discreto — planificación formalmente segura con predicción de trayectorias por redes neuronales;

8. Planificación con submetas aprendidas seleccionadas por información temporal — planificación de trayectorias para el manipulador con subobjetivos y con AIT*;

9. Control predictivo de modelo sin restricciones para navegación robótica en condiciones de incertidumbre — MPC en el actualmente raro robot Astra de Amazone;

10. Ponderación del transformador de decisiones en línea con memoria episódica para el aprendizaje de refuerzo fuera de línea a en línea — Formación DT en dos fases online y offline.

Y un par de obras más interesantes:

1. AdaptAUG: Marco adaptativo de aumento de datos para el aprendizaje por refuerzo de múltiples agentes — diferentes opciones de aumento para MARL;

2. HyperPPO: un método escalable para encontrar pequeñas políticas para el control robótico — selección automática de la arquitectura del codificador para PPO;

3. Haga crecer sus límites: mejora continua con la vida real en el mundo real para la locomoción robótica — uno de los artículos de Levine sobre RL en un robot real con un estudio correcto del espacio de estados del robot;

4. IQL‑TD‑MPC: Q‑Learning implícito para el control predictivo de modelos jerárquicos — integración de MPC e IQL autónomo basado en TD-MPC;

5. SLIM: Aprendizaje de habilidades con múltiples críticos — formación segura de habilidades con varios críticos;

6. TWIST: Destilación del modelo mundial profesor-alumno para una transferencia eficiente de simulación a realidad — destilación del modelo mundial para una transferencia efectiva del modelo.

16 de mayo. Parte principal

El último día del programa principal comenzó con un informe plenario Sunil Agrawal sobre robótica de rehabilitación. Es cierto que es difícil llamar robots a los dispositivos que se utilizan allí, por ejemplo para recuperar la capacidad de caminar, pero automatización, seguro. Un amigo en su laboratorio está trabajando mucho para ayudar a la gente, buena suerte para él.

También ese día escuché la llamada keynote, que aquí va un poco en paralelo, desde Kensuke Harada sobre la manipulación en la industria. El hablante es un administrador de la vieja escuela, sin generación ni difusión, sólo bases de conocimiento externo sobre objetos. Mostré muchos vídeos con ejemplos bastante divertidos de tareas que implicaban desenredar cables (importante en la industria automotriz) y sacar objetos de los estantes (importante en logística).

Y, por cierto, en Japón a nadie le preocupa que los robots le quiten el trabajo a la gente. Por el contrario, muestran claramente que la fuerza laboral desaparece naturalmente cada año (la población envejece) y, por el contrario, no hay suficientes robots para reemplazarla. Por eso necesitamos más automatización e implementación para diferentes procesos, como cocinar y ensamblar teléfonos.

Donde los japoneses quieren reemplazar a las personas con robots

Donde los japoneses quieren reemplazar a las personas con robots

Diez artículos tradicionales de las presentaciones orales de este día. Diluyamos un poco los interminables LLM con multiagencia:

1. ERRA: una arquitectura de razonamiento y representación incorporada para tareas de manipulación condicionadas por el lenguaje a largo plazo — uno de los primeros trabajos en LLM para la manipulación con RA‑L 2022 incluso con T5 y CLIP;

2. Capte cualquier cosa: conjunto de datos de captación a gran escala a partir de modelos básicos — un excelente conjunto de datos sintéticos para captar objetos muy diferentes, que también se creó utilizando LLM;

3. Anticipar y actuar: integración de LLM y planificación clásica para la ejecución eficiente de tareas en entornos domésticos — otra integración de la planificación PDDL y LLM;

4. Combinación condicional de habilidades robóticas utilizando modelos de lenguaje grandes — cómo cambiar correctamente las habilidades en LLM;

5. Planificación interactiva utilizando modelos de lenguaje grandes para tareas robóticas parcialmente observables — algo más original: cómo conseguir que los LLM aprendan más sobre una tarea si no hay suficiente información;

6. Planificación óptima de gráficos de escenas con guía de modelo de lenguaje grande — planificación con verificación LTL de la máquina receptora de acciones, sin A* no se puede realizar, utilizan el conjunto de datos 3DSceneGraph;

7. CAPE: Acciones correctivas de errores de condiciones previas utilizando modelos de lenguaje grandes — en Spot y VirtualHome, SayCan se amplía para comprobar las condiciones previas de la acción;

8. GraspGPT: Aprovechamiento del conocimiento semántico de un modelo de lenguaje amplio para el agarre orientado a tareas – el llamado agarre orientado a objetivos, cuando es necesario realizar este agarre para completar una tarea (por ejemplo, verter agua de una taza y no simplemente recogerla)

9. Evaluación comparativa de la coordinación de múltiples robots en entornos realistas y no estructurados compartidos por humanos — otro punto de referencia para la planificación multiagente de Koenig;

10. Predicción de áreas de conflicto para impulsar los algoritmos de búsqueda de rutas multiagente basados ​​en búsquedas — predicción de áreas de conflicto entre agentes mediante una red neuronal.

Un par más:

1. Control predictivo de modelos basado en conflictos para una planificación escalable del movimiento de múltiples robots – buen trabajo en la integración de heurísticos CCBS y MPC para robots más realistas;

2. ALPHA Búsqueda de caminos a largo plazo basada en la atención en áreas altamente estructuradas – y aquí está MARL con un transformador gráfico, un montón de funciones artesanales y solo para entornos altamente estructurados;

3. Aprendizaje Sim‑To‑Real para la locomanipulación de cajas humanoides — buen sim2real en el robot Digit cuando transporta cargas, pero sin visión;

4. Aprendizaje de dinámica hamiltoniana a partir de observaciones de nubes de puntos para el control de robots móviles no holonómicos — desarrollo de EDO de redes neuronales para restablecer la dinámica del Jakal móvil;

5. Optimización predictiva del modelo profundo – buen trabajo al utilizar MPC como modelo para PPO;

6. SERL: un paquete de software para el aprendizaje por refuerzo robótico con muestras eficientes — un marco del equipo de Levine con entrenamiento súper efectivo en un robot real, usando DRQ‑SAC y RLPD;

7. RL robótica sin conexión a partir de vídeos de Internet mediante aprendizaje de función de valor — un enfoque de tres fases para la formación por vídeo sin una costosa calificación de las acciones por parte de expertos;

8. Aprendizaje por refuerzo seguro evitando callejones sin salida y recuperación — RL seguro con detección de ciclo.

14-16 de mayo. Exposición de robots

Se puede decir mucho sobre la exposición aquí: realmente hay suficientes robots para todos los gustos y colores. Solo te mostraré los primeros que encontré:

Hay una gran selección de desarrolladores chinos, pero de alguna manera no se confía en ellos, aunque todo parece decente. UnitreeEn este sentido destaca positivamente , que está dando mucho revuelo aquí. Una empresa promocionada gracias a hermosas video (al fin y al cabo, a los robóticos les encantan los vídeos impresionantes) y su demostración, aunque sencilla en el estilo de estar de pie y charlar, atrae a una gran multitud, ¡porque en la conferencia ya existe la posibilidad de verla en directo!

17 de mayo. Último día

Nos despedimos del congreso líder en robótica. ICRA es considerada, con razón, la más grande y honorable; incluso pueden permitirse fuegos artificiales en el banquete de despedida .

El último día de los talleres era imposible faltar Modelos visión-lenguaje para navegación y manipulación (VLMNM), aunque la abundancia de modelos de lenguaje y muletas con las que se atornillan a todo tipo de robots diferentes ya ha comenzado a llamar la atención. Pero esto fue genial Subbarao Kambhampatia quien escuché en febrero en Vancouver con los mismos pensamientos: los LLM por sí solos no pueden planificar y deben ubicarse en arquitecturas más complejas (como Modulo) para poder obtener algún beneficio.

Se le ocurrió una prueba específica (PlanBench) similar al mundo de los cubos para probar las capacidades de planificación y probó el sensacional GPT4o del nuevo. Y los clásicos todavía no tienen nada que temer – en algunos aspectos resultó ser incluso peor que la versión anterior.

También tomaré nota de los informes del taller: Fanático de Chuchu con su AUTOTAMP sobre la lógica temporal y Jeannette Bohgque contó cómo están desarrollando aún más su otrora sensacional TidyBot: ya están formulando el problema con múltiples robots y critican el aprendizaje de las demostraciones debido a las dificultades con la recopilación de datos y las estrategias inestables.

Había un par de oradores más simples: David Hsu sobre cómo tokenizar correctamente las observaciones para LLM y Yuke Zhu con la pirámide de Maslow de recopilación de datos para la robótica, desde datos web hasta datos del mundo real, de la que la robótica todavía no puede prescindir.

Prima. Desfile de robots

De postre: un desfile de robots de la conferencia, que caminaron, montaron y gatearon lo mejor que pudieron


Por cierto, llegamos a ICRA2024 inmediatamente después de que finalizara otra conferencia histórica sobre aprendizaje de representación, ICLR2024, pero hablaremos de eso en otro momento. Si no puedes esperar a saber qué pasó allí también, lee mi canal de Telegram: t.me/ai_panov. Hablo allí y publico aún más fotos de todos los eventos a los que asisto.

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *