logo móvil
Contáctanos
Portada

imagen. / Rayne Zaayman-Gallant / EMBL

2024-05-27

La IA de aprendizaje reforzado podría llevar robots humanoides al mundo real


ChatGPT y otras herramientas de IA están revolucionando nuestra vida digital, pero nuestras interacciones con IA están a punto de volverse físicas. Los robots humanoides entrenados con un tipo particular de IA para detectar y reaccionar a su mundo podrían ayudar en fábricas, estaciones espaciales, hogares de ancianos y más. Dos artículos recientes en Science Robotics destacan cómo ese tipo de IA, llamado aprendizaje por refuerzo, podría hacer que estos robots sean una realidad.

"Hemos visto avances realmente maravillosos en la IA en el mundo digital con herramientas como GPT", dice Ilija Radosavovic, científico informático de la Universidad de California, Berkeley. "Pero creo que la IA en el mundo físico tiene el potencial de ser aún más transformadora".

El software de última generación que controla los movimientos de los robots bípedos suele utilizar lo que se llama control predictivo basado en modelos. Esto ha llevado a sistemas muy sofisticados, como el robot Atlas de Boston Dynamics que realiza parkour. Pero estos cerebros de robots requieren bastante experiencia humana para programarse y no se adaptan bien a situaciones desconocidas. El aprendizaje por refuerzo, o RL, en el que la IA aprende mediante prueba y error a realizar secuencias de acciones, puede resultar un mejor enfoque.

"Queríamos ver hasta dónde podemos impulsar el aprendizaje por refuerzo en robots reales", dice Tuomas Haarnoja, científico informático de Google DeepMind y coautor de uno de los artículos de Science Robotics. Haarnoja y sus colegas decidieron desarrollar software para un robot de juguete de 20 pulgadas de alto llamado OP3, fabricado por la empresa Robotis. El equipo no sólo quería enseñarle a OP3 a caminar sino también a jugar fútbol uno a uno.

"El fútbol es un entorno agradable para estudiar el aprendizaje por refuerzo general", afirma Guy Lever de Google DeepMind, coautor del artículo. Requiere planificación, agilidad, exploración, cooperación y competencia.

Los robots respondieron mejor cuando aprendieron a moverse por sí solos, en lugar de ser programados manualmente. Como entrada, las IA recibieron datos que incluían las posiciones y movimientos de las articulaciones del robot y, de cámaras externas, las posiciones de todo lo demás en el juego. Las IA tuvieron que generar nuevas posiciones conjuntas.

El tamaño de juguete de los robots "nos permitió iterar rápidamente", dice Haarnoja, porque los robots más grandes son más difíciles de operar y reparar. Y antes de implementar el software de aprendizaje automático en robots reales (que pueden romperse cuando se caen), los investigadores lo entrenaron en robots virtuales, una técnica conocida como transferencia de simulación a real.

El entrenamiento de los robots virtuales se desarrolló en dos etapas. En la primera etapa, el equipo entrenó una IA usando RL simplemente para levantar el robot virtual del suelo y otra para marcar goles sin caerse. Como entrada, las IA recibieron datos que incluían las posiciones y movimientos de las articulaciones del robot y, de cámaras externas, las posiciones de todo lo demás en el juego. (En una preimpresión publicada recientemente, el equipo creó una versión del sistema que se basa en la propia visión del robot). Las IA tuvieron que generar nuevas posiciones articulares. Si tenían un buen desempeño, sus parámetros internos se actualizaban para fomentar más del mismo comportamiento. En la segunda etapa, los investigadores entrenaron una IA para imitar a cada una de las dos primeras IA y anotar contra oponentes muy parecidos (versiones de sí misma).

Para preparar el software de control, llamado controlador, para los robots del mundo real, los investigadores variaron aspectos de la simulación, incluida la fricción, los retrasos de los sensores y la distribución de la masa corporal. También recompensaron a la IA no solo por marcar goles sino también por otras cosas, como minimizar el torque de la rodilla para evitar lesiones.

Los robots reales probados con el software de control RL caminaron casi el doble de rápido, giraron tres veces más rápido y tardaron menos de la mitad de tiempo en levantarse en comparación con los robots que usaban el controlador programado creado por el fabricante. Pero también surgieron habilidades más avanzadas, como encadenar acciones con fluidez. "Fue realmente agradable ver que los robots aprenden habilidades motoras más complejas", dice Radosavovic, que no participó en la investigación. Y el controlador aprendía no solo movimientos individuales, sino también la planificación necesaria para jugar, como saber interponerse en el camino del disparo de un oponente.

“En mi opinión, el periódico sobre fútbol es asombroso”, afirma Joonho Lee, robotista de ETH Zurich. "Nunca hemos visto tanta resiliencia por parte de los humanoides".

Pero ¿qué pasa con los humanoides de tamaño humano? En otro artículo reciente, Radosavovic trabajó con colegas para entrenar un controlador para un robot humanoide más grande. Este, Digit de Agility Robotics, mide aproximadamente cinco pies de alto y tiene rodillas que se doblan hacia atrás como un avestruz. El enfoque del equipo fue similar al de Google DeepMind. Ambos equipos utilizaron cerebros informáticos conocidos como redes neuronales, pero Radosavovic utilizó un tipo especializado llamado transformador, del tipo común en modelos de lenguaje grandes como los que impulsan ChatGPT.

En lugar de tomar palabras y generar más palabras, el modelo tomó 16 pares de observación-acción (lo que el robot había sentido y hecho durante las 16 instantáneas de tiempo anteriores, que cubrían aproximadamente un tercio de segundo) y generó su siguiente acción. Para facilitar el aprendizaje, primero aprendió basándose en observaciones de la velocidad y las posiciones reales de sus articulaciones, antes de utilizar observaciones con ruido añadido, una tarea más realista. Para permitir aún más la transferencia de simulación a real, los investigadores aleatorizaron ligeramente aspectos del cuerpo del robot virtual y crearon una variedad de terreno virtual, incluyendo pendientes, cables que inducen a tropiezos y plástico de burbujas.

Este robot bípedo aprendió a manejar una variedad de desafíos físicos, incluido caminar en diferentes terrenos y perder el equilibrio con una pelota de ejercicios. Parte del entrenamiento del robot implicó un modelo transformador, como el utilizado en ChatGPT, para procesar entradas de datos y aprender y decidir su próximo movimiento.

Después de entrenar en el mundo digital, el controlador operó un robot real durante una semana completa de pruebas al aire libre, evitando que el robot se cayera ni una sola vez. Y en el laboratorio, el robot resistió fuerzas externas, como si le arrojaran una pelota de ejercicio inflable. El controlador también superó al controlador sin aprendizaje automático del fabricante, atravesando fácilmente una serie de tablas en el suelo. Y mientras que el controlador predeterminado se atascó al intentar subir un escalón, el RL logró resolverlo, a pesar de que no había visto escalones durante el entrenamiento.

El aprendizaje por refuerzo para la locomoción de cuatro patas se ha vuelto popular en los últimos años, y estos estudios muestran que las mismas técnicas ahora funcionan para robots de dos patas. "Estos artículos están a la par o han ido más allá de los controladores definidos manualmente: un punto de inflexión", dice Pulkit Agrawal, científico informático del MIT. "Con el poder de los datos, será posible desbloquear muchas más capacidades en un período de tiempo relativamente corto". 

Y es probable que los enfoques de los artículos sean complementarios. Los futuros robots de IA pueden necesitar la solidez del sistema de Berkeley y la destreza del de Google DeepMind. El fútbol del mundo real incorpora ambos. Según Lever, el fútbol “ha sido un gran desafío para la robótica y la IA desde hace bastante tiempo”.

CITAS

T. Haarnoja y col. "Aprendiendo habilidades futbolísticas ágiles para un robot bípedo con aprendizaje por refuerzo profundo". Robótica científica. 10 de abril de 2024. doi: 10.1126/scirobotics.adi8022.

 I. Radosavovic y col. "Locomoción humanoide del mundo real con aprendizaje por refuerzo". Robótica científica. 17 de abril de 2024. doi: 10.1126/scirobotics.adi9579.

Por Matthew Hutson

Autor

Autor
Imagen Science News

Science News

Durante casi un siglo, los periodistas de Science News han cubierto avances en ciencia, medicina y tecnología para el público en general, incluido el ensayo del "mono" de Scopes de 1925, el advenimiento de la era atómica en 1945, la carrera espacial y la revolución de la ingeniería genética, desde el descubrimiento del ADN hasta la tecnología actual de edición de genes. En apoyo de nuestra misión de servir al interés público al brindar una cobertura precisa e imparcial de noticias en ciencia, medicina y tecnología, seguimos estándares ampliamente reconocidos de periodismo desarrollados y adheridos por las principales organizaciones de noticias. Eso incluye ser honestos y transparentes en nuestro trabajo y en nuestras interacciones con fuentes y lectores.

Noticias más leídas

Otros recursos que podrían interesarte

Temas Virtualpro