
Mike Grimmett / CSAIL del MIT
2024-12-16
Enseñarle a un robot sus límites para que pueda completar tareas abiertas de forma segura
Si alguien te aconseja “conocer tus límites”, probablemente te esté sugiriendo que hagas cosas como hacer ejercicio con moderación. Sin embargo, para un robot, el lema representa las limitaciones de aprendizaje, o las limitaciones de una tarea específica dentro del entorno de la máquina, para realizar las tareas de forma segura y correcta.
Por ejemplo, imagina pedirle a un robot que limpie tu cocina cuando no entiende la física de su entorno. ¿Cómo puede la máquina generar un plan práctico de varios pasos para garantizar que la habitación esté impecable? Los modelos de lenguaje grandes (LLM) pueden acercarlos, pero si el modelo solo está entrenado con texto, es probable que pase por alto detalles clave sobre las limitaciones físicas del robot, como qué tan lejos puede llegar o si hay obstáculos cercanos que evitar. Si te limitas solo a los LLM, es probable que termines limpiando manchas de pasta de las tablas del piso.
Para guiar a los robots en la ejecución de estas tareas abiertas, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT utilizaron modelos de visión para ver qué hay cerca de la máquina y modelar sus limitaciones. La estrategia del equipo implica que un LLM esboce un plan que se verifica en un simulador para garantizar que sea seguro y realista. Si esa secuencia de acciones no es factible, el modelo de lenguaje generará un nuevo plan, hasta que llegue a uno que el robot pueda ejecutar.
Este método de ensayo y error, que los investigadores denominan “Planificación para robots mediante código para la satisfacción continua de restricciones” (PRoC3S), prueba planes a largo plazo para garantizar que satisfacen todas las restricciones y permite que un robot realice tareas tan diversas como escribir letras individuales, dibujar una estrella y clasificar y colocar bloques en diferentes posiciones. En el futuro, PRoC3S podría ayudar a los robots a realizar tareas más complejas en entornos dinámicos como las casas, donde se les puede pedir que realicen una tarea general compuesta de muchos pasos (como “prepárame el desayuno”).
“Los sistemas de robótica clásica y los de maestría en derecho, como los planificadores de tareas y movimientos, no pueden ejecutar este tipo de tareas por sí solos, pero juntos, su sinergia hace posible la resolución de problemas abiertos”, afirma el estudiante de doctorado Nishanth Kumar SM ´24, coautor principal de un nuevo artículo sobre PRoC3S. “Estamos creando una simulación sobre la marcha de lo que hay alrededor del robot y probando muchos planes de acción posibles. Los modelos de visión nos ayudan a crear un mundo digital muy realista que permite al robot razonar sobre acciones factibles para cada paso de un plan a largo plazo”.
El trabajo del equipo fue presentado el mes pasado en un artículo exhibido en la Conferencia sobre Aprendizaje Robótico (CoRL) en Múnich, Alemania.
El método de los investigadores utiliza un modelo de lenguaje preentrenado con texto de Internet. Antes de pedirle a PRoC3S que realice una tarea, el equipo proporcionó a su modelo de lenguaje una tarea de muestra (como dibujar un cuadrado) relacionada con la tarea objetivo (dibujar una estrella). La tarea de muestra incluye una descripción de la actividad, un plan a largo plazo y detalles relevantes sobre el entorno del robot.
Pero, ¿cómo se comportaron estos planes en la práctica? En las simulaciones, PRoC3S dibujó con éxito estrellas y letras ocho de cada diez veces cada una. También pudo apilar bloques digitales en pirámides y líneas, y colocar elementos con precisión, como frutas en un plato. En cada una de estas demostraciones digitales, el método CSAIL completó la tarea solicitada de manera más consistente que enfoques comparables como “LLM3” y “Code as Policies” .
A continuación, los ingenieros de CSAIL llevaron su enfoque al mundo real. Su método desarrolló y ejecutó planes en un brazo robótico, enseñándole a colocar bloques en líneas rectas. PRoC3S también permitió que la máquina colocara bloques azules y rojos en cuencos iguales y moviera todos los objetos cerca del centro de una mesa.
Kumar y el coautor principal Aidan Curtis SM ´23, quien también es un estudiante de doctorado que trabaja en CSAIL, dicen que estos hallazgos indican cómo un LLM puede desarrollar planes más seguros en los que los humanos puedan confiar para que funcionen en la práctica. Los investigadores imaginan un robot doméstico al que se le pueda dar una solicitud más general (como "tráeme unas patatas fritas") y que determine de manera confiable los pasos específicos necesarios para ejecutarla. PRoC3S podría ayudar a un robot a probar planes en un entorno digital idéntico para encontrar un curso de acción que funcione y, lo que es más importante, traerte un bocadillo sabroso.
En el futuro, los investigadores pretenden mejorar los resultados utilizando un simulador de física más avanzado y ampliarlo a tareas más elaboradas y de horizonte más amplio mediante técnicas de búsqueda de datos más escalables. Además, planean aplicar PRoC3S a robots móviles, como un cuadrúpedo, para tareas que incluyan caminar y explorar el entorno.
“El uso de modelos básicos como ChatGPT para controlar las acciones de los robots puede provocar comportamientos inseguros o incorrectos debido a alucinaciones”, afirma el investigador del AI Institute Eric Rosen, que no participa en la investigación. “PRoC3S aborda este problema aprovechando los modelos básicos para la orientación de tareas de alto nivel, al tiempo que emplea técnicas de IA que razonan explícitamente sobre el mundo para garantizar acciones verificablemente seguras y correctas. Esta combinación de enfoques basados en la planificación y los datos puede ser clave para desarrollar robots capaces de comprender y realizar de forma fiable una gama más amplia de tareas de las que son posibles actualmente”.
Los coautores de Kumar y Curtis también son afiliados de CSAIL: el investigador de pregrado del MIT Jing Cao y los profesores del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT Leslie Pack Kaelbling y Tomás Lozano-Pérez. Su trabajo fue financiado, en parte, por la National Science Foundation, la Oficina de Investigación Científica de la Fuerza Aérea, la Oficina de Investigación Naval, la Oficina de Investigación del Ejército, MIT Quest for Intelligence y The AI Institute.

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...