Aprendizaje por Refuerzo en Robótica: Aplicaciones y Desafíos del Mundo Real
Autores: Kormushev, Petar; Calinon, Sylvain; Caldwell, Darwin G.
Idioma: Inglés
Editor: MDPI
Año: 2013
Acceso abierto
Artículo científico
2013
Aprendizaje por Refuerzo en Robótica: Aplicaciones y Desafíos del Mundo Real
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Robots
Tareas
Representaciones de políticas
Desafíos
Estado del arte
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
En robótica, el objetivo final del aprendizaje por refuerzo es dotar a los robots de la capacidad de aprender, mejorar, adaptarse y reproducir tareas con restricciones dinámicamente cambiantes basadas en la exploración y el aprendizaje autónomo. Presentamos un resumen del estado del arte del aprendizaje por refuerzo en el contexto de la robótica, tanto en términos de algoritmos como de representaciones de políticas. Se identifican numerosos desafíos que enfrenta la representación de políticas en robótica. Se describen tres ejemplos recientes de la aplicación del aprendizaje por refuerzo a robots del mundo real: una tarea de voltear panqueques, una tarea de minimización de energía en caminatas bípedas y una tarea de puntería basada en tiro con arco. En todos los ejemplos, se utiliza un aprendizaje por refuerzo basado en la maximización de expectativas de última generación, y se proponen y evalúan diferentes representaciones de políticas para cada tarea. Las representaciones de políticas propuestas ofrecen soluciones viables a seis desafíos raramente abordados en las representaciones de políticas: correlaciones, adaptabilidad, multi-resolución, globalidad, multi-dimensionalidad y convergencia. Se discuten tanto los éxitos como las dificultades prácticas encontradas en estos ejemplos. Basándose en las ideas de estos casos particulares, se extraen conclusiones sobre el estado del arte y las direcciones futuras para el aprendizaje por refuerzo en robótica.
Descripción
En robótica, el objetivo final del aprendizaje por refuerzo es dotar a los robots de la capacidad de aprender, mejorar, adaptarse y reproducir tareas con restricciones dinámicamente cambiantes basadas en la exploración y el aprendizaje autónomo. Presentamos un resumen del estado del arte del aprendizaje por refuerzo en el contexto de la robótica, tanto en términos de algoritmos como de representaciones de políticas. Se identifican numerosos desafíos que enfrenta la representación de políticas en robótica. Se describen tres ejemplos recientes de la aplicación del aprendizaje por refuerzo a robots del mundo real: una tarea de voltear panqueques, una tarea de minimización de energía en caminatas bípedas y una tarea de puntería basada en tiro con arco. En todos los ejemplos, se utiliza un aprendizaje por refuerzo basado en la maximización de expectativas de última generación, y se proponen y evalúan diferentes representaciones de políticas para cada tarea. Las representaciones de políticas propuestas ofrecen soluciones viables a seis desafíos raramente abordados en las representaciones de políticas: correlaciones, adaptabilidad, multi-resolución, globalidad, multi-dimensionalidad y convergencia. Se discuten tanto los éxitos como las dificultades prácticas encontradas en estos ejemplos. Basándose en las ideas de estos casos particulares, se extraen conclusiones sobre el estado del arte y las direcciones futuras para el aprendizaje por refuerzo en robótica.