Un enfoque de Aprendizaje por Refuerzo Inverso Incremental para la Planificación de Movimiento con Preferencias de Ruta y Velocidad Separadas
Autores: Avaei, Armin; van der Spaa, Linda; Peternel, Luka; Kober, Jens
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un enfoque de Aprendizaje por Refuerzo Inverso Incremental para la Planificación de Movimiento con Preferencias de Ruta y Velocidad Separadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Demostrar
Comportamientos
Preferencias
Planificación de trayectorias
Manipuladores robóticos
Estudio de usuarios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Los humanos a menudo demuestran comportamientos diversos debido a sus preferencias personales, por ejemplo, relacionadas con su estilo de ejecución individual o su margen personal de seguridad. En este artículo, consideramos el problema de integrar tanto las preferencias de trayectoria como las de velocidad en la planificación de trayectorias para manipuladores robóticos. Primero aprendemos funciones de recompensa que representan las preferencias de trayectoria y velocidad del usuario a partir de demostraciones kinestésicas. Luego optimizamos la trayectoria en dos pasos, primero la trayectoria y luego la velocidad, para producir trayectorias que se adhieran tanto a los requisitos de la tarea como a las preferencias del usuario. Diseñamos un conjunto de características parametrizadas que capturan las preferencias fundamentales en una tarea de transporte de objetos tipo recoger y colocar, tanto en la forma como en el tiempo del movimiento. Demostramos que nuestro método es capaz de generalizar tales preferencias a nuevos escenarios. Implementamos nuestro algoritmo en un brazo robótico Franka Emika de 7 grados de libertad y validamos la funcionalidad y flexibilidad de nuestro enfoque en un estudio con usuarios. Los resultados muestran que los usuarios no expertos pueden enseñar al robot sus preferencias con solo unas pocas iteraciones de retroalimentación.
Descripción
Los humanos a menudo demuestran comportamientos diversos debido a sus preferencias personales, por ejemplo, relacionadas con su estilo de ejecución individual o su margen personal de seguridad. En este artículo, consideramos el problema de integrar tanto las preferencias de trayectoria como las de velocidad en la planificación de trayectorias para manipuladores robóticos. Primero aprendemos funciones de recompensa que representan las preferencias de trayectoria y velocidad del usuario a partir de demostraciones kinestésicas. Luego optimizamos la trayectoria en dos pasos, primero la trayectoria y luego la velocidad, para producir trayectorias que se adhieran tanto a los requisitos de la tarea como a las preferencias del usuario. Diseñamos un conjunto de características parametrizadas que capturan las preferencias fundamentales en una tarea de transporte de objetos tipo recoger y colocar, tanto en la forma como en el tiempo del movimiento. Demostramos que nuestro método es capaz de generalizar tales preferencias a nuevos escenarios. Implementamos nuestro algoritmo en un brazo robótico Franka Emika de 7 grados de libertad y validamos la funcionalidad y flexibilidad de nuestro enfoque en un estudio con usuarios. Los resultados muestran que los usuarios no expertos pueden enseñar al robot sus preferencias con solo unas pocas iteraciones de retroalimentación.