Acelerando el Aprendizaje por Refuerzo Interactivo mediante Consejos Humanos para una Tarea de Ensamblaje por un Cobot
Autores: De Winter, Joris; De Beir, Albert; El Makrini, Ilias; Van de Perre, Greet; Nowé, Ann; Vanderborght, Bram
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Acelerando el Aprendizaje por Refuerzo Interactivo mediante Consejos Humanos para una Tarea de Ensamblaje por un Cobot
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Industria de ensamblaje
Productos personalizables
Cobot
Secuencia de ensamblaje
Conocimiento humano
Velocidad de aprendizaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
La industria de ensamblaje se está moviendo más hacia productos personalizables o que requieren el ensamblaje de pequeños lotes. Esto requiere mucha reprogramación, lo cual es costoso porque se necesita un ingeniero especializado. Sería una mejora si los trabajadores no capacitados pudieran ayudar a un cobot a aprender una secuencia de ensamblaje dando consejos. Aprender una secuencia de ensamblaje es una tarea difícil para un cobot, porque el espacio de soluciones aumenta drásticamente cuando la complejidad de la tarea aumenta. Este trabajo presenta un método novedoso donde se utiliza el conocimiento humano para reducir este espacio de soluciones y, como resultado, aumentar la velocidad de aprendizaje. El método propuesto es el método IRL-PBRS, que utiliza Aprendizaje por Refuerzo Interactivo (IRL) para aprender de los consejos humanos de manera interactiva, y utiliza Modelado de Recompensas Basado en Potencial (PBRS), en un entorno simulado, para enfocar el aprendizaje en una parte más pequeña del espacio de soluciones. El método se comparó en simulación con dos otras estrategias de retroalimentación. Los resultados muestran que IRL-PBRS converge más rápidamente a una política de secuencia de ensamblaje válida y lo hace con la menor cantidad de interacciones humanas. Finalmente, se presenta un caso de uso donde se pidió a los participantes que programaran una tarea de ensamblaje. Aquí, los resultados muestran que IRL-PBRS aprende lo suficientemente rápido como para mantenerse al día con los consejos dados por un usuario y es capaz de adaptarse en línea a una base de conocimiento cambiante.
Descripción
La industria de ensamblaje se está moviendo más hacia productos personalizables o que requieren el ensamblaje de pequeños lotes. Esto requiere mucha reprogramación, lo cual es costoso porque se necesita un ingeniero especializado. Sería una mejora si los trabajadores no capacitados pudieran ayudar a un cobot a aprender una secuencia de ensamblaje dando consejos. Aprender una secuencia de ensamblaje es una tarea difícil para un cobot, porque el espacio de soluciones aumenta drásticamente cuando la complejidad de la tarea aumenta. Este trabajo presenta un método novedoso donde se utiliza el conocimiento humano para reducir este espacio de soluciones y, como resultado, aumentar la velocidad de aprendizaje. El método propuesto es el método IRL-PBRS, que utiliza Aprendizaje por Refuerzo Interactivo (IRL) para aprender de los consejos humanos de manera interactiva, y utiliza Modelado de Recompensas Basado en Potencial (PBRS), en un entorno simulado, para enfocar el aprendizaje en una parte más pequeña del espacio de soluciones. El método se comparó en simulación con dos otras estrategias de retroalimentación. Los resultados muestran que IRL-PBRS converge más rápidamente a una política de secuencia de ensamblaje válida y lo hace con la menor cantidad de interacciones humanas. Finalmente, se presenta un caso de uso donde se pidió a los participantes que programaran una tarea de ensamblaje. Aquí, los resultados muestran que IRL-PBRS aprende lo suficientemente rápido como para mantenerse al día con los consejos dados por un usuario y es capaz de adaptarse en línea a una base de conocimiento cambiante.