Aprendizaje por Observación a través de Extracción de Puntos Clave y Aprendizaje por Imitación
Autores: Sun, Yin-Tung Albert; Lin, Hsin-Chang; Wu, Po-Yen; Huang, Jung-Tang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje por Observación a través de Extracción de Puntos Clave y Aprendizaje por Imitación
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Aprendizaje por refuerzo
Aprendizaje por imitación
Modelo de seguimiento de puntos clave en 3D
Aprendizaje por imitación adversarial generativo
Demostración humana
Tareas de control de robots
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
En los últimos años, el uso del aprendizaje por refuerzo y el aprendizaje por imitación para completar tareas de control de robots se ha vuelto más popular. La demostración y el aprendizaje por parte de expertos siempre han sido el objetivo de los investigadores. Sin embargo, la falta de datos de acción ha sido una limitación significativa para el aprendizaje a partir de demostraciones humanas. Proponemos una arquitectura basada en un nuevo modelo de seguimiento de puntos clave en 3D y aprendizaje por imitación adversarial generativo para aprender de las demostraciones de expertos. Utilizamos el seguimiento de puntos clave en 3D para compensar la falta de datos de acción en imágenes simples y luego utilizamos la conversión de imagen a imagen para convertir las demostraciones de la mano humana en imágenes de robots, lo que permitió que el posterior aprendizaje por imitación adversarial generativo se realizara sin problemas. El tiempo de estimación del modelo de seguimiento de puntos clave en 3D y el tiempo de cálculo del algoritmo de optimización posterior fue de 30 ms. Los errores de coordenadas del modelo proyectado al verdadero punto clave 3D bajo detección correcta estaban todos dentro de 1.8 cm. El seguimiento de puntos clave no requería ningún sensor en el cuerpo; el operador no necesitaba conocimientos relacionados con la visión para corregir la precisión de la cámara. Al simplemente configurar una cámara de profundidad genérica para rastrear los cambios de mapeo de los puntos clave después del entrenamiento de clonación de comportamiento, el robot podía aprender tareas humanas al observar, incluyendo recoger y colocar un objeto y verter agua. Utilizamos pybullet para construir un entorno experimental para confirmar nuestro concepto de la clonación de comportamiento más simple para atestiguar el éxito del aprendizaje. La efectividad del método propuesto se logró con un rendimiento satisfactorio que requería una eficiencia de muestra de 20 conjuntos para recoger y colocar y 30 conjuntos para verter agua.
Descripción
En los últimos años, el uso del aprendizaje por refuerzo y el aprendizaje por imitación para completar tareas de control de robots se ha vuelto más popular. La demostración y el aprendizaje por parte de expertos siempre han sido el objetivo de los investigadores. Sin embargo, la falta de datos de acción ha sido una limitación significativa para el aprendizaje a partir de demostraciones humanas. Proponemos una arquitectura basada en un nuevo modelo de seguimiento de puntos clave en 3D y aprendizaje por imitación adversarial generativo para aprender de las demostraciones de expertos. Utilizamos el seguimiento de puntos clave en 3D para compensar la falta de datos de acción en imágenes simples y luego utilizamos la conversión de imagen a imagen para convertir las demostraciones de la mano humana en imágenes de robots, lo que permitió que el posterior aprendizaje por imitación adversarial generativo se realizara sin problemas. El tiempo de estimación del modelo de seguimiento de puntos clave en 3D y el tiempo de cálculo del algoritmo de optimización posterior fue de 30 ms. Los errores de coordenadas del modelo proyectado al verdadero punto clave 3D bajo detección correcta estaban todos dentro de 1.8 cm. El seguimiento de puntos clave no requería ningún sensor en el cuerpo; el operador no necesitaba conocimientos relacionados con la visión para corregir la precisión de la cámara. Al simplemente configurar una cámara de profundidad genérica para rastrear los cambios de mapeo de los puntos clave después del entrenamiento de clonación de comportamiento, el robot podía aprender tareas humanas al observar, incluyendo recoger y colocar un objeto y verter agua. Utilizamos pybullet para construir un entorno experimental para confirmar nuestro concepto de la clonación de comportamiento más simple para atestiguar el éxito del aprendizaje. La efectividad del método propuesto se logró con un rendimiento satisfactorio que requería una eficiencia de muestra de 20 conjuntos para recoger y colocar y 30 conjuntos para verter agua.