Un enfoque de cinemática inversa para un robot híbrido en serie-paralelo para la recolección de plátanos basado en aprendizaje profundo por refuerzo
Autores: Lin, Guichao; Huang, Peichen; Wang, Minglong; Xu, Yao; Zhang, Rihong; Zhu, Lixue
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un enfoque de cinemática inversa para un robot híbrido en serie-paralelo para la recolección de plátanos basado en aprendizaje profundo por refuerzo
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Agronomía y Ciencia de los Cultivos
Palabras clave
Robot de recolección de plátanos
Cinemática inversa
Aprendizaje profundo por refuerzo
Generación automática de objetivos
Gradiente de política determinista profunda con doble retraso
Espacio de trabajo del robot
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Un robot híbrido de recolección de plátanos en serie-paralelo fue desarrollado previamente para recoger plátanos, con cinemática inversa intratable para una dirección. Este artículo investiga una solución de cinemática inversa basada en aprendizaje profundo por refuerzo para guiar al robot de recolección de plátanos hacia un objetivo especificado. Dado que los algoritmos de aprendizaje profundo por refuerzo siempre luchan por explorar los enormes espacios de trabajo de los robots, se desarrolla primero una técnica práctica llamada generación automática de objetivos. Esto extrae objetivos aleatorios de una distribución uniforme dinámica con creciente aleatoriedad para facilitar a los algoritmos de aprendizaje profundo por refuerzo explorar todo el espacio de trabajo del robot. Luego, la generación automática de objetivos se aplica a un algoritmo de aprendizaje profundo por refuerzo de última generación, el twin-delayed deep deterministic policy gradient, para aprender una solución efectiva de cinemática inversa. Experimentos de simulación muestran que con la generación automática de objetivos, el twin-delayed deep deterministic policy gradient resolvió el problema de cinemática inversa con una tasa de éxito del 96.1% y un tiempo de ejecución promedio de 23.8 milisegundos; sin la generación automática de objetivos, la tasa de éxito fue solo del 81.2%. Los experimentos de campo muestran que el método propuesto guió con éxito al robot para acercarse a todos los objetivos. Estos demuestran que la generación automática de objetivos permite al aprendizaje profundo por refuerzo explorar efectivamente el espacio de trabajo del robot y aprender una política de cinemática inversa robusta y eficiente, que, por lo tanto, puede aplicarse al robot de recolección de plátanos híbrido en serie-paralelo desarrollado.
Descripción
Un robot híbrido de recolección de plátanos en serie-paralelo fue desarrollado previamente para recoger plátanos, con cinemática inversa intratable para una dirección. Este artículo investiga una solución de cinemática inversa basada en aprendizaje profundo por refuerzo para guiar al robot de recolección de plátanos hacia un objetivo especificado. Dado que los algoritmos de aprendizaje profundo por refuerzo siempre luchan por explorar los enormes espacios de trabajo de los robots, se desarrolla primero una técnica práctica llamada generación automática de objetivos. Esto extrae objetivos aleatorios de una distribución uniforme dinámica con creciente aleatoriedad para facilitar a los algoritmos de aprendizaje profundo por refuerzo explorar todo el espacio de trabajo del robot. Luego, la generación automática de objetivos se aplica a un algoritmo de aprendizaje profundo por refuerzo de última generación, el twin-delayed deep deterministic policy gradient, para aprender una solución efectiva de cinemática inversa. Experimentos de simulación muestran que con la generación automática de objetivos, el twin-delayed deep deterministic policy gradient resolvió el problema de cinemática inversa con una tasa de éxito del 96.1% y un tiempo de ejecución promedio de 23.8 milisegundos; sin la generación automática de objetivos, la tasa de éxito fue solo del 81.2%. Los experimentos de campo muestran que el método propuesto guió con éxito al robot para acercarse a todos los objetivos. Estos demuestran que la generación automática de objetivos permite al aprendizaje profundo por refuerzo explorar efectivamente el espacio de trabajo del robot y aprender una política de cinemática inversa robusta y eficiente, que, por lo tanto, puede aplicarse al robot de recolección de plátanos híbrido en serie-paralelo desarrollado.