logo móvil
Contáctanos

Un enfoque de cinemática inversa para un robot híbrido en serie-paralelo para la recolección de plátanos basado en aprendizaje profundo por refuerzo

Autores: Lin, Guichao; Huang, Peichen; Wang, Minglong; Xu, Yao; Zhang, Rihong; Zhu, Lixue

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un enfoque de cinemática inversa para un robot híbrido en serie-paralelo para la recolección de plátanos basado en aprendizaje profundo por refuerzo


Categoría

Ciencias Agrícolas y Biológicas

Subcategoría

Agronomía y Ciencia de los Cultivos

Palabras clave

Robot de recolección de plátanos
Cinemática inversa
Aprendizaje profundo por refuerzo
Generación automática de objetivos
Gradiente de política determinista profunda con doble retraso
Espacio de trabajo del robot

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Un robot híbrido de recolección de plátanos en serie-paralelo fue desarrollado previamente para recoger plátanos, con cinemática inversa intratable para una dirección. Este artículo investiga una solución de cinemática inversa basada en aprendizaje profundo por refuerzo para guiar al robot de recolección de plátanos hacia un objetivo especificado. Dado que los algoritmos de aprendizaje profundo por refuerzo siempre luchan por explorar los enormes espacios de trabajo de los robots, se desarrolla primero una técnica práctica llamada generación automática de objetivos. Esto extrae objetivos aleatorios de una distribución uniforme dinámica con creciente aleatoriedad para facilitar a los algoritmos de aprendizaje profundo por refuerzo explorar todo el espacio de trabajo del robot. Luego, la generación automática de objetivos se aplica a un algoritmo de aprendizaje profundo por refuerzo de última generación, el twin-delayed deep deterministic policy gradient, para aprender una solución efectiva de cinemática inversa. Experimentos de simulación muestran que con la generación automática de objetivos, el twin-delayed deep deterministic policy gradient resolvió el problema de cinemática inversa con una tasa de éxito del 96.1% y un tiempo de ejecución promedio de 23.8 milisegundos; sin la generación automática de objetivos, la tasa de éxito fue solo del 81.2%. Los experimentos de campo muestran que el método propuesto guió con éxito al robot para acercarse a todos los objetivos. Estos demuestran que la generación automática de objetivos permite al aprendizaje profundo por refuerzo explorar efectivamente el espacio de trabajo del robot y aprender una política de cinemática inversa robusta y eficiente, que, por lo tanto, puede aplicarse al robot de recolección de plátanos híbrido en serie-paralelo desarrollado.

Otros recursos que podrían interesarte

Temas Virtualpro