logo móvil
Contáctanos

El método de control de Twin Delayed Deep Deterministic Policy Gradient con mecanismo de renacimiento para manipulador multi-DOF

Autores: Hou, Yangyang; Hong, Huajie; Sun, Zhaomei; Xu, Dasheng; Zeng, Zhe

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

El método de control de Twin Delayed Deep Deterministic Policy Gradient con mecanismo de renacimiento para manipulador multi-DOF


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo por refuerzo
Manipulador
Twin Delayed Deep Deterministic Policy Gradient
RTD3
Multi-grado de libertad
Eficiencia de aprendizaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 63

Citaciones: Sin citaciones


Descripción
Como un tema de investigación destacado en el campo de la inteligencia artificial, la aplicación del aprendizaje profundo por refuerzo al aprendizaje de la habilidad de movimiento de un manipulador puede ayudar a mejorar dicho aprendizaje sin necesidad de un modelo cinemático. Para suprimir el sesgo de sobreestimación de valores en las redes Deep Deterministic Policy Gradient (DDPG), se propuso el Twin Delayed Deep Deterministic Policy Gradient (TD3). Este artículo suprime aún más el sesgo de sobreestimación de valores para el aprendizaje de manipuladores de múltiples grados de libertad (DOF) basado en el aprendizaje profundo por refuerzo. Se propuso el Twin Delayed Deep Deterministic Policy Gradient con Mecanismo de Renacimiento (RTD3). Los resultados experimentales muestran que RTD3 aplicado a manipuladores de múltiples grados de libertad está en su lugar, con una capacidad de aprendizaje mejorada en un 29.15% sobre la base de TD3. En este artículo, se propone una función de recompensa paso a paso específicamente para el aprendizaje e innovación de la habilidad de movimiento de manipuladores de múltiples grados de libertad. Se utiliza la vista de toma de decisiones continua y el problema de proceso para guiar el aprendizaje del manipulador, y se mejora la eficiencia de aprendizaje mediante la optimización de la reproducción de la experiencia. Para medir la habilidad de movimiento de posición punto a punto de un manipulador, en este artículo se presenta un nuevo índice de evaluación basado en las características del problema de proceso de toma de decisiones continuo, la distancia de eficiencia energética, que puede evaluar la calidad de aprendizaje de la habilidad de movimiento del manipulador mediante un algoritmo de evaluación más completo y justo.

Otros recursos que podrían interesarte

Temas Virtualpro