El método de control de Twin Delayed Deep Deterministic Policy Gradient con mecanismo de renacimiento para manipulador multi-DOF
Autores: Hou, Yangyang; Hong, Huajie; Sun, Zhaomei; Xu, Dasheng; Zeng, Zhe
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
El método de control de Twin Delayed Deep Deterministic Policy Gradient con mecanismo de renacimiento para manipulador multi-DOF
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo por refuerzo
Manipulador
Twin Delayed Deep Deterministic Policy Gradient
RTD3
Multi-grado de libertad
Eficiencia de aprendizaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 63
Citaciones: Sin citaciones
Como un tema de investigación destacado en el campo de la inteligencia artificial, la aplicación del aprendizaje profundo por refuerzo al aprendizaje de la habilidad de movimiento de un manipulador puede ayudar a mejorar dicho aprendizaje sin necesidad de un modelo cinemático. Para suprimir el sesgo de sobreestimación de valores en las redes Deep Deterministic Policy Gradient (DDPG), se propuso el Twin Delayed Deep Deterministic Policy Gradient (TD3). Este artículo suprime aún más el sesgo de sobreestimación de valores para el aprendizaje de manipuladores de múltiples grados de libertad (DOF) basado en el aprendizaje profundo por refuerzo. Se propuso el Twin Delayed Deep Deterministic Policy Gradient con Mecanismo de Renacimiento (RTD3). Los resultados experimentales muestran que RTD3 aplicado a manipuladores de múltiples grados de libertad está en su lugar, con una capacidad de aprendizaje mejorada en un 29.15% sobre la base de TD3. En este artículo, se propone una función de recompensa paso a paso específicamente para el aprendizaje e innovación de la habilidad de movimiento de manipuladores de múltiples grados de libertad. Se utiliza la vista de toma de decisiones continua y el problema de proceso para guiar el aprendizaje del manipulador, y se mejora la eficiencia de aprendizaje mediante la optimización de la reproducción de la experiencia. Para medir la habilidad de movimiento de posición punto a punto de un manipulador, en este artículo se presenta un nuevo índice de evaluación basado en las características del problema de proceso de toma de decisiones continuo, la distancia de eficiencia energética, que puede evaluar la calidad de aprendizaje de la habilidad de movimiento del manipulador mediante un algoritmo de evaluación más completo y justo.
Descripción
Como un tema de investigación destacado en el campo de la inteligencia artificial, la aplicación del aprendizaje profundo por refuerzo al aprendizaje de la habilidad de movimiento de un manipulador puede ayudar a mejorar dicho aprendizaje sin necesidad de un modelo cinemático. Para suprimir el sesgo de sobreestimación de valores en las redes Deep Deterministic Policy Gradient (DDPG), se propuso el Twin Delayed Deep Deterministic Policy Gradient (TD3). Este artículo suprime aún más el sesgo de sobreestimación de valores para el aprendizaje de manipuladores de múltiples grados de libertad (DOF) basado en el aprendizaje profundo por refuerzo. Se propuso el Twin Delayed Deep Deterministic Policy Gradient con Mecanismo de Renacimiento (RTD3). Los resultados experimentales muestran que RTD3 aplicado a manipuladores de múltiples grados de libertad está en su lugar, con una capacidad de aprendizaje mejorada en un 29.15% sobre la base de TD3. En este artículo, se propone una función de recompensa paso a paso específicamente para el aprendizaje e innovación de la habilidad de movimiento de manipuladores de múltiples grados de libertad. Se utiliza la vista de toma de decisiones continua y el problema de proceso para guiar el aprendizaje del manipulador, y se mejora la eficiencia de aprendizaje mediante la optimización de la reproducción de la experiencia. Para medir la habilidad de movimiento de posición punto a punto de un manipulador, en este artículo se presenta un nuevo índice de evaluación basado en las características del problema de proceso de toma de decisiones continuo, la distancia de eficiencia energética, que puede evaluar la calidad de aprendizaje de la habilidad de movimiento del manipulador mediante un algoritmo de evaluación más completo y justo.