El método de control de Twin Delayed Deep Deterministic Policy Gradient con mecanismo de renacimiento para manipulador multi-DOF

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

El método de control de Twin Delayed Deep Deterministic Policy Gradient con mecanismo de renacimiento para manipulador multi-DOF

Autores: Hou, Yangyang; Hong, Huajie; Sun, Zhaomei; Xu, Dasheng; Zeng, Zhe

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

El método de control de Twin Delayed Deep Deterministic Policy Gradient con mecanismo de renacimiento para manipulador multi-DOF

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo por refuerzo

Manipulador

Twin Delayed Deep Deterministic Policy Gradient

RTD3

Multi-grado de libertad

Eficiencia de aprendizaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 63

Citaciones: Sin citaciones

Como un tema de investigación destacado en el campo de la inteligencia artificial, la aplicación del aprendizaje profundo por refuerzo al aprendizaje de la habilidad de movimiento de un manipulador puede ayudar a mejorar dicho aprendizaje sin necesidad de un modelo cinemático. Para suprimir el sesgo de sobreestimación de valores en las redes Deep Deterministic Policy Gradient (DDPG), se propuso el Twin Delayed Deep Deterministic Policy Gradient (TD3). Este artículo suprime aún más el sesgo de sobreestimación de valores para el aprendizaje de manipuladores de múltiples grados de libertad (DOF) basado en el aprendizaje profundo por refuerzo. Se propuso el Twin Delayed Deep Deterministic Policy Gradient con Mecanismo de Renacimiento (RTD3). Los resultados experimentales muestran que RTD3 aplicado a manipuladores de múltiples grados de libertad está en su lugar, con una capacidad de aprendizaje mejorada en un 29.15% sobre la base de TD3. En este artículo, se propone una función de recompensa paso a paso específicamente para el aprendizaje e innovación de la habilidad de movimiento de manipuladores de múltiples grados de libertad. Se utiliza la vista de toma de decisiones continua y el problema de proceso para guiar el aprendizaje del manipulador, y se mejora la eficiencia de aprendizaje mediante la optimización de la reproducción de la experiencia. Para medir la habilidad de movimiento de posición punto a punto de un manipulador, en este artículo se presenta un nuevo índice de evaluación basado en las características del problema de proceso de toma de decisiones continuo, la distancia de eficiencia energética, que puede evaluar la calidad de aprendizaje de la habilidad de movimiento del manipulador mediante un algoritmo de evaluación más completo y justo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro