Planificación de trayectorias en entornos complejos utilizando la política determinística profunda basada en atención
Autores: Chen, Jinlong; Jiang, Yun; Pan, Hongren; Yang, Minghao
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Planificación de trayectorias en entornos complejos utilizando la política determinística profunda basada en atención
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Algoritmo
DDPG
Multi-Entorno
Atención Multi-Cabeza
Reproducción de Experiencia Priorizada
Generalización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
El algoritmo tradicional de Deep Deterministic Policy Gradient (DDPG) frecuentemente muestra una notable reducción en la tasa de éxito al ser transferido a nuevos entornos después de ser entrenado en configuraciones de simulación complejas. Para abordar estos problemas, este documento adopta un enfoque de entrenamiento paralelo Multi-Environment (Multi-Env) e integra Multi-Head Attention (MHA) y Prioritized Experience Replay (PER) en el marco de DDPG, optimizando la función de recompensa para formar el algoritmo MAP-DDPG. Este enfoque mejora la capacidad de generalización y eficiencia de ejecución del algoritmo. A través de la capacitación y prueba comparativa de los algoritmos DDPG y MAP-DDPG en entornos de simulación y del mundo real, los resultados experimentales demuestran que MAP-DDPG mejora significativamente la generalización y eficiencia de ejecución sobre el algoritmo DDPG. Específicamente, en pruebas de entorno de simulación, el algoritmo MAP-DDPG logró un aumento promedio del 30% en la tasa de éxito y redujo el tiempo promedio para llegar al punto objetivo en 23,7 s en comparación con el algoritmo DDPG. Estos resultados indican que el algoritmo MAP-DDPG mejora significativamente la generalización de la planificación de rutas y la eficiencia de ejecución, proporcionando una solución más efectiva para la planificación de rutas en entornos complejos.
Descripción
El algoritmo tradicional de Deep Deterministic Policy Gradient (DDPG) frecuentemente muestra una notable reducción en la tasa de éxito al ser transferido a nuevos entornos después de ser entrenado en configuraciones de simulación complejas. Para abordar estos problemas, este documento adopta un enfoque de entrenamiento paralelo Multi-Environment (Multi-Env) e integra Multi-Head Attention (MHA) y Prioritized Experience Replay (PER) en el marco de DDPG, optimizando la función de recompensa para formar el algoritmo MAP-DDPG. Este enfoque mejora la capacidad de generalización y eficiencia de ejecución del algoritmo. A través de la capacitación y prueba comparativa de los algoritmos DDPG y MAP-DDPG en entornos de simulación y del mundo real, los resultados experimentales demuestran que MAP-DDPG mejora significativamente la generalización y eficiencia de ejecución sobre el algoritmo DDPG. Específicamente, en pruebas de entorno de simulación, el algoritmo MAP-DDPG logró un aumento promedio del 30% en la tasa de éxito y redujo el tiempo promedio para llegar al punto objetivo en 23,7 s en comparación con el algoritmo DDPG. Estos resultados indican que el algoritmo MAP-DDPG mejora significativamente la generalización de la planificación de rutas y la eficiencia de ejecución, proporcionando una solución más efectiva para la planificación de rutas en entornos complejos.