Evaluación Comparativa de Algoritmos de Aprendizaje por Refuerzo para la Planificación de Rutas de Vehículos Aéreos No Tripulados de Múltiples Agentes en Entornos 2D y 3D
Autores: Ali, Mirza Aqib; Maqsood, Adnan; Athar, Usama; Khanzada, Hasan Raza
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Evaluación Comparativa de Algoritmos de Aprendizaje por Refuerzo para la Planificación de Rutas de Vehículos Aéreos No Tripulados de Múltiples Agentes en Entornos 2D y 3D
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Planificación de rutas
Enjambres de UAV de múltiples agentes
Algoritmos de aprendizaje por refuerzo
Evitación de colisiones
Configuración de simulación
Diferencias de rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La planificación de rutas en enjambres de UAV de múltiples agentes es un tema crucial que implica evitar colisiones en entornos dinámicos llenos de obstáculos, mientras se consume la menor cantidad de tiempo y energía posible. Este trabajo evalúa de manera integral los algoritmos de aprendizaje por refuerzo (RL) para la planificación de rutas de UAV de múltiples agentes en entornos simulados en 2D y 3D. Primero, desarrollamos una configuración de simulación en 2D utilizando Python en la que los UAV (cuadricópteros), representados como puntos en el espacio, navegan hacia sus respectivos objetivos mientras evitan obstáculos estáticos y colisiones entre agentes. En la segunda fase, trasladamos esta comparación a una simulación 3D basada en física, incorporando dinámicas realistas de UAV (ala fija) y navegación basada en puntos de control. Comparamos cinco algoritmos, a saber, Optimización de Política Proximal (PPO), Actor-Crítico Suave (SAC), Gradiente de Política Determinista Profunda (DDPG), Optimización de Política de Región de Confianza (TRPO) y DDPG de Múltiples Agentes (MADDPG), en varios escenarios. Nuestros hallazgos revelan diferencias significativas en el rendimiento entre los algoritmos en múltiples dimensiones. DDPG demostró consistentemente una optimización de recompensas superior y un rendimiento en la evitación de colisiones, mientras que PPO y MADDPG sobresalieron en el tiempo de ejecución requerido para alcanzar el objetivo. Además, nuestros hallazgos revelan cómo los algoritmos se desempeñan al pasar de una configuración 2D simplista a un entorno 3D realista basado en física, lo cual es esencial para realizar la transferencia de simulación a la realidad. Este trabajo proporciona valiosas ideas sobre la idoneidad de varios algoritmos de aprendizaje por refuerzo (RL) para el desarrollo de sistemas autónomos y la navegación de enjambres de UAV.
Descripción
La planificación de rutas en enjambres de UAV de múltiples agentes es un tema crucial que implica evitar colisiones en entornos dinámicos llenos de obstáculos, mientras se consume la menor cantidad de tiempo y energía posible. Este trabajo evalúa de manera integral los algoritmos de aprendizaje por refuerzo (RL) para la planificación de rutas de UAV de múltiples agentes en entornos simulados en 2D y 3D. Primero, desarrollamos una configuración de simulación en 2D utilizando Python en la que los UAV (cuadricópteros), representados como puntos en el espacio, navegan hacia sus respectivos objetivos mientras evitan obstáculos estáticos y colisiones entre agentes. En la segunda fase, trasladamos esta comparación a una simulación 3D basada en física, incorporando dinámicas realistas de UAV (ala fija) y navegación basada en puntos de control. Comparamos cinco algoritmos, a saber, Optimización de Política Proximal (PPO), Actor-Crítico Suave (SAC), Gradiente de Política Determinista Profunda (DDPG), Optimización de Política de Región de Confianza (TRPO) y DDPG de Múltiples Agentes (MADDPG), en varios escenarios. Nuestros hallazgos revelan diferencias significativas en el rendimiento entre los algoritmos en múltiples dimensiones. DDPG demostró consistentemente una optimización de recompensas superior y un rendimiento en la evitación de colisiones, mientras que PPO y MADDPG sobresalieron en el tiempo de ejecución requerido para alcanzar el objetivo. Además, nuestros hallazgos revelan cómo los algoritmos se desempeñan al pasar de una configuración 2D simplista a un entorno 3D realista basado en física, lo cual es esencial para realizar la transferencia de simulación a la realidad. Este trabajo proporciona valiosas ideas sobre la idoneidad de varios algoritmos de aprendizaje por refuerzo (RL) para el desarrollo de sistemas autónomos y la navegación de enjambres de UAV.