logo móvil
Contáctanos

Evaluación Comparativa de Algoritmos de Aprendizaje por Refuerzo para la Planificación de Rutas de Vehículos Aéreos No Tripulados de Múltiples Agentes en Entornos 2D y 3D

Autores: Ali, Mirza Aqib; Maqsood, Adnan; Athar, Usama; Khanzada, Hasan Raza

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Evaluación Comparativa de Algoritmos de Aprendizaje por Refuerzo para la Planificación de Rutas de Vehículos Aéreos No Tripulados de Múltiples Agentes en Entornos 2D y 3D


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Planificación de rutas
Enjambres de UAV de múltiples agentes
Algoritmos de aprendizaje por refuerzo
Evitación de colisiones
Configuración de simulación
Diferencias de rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La planificación de rutas en enjambres de UAV de múltiples agentes es un tema crucial que implica evitar colisiones en entornos dinámicos llenos de obstáculos, mientras se consume la menor cantidad de tiempo y energía posible. Este trabajo evalúa de manera integral los algoritmos de aprendizaje por refuerzo (RL) para la planificación de rutas de UAV de múltiples agentes en entornos simulados en 2D y 3D. Primero, desarrollamos una configuración de simulación en 2D utilizando Python en la que los UAV (cuadricópteros), representados como puntos en el espacio, navegan hacia sus respectivos objetivos mientras evitan obstáculos estáticos y colisiones entre agentes. En la segunda fase, trasladamos esta comparación a una simulación 3D basada en física, incorporando dinámicas realistas de UAV (ala fija) y navegación basada en puntos de control. Comparamos cinco algoritmos, a saber, Optimización de Política Proximal (PPO), Actor-Crítico Suave (SAC), Gradiente de Política Determinista Profunda (DDPG), Optimización de Política de Región de Confianza (TRPO) y DDPG de Múltiples Agentes (MADDPG), en varios escenarios. Nuestros hallazgos revelan diferencias significativas en el rendimiento entre los algoritmos en múltiples dimensiones. DDPG demostró consistentemente una optimización de recompensas superior y un rendimiento en la evitación de colisiones, mientras que PPO y MADDPG sobresalieron en el tiempo de ejecución requerido para alcanzar el objetivo. Además, nuestros hallazgos revelan cómo los algoritmos se desempeñan al pasar de una configuración 2D simplista a un entorno 3D realista basado en física, lo cual es esencial para realizar la transferencia de simulación a la realidad. Este trabajo proporciona valiosas ideas sobre la idoneidad de varios algoritmos de aprendizaje por refuerzo (RL) para el desarrollo de sistemas autónomos y la navegación de enjambres de UAV.

Otros recursos que podrían interesarte

Temas Virtualpro