Evaluación Comparativa de Algoritmos de Aprendizaje por Refuerzo para la Planificación de Rutas de Vehículos Aéreos No Tripulados de Múltiples Agentes en Entornos 2D y 3D

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluación Comparativa de Algoritmos de Aprendizaje por Refuerzo para la Planificación de Rutas de Vehículos Aéreos No Tripulados de Múltiples Agentes en Entornos 2D y 3D

Autores: Ali, Mirza Aqib; Maqsood, Adnan; Athar, Usama; Khanzada, Hasan Raza

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Evaluación Comparativa de Algoritmos de Aprendizaje por Refuerzo para la Planificación de Rutas de Vehículos Aéreos No Tripulados de Múltiples Agentes en Entornos 2D y 3D

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Planificación de rutas

Enjambres de UAV de múltiples agentes

Algoritmos de aprendizaje por refuerzo

Evitación de colisiones

Configuración de simulación

Diferencias de rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La planificación de rutas en enjambres de UAV de múltiples agentes es un tema crucial que implica evitar colisiones en entornos dinámicos llenos de obstáculos, mientras se consume la menor cantidad de tiempo y energía posible. Este trabajo evalúa de manera integral los algoritmos de aprendizaje por refuerzo (RL) para la planificación de rutas de UAV de múltiples agentes en entornos simulados en 2D y 3D. Primero, desarrollamos una configuración de simulación en 2D utilizando Python en la que los UAV (cuadricópteros), representados como puntos en el espacio, navegan hacia sus respectivos objetivos mientras evitan obstáculos estáticos y colisiones entre agentes. En la segunda fase, trasladamos esta comparación a una simulación 3D basada en física, incorporando dinámicas realistas de UAV (ala fija) y navegación basada en puntos de control. Comparamos cinco algoritmos, a saber, Optimización de Política Proximal (PPO), Actor-Crítico Suave (SAC), Gradiente de Política Determinista Profunda (DDPG), Optimización de Política de Región de Confianza (TRPO) y DDPG de Múltiples Agentes (MADDPG), en varios escenarios. Nuestros hallazgos revelan diferencias significativas en el rendimiento entre los algoritmos en múltiples dimensiones. DDPG demostró consistentemente una optimización de recompensas superior y un rendimiento en la evitación de colisiones, mientras que PPO y MADDPG sobresalieron en el tiempo de ejecución requerido para alcanzar el objetivo. Además, nuestros hallazgos revelan cómo los algoritmos se desempeñan al pasar de una configuración 2D simplista a un entorno 3D realista basado en física, lo cual es esencial para realizar la transferencia de simulación a la realidad. Este trabajo proporciona valiosas ideas sobre la idoneidad de varios algoritmos de aprendizaje por refuerzo (RL) para el desarrollo de sistemas autónomos y la navegación de enjambres de UAV.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro