logo móvil
Contáctanos

Investigación sobre el Algoritmo de Optimización de Políticas Proximales en la Planificación de Rutas para el Seguimiento de Vehículos Basado en UAV

Autores: Qiao, Dongna; Zhang, Hongxin

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Investigación sobre el Algoritmo de Optimización de Políticas Proximales en la Planificación de Rutas para el Seguimiento de Vehículos Basado en UAV


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Uav
Planificación de rutas
Aprendizaje por refuerzo
Precisión de seguimiento
Transporte inteligente
Monitoreo ambiental

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El seguimiento de vehículos aéreos no tripulados (UAV) de objetivos en movimiento terrestre tiene aplicaciones significativas en dominios como el transporte inteligente, la distribución logística y el monitoreo ambiental, lo que plantea mayores demandas sobre métodos de planificación de rutas eficientes y estables para el seguimiento vehicular. Este estudio investiga un enfoque de seguimiento de rutas de UAV basado en un algoritmo de aprendizaje por refuerzo profundo, Optimización de Política Proximal (PPO). Partiendo de las características cinemáticas de los UAV y los vehículos terrestres, se construyó un modelo de planificación de rutas en 3D que considera coordenadas espaciales, velocidad y restricciones de actitud. Se incorporó una función objetivo bien diseñada que incluye minimización del error de seguimiento, optimización de energía y restricciones de distancia de seguridad. Al diseñar el espacio de estados, el espacio de acciones y la función de recompensa, el algoritmo PPO es capaz de aprender de manera adaptativa en entornos complejos. En comparación con los métodos tradicionales de Campo Potencial Artificial (APF), Q-learning y TD3, PPO equilibra mejor la exploración y la explotación y demuestra una mayor estabilidad de aprendizaje y capacidad de optimización global en escenarios dinámicos con múltiples obstáculos. Los resultados de simulación muestran que la planificación de rutas de UAV basada en PPO supera a Q-learning y otros algoritmos comparativos en términos de precisión de seguimiento, velocidad de convergencia y robustez. En escenarios específicos, Q-learning logra un error de trayectoria de aproximadamente 1 m, TD3 y APF exhiben errores alrededor de 0.3 m con oscilaciones notables, y PPO logra un error de aproximadamente 0.2 m. El UAV puede seguir la trayectoria del vehículo de manera suave, con una ruta más continua y curvas de error estables y que convergen rápidamente, lo que indica el prometedor potencial de aplicación de PPO en el control inteligente de UAV. El método de planificación de rutas de seguimiento de UAV basado en PPO mejora efectivamente la toma de decisiones inteligentes y las capacidades de optimización de rutas del UAV, proporcionando nuevos enfoques técnicos y una base de investigación para sistemas de tráfico inteligente de UAV y control cooperativo.

Otros recursos que podrían interesarte

Temas Virtualpro