Investigación sobre el Algoritmo de Optimización de Políticas Proximales en la Planificación de Rutas para el Seguimiento de Vehículos Basado en UAV
Autores: Qiao, Dongna; Zhang, Hongxin
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Investigación sobre el Algoritmo de Optimización de Políticas Proximales en la Planificación de Rutas para el Seguimiento de Vehículos Basado en UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Uav
Planificación de rutas
Aprendizaje por refuerzo
Precisión de seguimiento
Transporte inteligente
Monitoreo ambiental
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El seguimiento de vehículos aéreos no tripulados (UAV) de objetivos en movimiento terrestre tiene aplicaciones significativas en dominios como el transporte inteligente, la distribución logística y el monitoreo ambiental, lo que plantea mayores demandas sobre métodos de planificación de rutas eficientes y estables para el seguimiento vehicular. Este estudio investiga un enfoque de seguimiento de rutas de UAV basado en un algoritmo de aprendizaje por refuerzo profundo, Optimización de Política Proximal (PPO). Partiendo de las características cinemáticas de los UAV y los vehículos terrestres, se construyó un modelo de planificación de rutas en 3D que considera coordenadas espaciales, velocidad y restricciones de actitud. Se incorporó una función objetivo bien diseñada que incluye minimización del error de seguimiento, optimización de energía y restricciones de distancia de seguridad. Al diseñar el espacio de estados, el espacio de acciones y la función de recompensa, el algoritmo PPO es capaz de aprender de manera adaptativa en entornos complejos. En comparación con los métodos tradicionales de Campo Potencial Artificial (APF), Q-learning y TD3, PPO equilibra mejor la exploración y la explotación y demuestra una mayor estabilidad de aprendizaje y capacidad de optimización global en escenarios dinámicos con múltiples obstáculos. Los resultados de simulación muestran que la planificación de rutas de UAV basada en PPO supera a Q-learning y otros algoritmos comparativos en términos de precisión de seguimiento, velocidad de convergencia y robustez. En escenarios específicos, Q-learning logra un error de trayectoria de aproximadamente 1 m, TD3 y APF exhiben errores alrededor de 0.3 m con oscilaciones notables, y PPO logra un error de aproximadamente 0.2 m. El UAV puede seguir la trayectoria del vehículo de manera suave, con una ruta más continua y curvas de error estables y que convergen rápidamente, lo que indica el prometedor potencial de aplicación de PPO en el control inteligente de UAV. El método de planificación de rutas de seguimiento de UAV basado en PPO mejora efectivamente la toma de decisiones inteligentes y las capacidades de optimización de rutas del UAV, proporcionando nuevos enfoques técnicos y una base de investigación para sistemas de tráfico inteligente de UAV y control cooperativo.
Descripción
El seguimiento de vehículos aéreos no tripulados (UAV) de objetivos en movimiento terrestre tiene aplicaciones significativas en dominios como el transporte inteligente, la distribución logística y el monitoreo ambiental, lo que plantea mayores demandas sobre métodos de planificación de rutas eficientes y estables para el seguimiento vehicular. Este estudio investiga un enfoque de seguimiento de rutas de UAV basado en un algoritmo de aprendizaje por refuerzo profundo, Optimización de Política Proximal (PPO). Partiendo de las características cinemáticas de los UAV y los vehículos terrestres, se construyó un modelo de planificación de rutas en 3D que considera coordenadas espaciales, velocidad y restricciones de actitud. Se incorporó una función objetivo bien diseñada que incluye minimización del error de seguimiento, optimización de energía y restricciones de distancia de seguridad. Al diseñar el espacio de estados, el espacio de acciones y la función de recompensa, el algoritmo PPO es capaz de aprender de manera adaptativa en entornos complejos. En comparación con los métodos tradicionales de Campo Potencial Artificial (APF), Q-learning y TD3, PPO equilibra mejor la exploración y la explotación y demuestra una mayor estabilidad de aprendizaje y capacidad de optimización global en escenarios dinámicos con múltiples obstáculos. Los resultados de simulación muestran que la planificación de rutas de UAV basada en PPO supera a Q-learning y otros algoritmos comparativos en términos de precisión de seguimiento, velocidad de convergencia y robustez. En escenarios específicos, Q-learning logra un error de trayectoria de aproximadamente 1 m, TD3 y APF exhiben errores alrededor de 0.3 m con oscilaciones notables, y PPO logra un error de aproximadamente 0.2 m. El UAV puede seguir la trayectoria del vehículo de manera suave, con una ruta más continua y curvas de error estables y que convergen rápidamente, lo que indica el prometedor potencial de aplicación de PPO en el control inteligente de UAV. El método de planificación de rutas de seguimiento de UAV basado en PPO mejora efectivamente la toma de decisiones inteligentes y las capacidades de optimización de rutas del UAV, proporcionando nuevos enfoques técnicos y una base de investigación para sistemas de tráfico inteligente de UAV y control cooperativo.