Método de Planificación de Trayectoria de Crucero Adaptativa Basado en Aprendizaje por Refuerzo ED-SAC para UAVs en Escenarios de Inspección de Autopistas en Praderas
Autores: Zhang, Shuhui; Chen, Deqi; Zhang, Wenhui; Mao, Shuaiwen
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Método de Planificación de Trayectoria de Crucero Adaptativa Basado en Aprendizaje por Refuerzo ED-SAC para UAVs en Escenarios de Inspección de Autopistas en Praderas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Accidentes de tráfico
Cruce de ganado
Carreteras de pastizales
Vehículos aéreos no tripulados
Red Q en conjunto
Actor-Crítico Suave
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para abordar el problema de los accidentes de tráfico causados por el ganado que cruza carreteras en autopistas de pastizales, este documento propone un método de control de crucero adaptativo para vehículos aéreos no tripulados (VANT) basado en una red Q en conjunto y un Soft Actor-Critic (SAC) con actualizaciones de política retrasadas, denominado algoritmo ED-SAC. Basándose en el marco estándar de SAC, este método introduce múltiples redes Critic independientes para formar una red Q en conjunto y emplea una estrategia de minimización de subconjuntos aleatorios durante el cálculo de los valores Q objetivo para mitigar el sesgo de política resultante de valores sobreestimados; al mismo tiempo, un mecanismo de actualización de política retrasada desacopla los procesos de optimización de las redes Actor y Critic, mejorando así la estabilidad del entrenamiento y la robustez del control. Utilizando la plataforma de simulación PyBullet, este documento construye un escenario de inspección de VANT en carreteras de pastizales y diseña tres tareas de prueba típicas: bucle infinito, escaneo en cuadrícula y trayectorias en espiral, para llevar a cabo una validación comparativa de los algoritmos PPO, TD3, SAC y ED-SAC. Los resultados experimentales demuestran que, en condiciones sin perturbaciones, ED-SAC logra la tasa de éxito de misión más alta y el menor error de seguimiento en los tres escenarios de trayectoria, con un error de seguimiento promedio tan bajo como 0.27 m y una tasa de éxito de misión tan alta como 98.7%. Bajo perturbaciones externas aleatorias continuas, ED-SAC aún mantiene una alta precisión de seguimiento de trayectoria y estabilidad en el control de actitud, con una tasa de éxito de misión que alcanza hasta el 96.2%. Los resultados demuestran que el algoritmo ED-SAC propuesto puede mejorar efectivamente la precisión de seguimiento de trayectoria, la estabilidad del entrenamiento y la capacidad de resistencia a perturbaciones de los VANT en escenarios complejos de inspección de carreteras de pastizales, proporcionando un método de control inteligente confiable para la inspección activa de carreteras de pastizales y la advertencia temprana de seguridad vial.
Descripción
Para abordar el problema de los accidentes de tráfico causados por el ganado que cruza carreteras en autopistas de pastizales, este documento propone un método de control de crucero adaptativo para vehículos aéreos no tripulados (VANT) basado en una red Q en conjunto y un Soft Actor-Critic (SAC) con actualizaciones de política retrasadas, denominado algoritmo ED-SAC. Basándose en el marco estándar de SAC, este método introduce múltiples redes Critic independientes para formar una red Q en conjunto y emplea una estrategia de minimización de subconjuntos aleatorios durante el cálculo de los valores Q objetivo para mitigar el sesgo de política resultante de valores sobreestimados; al mismo tiempo, un mecanismo de actualización de política retrasada desacopla los procesos de optimización de las redes Actor y Critic, mejorando así la estabilidad del entrenamiento y la robustez del control. Utilizando la plataforma de simulación PyBullet, este documento construye un escenario de inspección de VANT en carreteras de pastizales y diseña tres tareas de prueba típicas: bucle infinito, escaneo en cuadrícula y trayectorias en espiral, para llevar a cabo una validación comparativa de los algoritmos PPO, TD3, SAC y ED-SAC. Los resultados experimentales demuestran que, en condiciones sin perturbaciones, ED-SAC logra la tasa de éxito de misión más alta y el menor error de seguimiento en los tres escenarios de trayectoria, con un error de seguimiento promedio tan bajo como 0.27 m y una tasa de éxito de misión tan alta como 98.7%. Bajo perturbaciones externas aleatorias continuas, ED-SAC aún mantiene una alta precisión de seguimiento de trayectoria y estabilidad en el control de actitud, con una tasa de éxito de misión que alcanza hasta el 96.2%. Los resultados demuestran que el algoritmo ED-SAC propuesto puede mejorar efectivamente la precisión de seguimiento de trayectoria, la estabilidad del entrenamiento y la capacidad de resistencia a perturbaciones de los VANT en escenarios complejos de inspección de carreteras de pastizales, proporcionando un método de control inteligente confiable para la inspección activa de carreteras de pastizales y la advertencia temprana de seguridad vial.