logo móvil
Contáctanos

P-DRL: Un marco para el control dinámico de formación de múltiples UAVs bajo incertidumbre operativa y entorno desconocido

Autores: Zhou, Jinlun; Zhang, Honghai; Hua, Mingzhuang; Wang, Fei; Yi, Jia

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

P-DRL: Un marco para el control dinámico de formación de múltiples UAVs bajo incertidumbre operativa y entorno desconocido


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado
Vuelo en formación
Control de formación sinérgico
Emparejamiento dinámico
Aprendizaje por refuerzo profundo
Posibilidad de colisión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El vuelo en formación de vehículos aéreos no tripulados (VANT) es un modo de operación eficiente y económico para los sistemas de transporte aéreo. Para mejorar la efectividad del control sinérgico de formación para VANT, este documento propone un enfoque de resolución de conflictos por pares para la formación de VANT a través de un análisis matemático y diseña un marco de control de formación de emparejamiento dinámico y aprendizaje por refuerzo profundo (marco de control de formación P-DRL). En primer lugar, se propone un nuevo teorema de control de formación de VANT por pares, que descompone el problema de control de formación de múltiples VANT en múltiples problemas de control secuencial que involucran pares de VANT a través de un algoritmo de emparejamiento dinámico. La dificultad de entrenamiento de los Agentes que solo controlan cada par (dos VANT) es menor en comparación con el control de todos los VANT directamente, lo que resulta en un mejor y más estable rendimiento de control de formación. Luego, se construye un modelo de aprendizaje por refuerzo profundo para un par de VANT basado en la interacción Entorno-Agente, donde se diseñan funciones de recompensa segmentadas para reducir la posibilidad de colisión de los VANT. Finalmente, P-DRL completa la tarea de control de formación de la flota de VANT a través de emparejamiento continuo y control de formación por pares basado en Agentes. Las simulaciones utilizaron el algoritmo de emparejamiento dinámico combinado con las arquitecturas DRL de actor-crítico de ventaja asíncrona (P-A3C), actor-crítico (P-AC) y red de valor Q profunda doble (P-DDQN) para lograr un control de formación sinérgico. Este enfoque produjo resultados de control efectivos con una fuerte capacidad de generalización. La tasa de éxito en el control de formaciones densas, rápidas y de múltiples VANT (10-20) alcanzó el 96.3%, con un buen rendimiento en tiempo real (17.14 Hz).

Otros recursos que podrían interesarte

Temas Virtualpro