Multi-Attention se encuentra con la Optimización de Pareto: Un Método de Aprendizaje por Refuerzo para el Control Adaptativo de Formaciones de UAV
Autores: Zheng, Li; Zeng, Junjie; Qin, Long; Ju, Rusheng
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Multi-Attention se encuentra con la Optimización de Pareto: Un Método de Aprendizaje por Refuerzo para el Control Adaptativo de Formaciones de UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Autónomo
Multi-drone
Control de formación
Enfoques basados en marl
Desorden urbano
Fusión selectiva de información
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El control de formación autónoma de múltiples UAV en entornos urbanos desordenados sigue siendo un desafío debido a la observabilidad parcial, obstáculos densos y dinámicos, y objetivos conflictivos (eficiencia de tareas, uso de energía y seguridad). Sin embargo, muchos enfoques basados en MARL aún colapsan objetivos de valor vectorial en una única recompensa ajustada a mano y carecen de fusión de información selectiva, lo que lleva a compromisos frágiles y mala escalabilidad en el desorden urbano. Introducimos un marco MARL independiente del modelo, instanciado en MADDPG para mayor claridad, que augments una estructura CTDE con tres módulos de atención ligeros (auto, inter-agente y entidad) para la fusión de información selectiva, y un módulo de optimización de Pareto que mantiene un archivo compacto de políticas no dominadas para guiar adaptativamente los compromisos de objetivos utilizando recompensas simples e interpretables en lugar de ponderaciones frágiles. En tareas de navegación a escala urbana, el enfoque mejora el éxito final del equipo en 13-27 puntos porcentuales para N = 2-5, mientras reduce simultáneamente las colisiones, ajusta la formación y disminuye el esfuerzo de control. Estas ganancias no requieren ajuste específico del algoritmo y se mantienen consistentemente en los tamaños de equipo probados (N = 2-5), subrayando un compromiso más fuerte entre seguridad y eficiencia y una aplicabilidad robusta en entornos desordenados y parcialmente observables.
Descripción
El control de formación autónoma de múltiples UAV en entornos urbanos desordenados sigue siendo un desafío debido a la observabilidad parcial, obstáculos densos y dinámicos, y objetivos conflictivos (eficiencia de tareas, uso de energía y seguridad). Sin embargo, muchos enfoques basados en MARL aún colapsan objetivos de valor vectorial en una única recompensa ajustada a mano y carecen de fusión de información selectiva, lo que lleva a compromisos frágiles y mala escalabilidad en el desorden urbano. Introducimos un marco MARL independiente del modelo, instanciado en MADDPG para mayor claridad, que augments una estructura CTDE con tres módulos de atención ligeros (auto, inter-agente y entidad) para la fusión de información selectiva, y un módulo de optimización de Pareto que mantiene un archivo compacto de políticas no dominadas para guiar adaptativamente los compromisos de objetivos utilizando recompensas simples e interpretables en lugar de ponderaciones frágiles. En tareas de navegación a escala urbana, el enfoque mejora el éxito final del equipo en 13-27 puntos porcentuales para N = 2-5, mientras reduce simultáneamente las colisiones, ajusta la formación y disminuye el esfuerzo de control. Estas ganancias no requieren ajuste específico del algoritmo y se mantienen consistentemente en los tamaños de equipo probados (N = 2-5), subrayando un compromiso más fuerte entre seguridad y eficiencia y una aplicabilidad robusta en entornos desordenados y parcialmente observables.