logo móvil
Contáctanos

Multi-Attention se encuentra con la Optimización de Pareto: Un Método de Aprendizaje por Refuerzo para el Control Adaptativo de Formaciones de UAV

Autores: Zheng, Li; Zeng, Junjie; Qin, Long; Ju, Rusheng

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Multi-Attention se encuentra con la Optimización de Pareto: Un Método de Aprendizaje por Refuerzo para el Control Adaptativo de Formaciones de UAV


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Autónomo
Multi-drone
Control de formación
Enfoques basados en marl
Desorden urbano
Fusión selectiva de información

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El control de formación autónoma de múltiples UAV en entornos urbanos desordenados sigue siendo un desafío debido a la observabilidad parcial, obstáculos densos y dinámicos, y objetivos conflictivos (eficiencia de tareas, uso de energía y seguridad). Sin embargo, muchos enfoques basados en MARL aún colapsan objetivos de valor vectorial en una única recompensa ajustada a mano y carecen de fusión de información selectiva, lo que lleva a compromisos frágiles y mala escalabilidad en el desorden urbano. Introducimos un marco MARL independiente del modelo, instanciado en MADDPG para mayor claridad, que augments una estructura CTDE con tres módulos de atención ligeros (auto, inter-agente y entidad) para la fusión de información selectiva, y un módulo de optimización de Pareto que mantiene un archivo compacto de políticas no dominadas para guiar adaptativamente los compromisos de objetivos utilizando recompensas simples e interpretables en lugar de ponderaciones frágiles. En tareas de navegación a escala urbana, el enfoque mejora el éxito final del equipo en 13-27 puntos porcentuales para N = 2-5, mientras reduce simultáneamente las colisiones, ajusta la formación y disminuye el esfuerzo de control. Estas ganancias no requieren ajuste específico del algoritmo y se mantienen consistentemente en los tamaños de equipo probados (N = 2-5), subrayando un compromiso más fuerte entre seguridad y eficiencia y una aplicabilidad robusta en entornos desordenados y parcialmente observables.

Otros recursos que podrían interesarte

Temas Virtualpro