Multi-Attention se encuentra con la Optimización de Pareto: Un Método de Aprendizaje por Refuerzo para el Control Adaptativo de Formaciones de UAV

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Multi-Attention se encuentra con la Optimización de Pareto: Un Método de Aprendizaje por Refuerzo para el Control Adaptativo de Formaciones de UAV

Autores: Zheng, Li; Zeng, Junjie; Qin, Long; Ju, Rusheng

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Multi-Attention se encuentra con la Optimización de Pareto: Un Método de Aprendizaje por Refuerzo para el Control Adaptativo de Formaciones de UAV

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Autónomo

Multi-drone

Control de formación

Enfoques basados en marl

Desorden urbano

Fusión selectiva de información

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El control de formación autónoma de múltiples UAV en entornos urbanos desordenados sigue siendo un desafío debido a la observabilidad parcial, obstáculos densos y dinámicos, y objetivos conflictivos (eficiencia de tareas, uso de energía y seguridad). Sin embargo, muchos enfoques basados en MARL aún colapsan objetivos de valor vectorial en una única recompensa ajustada a mano y carecen de fusión de información selectiva, lo que lleva a compromisos frágiles y mala escalabilidad en el desorden urbano. Introducimos un marco MARL independiente del modelo, instanciado en MADDPG para mayor claridad, que augments una estructura CTDE con tres módulos de atención ligeros (auto, inter-agente y entidad) para la fusión de información selectiva, y un módulo de optimización de Pareto que mantiene un archivo compacto de políticas no dominadas para guiar adaptativamente los compromisos de objetivos utilizando recompensas simples e interpretables en lugar de ponderaciones frágiles. En tareas de navegación a escala urbana, el enfoque mejora el éxito final del equipo en 13-27 puntos porcentuales para N = 2-5, mientras reduce simultáneamente las colisiones, ajusta la formación y disminuye el esfuerzo de control. Estas ganancias no requieren ajuste específico del algoritmo y se mantienen consistentemente en los tamaños de equipo probados (N = 2-5), subrayando un compromiso más fuerte entre seguridad y eficiencia y una aplicabilidad robusta en entornos desordenados y parcialmente observables.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro