logo móvil
Contáctanos

Control de Enjambre de Vehículos Aéreos No Tripulados Inteligentes Bajo Guerra Electrónica: Un Marco de Aprendizaje por Refuerzo de Doble Flujo Cognitivo-Intencional

Autores: Chen, Yang; Niu, Jinglong

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Control de Enjambre de Vehículos Aéreos No Tripulados Inteligentes Bajo Guerra Electrónica: Un Marco de Aprendizaje por Refuerzo de Doble Flujo Cognitivo-Intencional


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Guerra electrónica
Enjambres cooperativos
Robótica autónoma
Dinámicas de múltiples agentes
Arquitectura de intención cognitiva

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las plataformas de vehículos aéreos no tripulados (UAV) multi-vehículo integran sensores de radiofrecuencia (RF), enlaces de datos y computación embebida a bordo; la guerra electrónica (EW) adversaria degrada estos subsistemas a través de interferencias y obliga a las políticas de control descentralizado a actuar sobre observaciones fragmentadas, un entorno alineado con sistemas electrónicos inteligentes y robótica autónoma en espectros disputados. Los enjambres cooperativos enfrentan entonces dos modos de falla acumulativos: la pérdida de conciencia situacional coherente y la supervivencia pasiva impulsada por recompensas que suprime la finalización de la misión. El aprendizaje por refuerzo multiagente basado en memoria (MARL) aborda parcialmente el primero, pero tiende a reforzar el segundo; la modelación densa de intenciones aborda el segundo pero se vuelve poco confiable cuando las observaciones son incompletas. Proponemos CIDA (Arquitectura de Doble Flujo de Intención Cognitiva), un marco de aprendizaje por refuerzo que desacopla la reconstrucción de creencias de la intención táctica a nivel de representación mientras las acopla a través de una actualización unificada de actor-crítico. El flujo cognitivo codifica un historial de observación de 64 pasos con un Transformer pre-normalizado para reconstruir la creencia de amenaza; el flujo de intención suministra un campo potencial jerárquico (reconocimiento, compromiso ponderado por amenaza e incentivos de aproximación). Un mecanismo de entrenamiento en estado estable (escalado dinámico de recompensas y recorte adaptativo de gradientes) estabiliza el aprendizaje basado en políticas de Transformer bajo dinámicas multiagente no estacionarias. En un escenario de terreno complejo con activos de SAM, AAA y jammers, CIDA alcanza un 96.15% de éxito en la tarea frente a un 12.21% (PPO sin memoria) y un 25.28% (MAPPO+RNN), con ablaciones que muestran acoplamiento no lineal y tácticas emergentes como el bypass de jammers y la travesía de sectores débiles. Los resultados son robustos ante un barrido de cuatro veces del peso de modelación de intenciones (por encima del 90% de éxito).

Otros recursos que podrían interesarte

Temas Virtualpro