Control de Enjambre de Vehículos Aéreos No Tripulados Inteligentes Bajo Guerra Electrónica: Un Marco de Aprendizaje por Refuerzo de Doble Flujo Cognitivo-Intencional
Autores: Chen, Yang; Niu, Jinglong
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Control de Enjambre de Vehículos Aéreos No Tripulados Inteligentes Bajo Guerra Electrónica: Un Marco de Aprendizaje por Refuerzo de Doble Flujo Cognitivo-Intencional
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Guerra electrónica
Enjambres cooperativos
Robótica autónoma
Dinámicas de múltiples agentes
Arquitectura de intención cognitiva
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las plataformas de vehículos aéreos no tripulados (UAV) multi-vehículo integran sensores de radiofrecuencia (RF), enlaces de datos y computación embebida a bordo; la guerra electrónica (EW) adversaria degrada estos subsistemas a través de interferencias y obliga a las políticas de control descentralizado a actuar sobre observaciones fragmentadas, un entorno alineado con sistemas electrónicos inteligentes y robótica autónoma en espectros disputados. Los enjambres cooperativos enfrentan entonces dos modos de falla acumulativos: la pérdida de conciencia situacional coherente y la supervivencia pasiva impulsada por recompensas que suprime la finalización de la misión. El aprendizaje por refuerzo multiagente basado en memoria (MARL) aborda parcialmente el primero, pero tiende a reforzar el segundo; la modelación densa de intenciones aborda el segundo pero se vuelve poco confiable cuando las observaciones son incompletas. Proponemos CIDA (Arquitectura de Doble Flujo de Intención Cognitiva), un marco de aprendizaje por refuerzo que desacopla la reconstrucción de creencias de la intención táctica a nivel de representación mientras las acopla a través de una actualización unificada de actor-crítico. El flujo cognitivo codifica un historial de observación de 64 pasos con un Transformer pre-normalizado para reconstruir la creencia de amenaza; el flujo de intención suministra un campo potencial jerárquico (reconocimiento, compromiso ponderado por amenaza e incentivos de aproximación). Un mecanismo de entrenamiento en estado estable (escalado dinámico de recompensas y recorte adaptativo de gradientes) estabiliza el aprendizaje basado en políticas de Transformer bajo dinámicas multiagente no estacionarias. En un escenario de terreno complejo con activos de SAM, AAA y jammers, CIDA alcanza un 96.15% de éxito en la tarea frente a un 12.21% (PPO sin memoria) y un 25.28% (MAPPO+RNN), con ablaciones que muestran acoplamiento no lineal y tácticas emergentes como el bypass de jammers y la travesía de sectores débiles. Los resultados son robustos ante un barrido de cuatro veces del peso de modelación de intenciones (por encima del 90% de éxito).
Descripción
Las plataformas de vehículos aéreos no tripulados (UAV) multi-vehículo integran sensores de radiofrecuencia (RF), enlaces de datos y computación embebida a bordo; la guerra electrónica (EW) adversaria degrada estos subsistemas a través de interferencias y obliga a las políticas de control descentralizado a actuar sobre observaciones fragmentadas, un entorno alineado con sistemas electrónicos inteligentes y robótica autónoma en espectros disputados. Los enjambres cooperativos enfrentan entonces dos modos de falla acumulativos: la pérdida de conciencia situacional coherente y la supervivencia pasiva impulsada por recompensas que suprime la finalización de la misión. El aprendizaje por refuerzo multiagente basado en memoria (MARL) aborda parcialmente el primero, pero tiende a reforzar el segundo; la modelación densa de intenciones aborda el segundo pero se vuelve poco confiable cuando las observaciones son incompletas. Proponemos CIDA (Arquitectura de Doble Flujo de Intención Cognitiva), un marco de aprendizaje por refuerzo que desacopla la reconstrucción de creencias de la intención táctica a nivel de representación mientras las acopla a través de una actualización unificada de actor-crítico. El flujo cognitivo codifica un historial de observación de 64 pasos con un Transformer pre-normalizado para reconstruir la creencia de amenaza; el flujo de intención suministra un campo potencial jerárquico (reconocimiento, compromiso ponderado por amenaza e incentivos de aproximación). Un mecanismo de entrenamiento en estado estable (escalado dinámico de recompensas y recorte adaptativo de gradientes) estabiliza el aprendizaje basado en políticas de Transformer bajo dinámicas multiagente no estacionarias. En un escenario de terreno complejo con activos de SAM, AAA y jammers, CIDA alcanza un 96.15% de éxito en la tarea frente a un 12.21% (PPO sin memoria) y un 25.28% (MAPPO+RNN), con ablaciones que muestran acoplamiento no lineal y tácticas emergentes como el bypass de jammers y la travesía de sectores débiles. Los resultados son robustos ante un barrido de cuatro veces del peso de modelación de intenciones (por encima del 90% de éxito).