Optimizador de Búsqueda de Medusas Impulsado por Aprendizaje por Refuerzo Adaptativo para la Planificación de Rutas Cooperativas de Múltiples UAV bajo Condiciones Dinámicas y Adversariales
Autores: Alotaibi, Nader; BinSaeedan, Wojdan
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Optimizador de Búsqueda de Medusas Impulsado por Aprendizaje por Refuerzo Adaptativo para la Planificación de Rutas Cooperativas de Múltiples UAV bajo Condiciones Dinámicas y Adversariales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Cooperativo
Multi-UAV
Planificación de rutas
RL-JSO
Inteligencia de enjambre
Condiciones adversas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La planificación de rutas cooperativas de múltiples UAV bajo condiciones dinámicas y adversariales exige la satisfacción simultánea de las restricciones de seguridad, eficiencia y coordinación; sin embargo, los híbridos de inteligencia de enjambre y aprendizaje por refuerzo (RL) existentes dependen de reglas de conmutación deterministas, estados tabulares y horarios de entrenamiento ad hoc. Este artículo propone RL-JSO, un marco híbrido en el que una red neuronal Q doble en duelo con reproducción de experiencia priorizada selecciona de manera adaptativa entre las fases de deriva, pasiva y activa de un optimizador de búsqueda de medusas, reemplazando la regla de control de tiempo determinista por una política aprendida. El marco integra un mecanismo de control de seguridad jerárquico de cinco capas, un currículo de nueve etapas con acceso basado en maestría y un módulo de recompensa compartida que arquitectónicamente refuerza la equidad entre RL-JSO y un contraparte emparejada RL-PSO. La evaluación a través de cuatro campañas progresivas con 160 ejecuciones independientes por algoritmo muestra que, dentro de la familia evaluada JSO/PSO, RL-JSO es el único método que mantiene una tasa de colisión del 100% en todas las cuatro campañas de dificultad progresiva, su delta de Cliff sobre el JSO estándar crece monótonamente con la dificultad de media a grande, y bajo una métrica de cooperación compuesta, su puntuación de coordinación permanece casi invariante mientras que los comparadores se degradan entre un 17% y un 23%. Una ablación de inferencia emparejada en el punto de control entrenado proporciona evidencia controlada de tiempo de inferencia que el cambio de fase adaptativo es un contribuyente principal al rendimiento observado en el tiempo de prueba dentro del sistema entrenado, en lugar de las capas de retroceso heurístico.
Descripción
La planificación de rutas cooperativas de múltiples UAV bajo condiciones dinámicas y adversariales exige la satisfacción simultánea de las restricciones de seguridad, eficiencia y coordinación; sin embargo, los híbridos de inteligencia de enjambre y aprendizaje por refuerzo (RL) existentes dependen de reglas de conmutación deterministas, estados tabulares y horarios de entrenamiento ad hoc. Este artículo propone RL-JSO, un marco híbrido en el que una red neuronal Q doble en duelo con reproducción de experiencia priorizada selecciona de manera adaptativa entre las fases de deriva, pasiva y activa de un optimizador de búsqueda de medusas, reemplazando la regla de control de tiempo determinista por una política aprendida. El marco integra un mecanismo de control de seguridad jerárquico de cinco capas, un currículo de nueve etapas con acceso basado en maestría y un módulo de recompensa compartida que arquitectónicamente refuerza la equidad entre RL-JSO y un contraparte emparejada RL-PSO. La evaluación a través de cuatro campañas progresivas con 160 ejecuciones independientes por algoritmo muestra que, dentro de la familia evaluada JSO/PSO, RL-JSO es el único método que mantiene una tasa de colisión del 100% en todas las cuatro campañas de dificultad progresiva, su delta de Cliff sobre el JSO estándar crece monótonamente con la dificultad de media a grande, y bajo una métrica de cooperación compuesta, su puntuación de coordinación permanece casi invariante mientras que los comparadores se degradan entre un 17% y un 23%. Una ablación de inferencia emparejada en el punto de control entrenado proporciona evidencia controlada de tiempo de inferencia que el cambio de fase adaptativo es un contribuyente principal al rendimiento observado en el tiempo de prueba dentro del sistema entrenado, en lugar de las capas de retroceso heurístico.