logo móvil
Contáctanos

Optimizador de Búsqueda de Medusas Impulsado por Aprendizaje por Refuerzo Adaptativo para la Planificación de Rutas Cooperativas de Múltiples UAV bajo Condiciones Dinámicas y Adversariales

Autores: Alotaibi, Nader; BinSaeedan, Wojdan

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Optimizador de Búsqueda de Medusas Impulsado por Aprendizaje por Refuerzo Adaptativo para la Planificación de Rutas Cooperativas de Múltiples UAV bajo Condiciones Dinámicas y Adversariales


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Cooperativo
Multi-UAV
Planificación de rutas
RL-JSO
Inteligencia de enjambre
Condiciones adversas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La planificación de rutas cooperativas de múltiples UAV bajo condiciones dinámicas y adversariales exige la satisfacción simultánea de las restricciones de seguridad, eficiencia y coordinación; sin embargo, los híbridos de inteligencia de enjambre y aprendizaje por refuerzo (RL) existentes dependen de reglas de conmutación deterministas, estados tabulares y horarios de entrenamiento ad hoc. Este artículo propone RL-JSO, un marco híbrido en el que una red neuronal Q doble en duelo con reproducción de experiencia priorizada selecciona de manera adaptativa entre las fases de deriva, pasiva y activa de un optimizador de búsqueda de medusas, reemplazando la regla de control de tiempo determinista por una política aprendida. El marco integra un mecanismo de control de seguridad jerárquico de cinco capas, un currículo de nueve etapas con acceso basado en maestría y un módulo de recompensa compartida que arquitectónicamente refuerza la equidad entre RL-JSO y un contraparte emparejada RL-PSO. La evaluación a través de cuatro campañas progresivas con 160 ejecuciones independientes por algoritmo muestra que, dentro de la familia evaluada JSO/PSO, RL-JSO es el único método que mantiene una tasa de colisión del 100% en todas las cuatro campañas de dificultad progresiva, su delta de Cliff sobre el JSO estándar crece monótonamente con la dificultad de media a grande, y bajo una métrica de cooperación compuesta, su puntuación de coordinación permanece casi invariante mientras que los comparadores se degradan entre un 17% y un 23%. Una ablación de inferencia emparejada en el punto de control entrenado proporciona evidencia controlada de tiempo de inferencia que el cambio de fase adaptativo es un contribuyente principal al rendimiento observado en el tiempo de prueba dentro del sistema entrenado, en lugar de las capas de retroceso heurístico.

Otros recursos que podrían interesarte

Temas Virtualpro