Optimizador de Búsqueda de Medusas Impulsado por Aprendizaje por Refuerzo Adaptativo para la Planificación de Rutas Cooperativas de Múltiples UAV bajo Condiciones Dinámicas y Adversariales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Optimizador de Búsqueda de Medusas Impulsado por Aprendizaje por Refuerzo Adaptativo para la Planificación de Rutas Cooperativas de Múltiples UAV bajo Condiciones Dinámicas y Adversariales

Autores: Alotaibi, Nader; BinSaeedan, Wojdan

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Optimizador de Búsqueda de Medusas Impulsado por Aprendizaje por Refuerzo Adaptativo para la Planificación de Rutas Cooperativas de Múltiples UAV bajo Condiciones Dinámicas y Adversariales

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Cooperativo

Multi-UAV

Planificación de rutas

RL-JSO

Inteligencia de enjambre

Condiciones adversas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La planificación de rutas cooperativas de múltiples UAV bajo condiciones dinámicas y adversariales exige la satisfacción simultánea de las restricciones de seguridad, eficiencia y coordinación; sin embargo, los híbridos de inteligencia de enjambre y aprendizaje por refuerzo (RL) existentes dependen de reglas de conmutación deterministas, estados tabulares y horarios de entrenamiento ad hoc. Este artículo propone RL-JSO, un marco híbrido en el que una red neuronal Q doble en duelo con reproducción de experiencia priorizada selecciona de manera adaptativa entre las fases de deriva, pasiva y activa de un optimizador de búsqueda de medusas, reemplazando la regla de control de tiempo determinista por una política aprendida. El marco integra un mecanismo de control de seguridad jerárquico de cinco capas, un currículo de nueve etapas con acceso basado en maestría y un módulo de recompensa compartida que arquitectónicamente refuerza la equidad entre RL-JSO y un contraparte emparejada RL-PSO. La evaluación a través de cuatro campañas progresivas con 160 ejecuciones independientes por algoritmo muestra que, dentro de la familia evaluada JSO/PSO, RL-JSO es el único método que mantiene una tasa de colisión del 100% en todas las cuatro campañas de dificultad progresiva, su delta de Cliff sobre el JSO estándar crece monótonamente con la dificultad de media a grande, y bajo una métrica de cooperación compuesta, su puntuación de coordinación permanece casi invariante mientras que los comparadores se degradan entre un 17% y un 23%. Una ablación de inferencia emparejada en el punto de control entrenado proporciona evidencia controlada de tiempo de inferencia que el cambio de fase adaptativo es un contribuyente principal al rendimiento observado en el tiempo de prueba dentro del sistema entrenado, en lugar de las capas de retroceso heurístico.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro