Algoritmo de Búsqueda Colaborativa para Múltiples UAVs Bajo Condiciones de Interferencia: Un Enfoque de Aprendizaje por Refuerzo Profundo Multi-Agente
Autores: Wang, Wei; Chen, Yong; Zhang, Yu; Du, Yihang
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Algoritmo de Búsqueda Colaborativa para Múltiples UAVs Bajo Condiciones de Interferencia: Un Enfoque de Aprendizaje por Refuerzo Profundo Multi-Agente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Uav
Interrupciones en la comunicación
Aprendizaje profundo por refuerzo multiagente
Colaboración en el espectro
Colaboración en la búsqueda
Condiciones de interferencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (VANT) han surgido como una solución prometedora para misiones de búsqueda colaborativa en entornos complejos. Sin embargo, en presencia de interferencias, las interrupciones en la comunicación entre los VANT y las estaciones de control terrestre pueden degradar severamente la eficiencia de la coordinación, lo que lleva a tiempos de búsqueda prolongados y tasas de éxito de misión reducidas. Para abordar estos desafíos, este documento propone un novedoso marco de aprendizaje por refuerzo profundo multiagente (MADRL) para la colaboración conjunta en espectro y búsqueda en sistemas de múltiples VANT. El problema central se formula como una tarea de optimización combinatoria que optimiza simultáneamente la selección de canales y los ángulos de dirección para minimizar el tiempo total de búsqueda bajo condiciones de interferencia dinámica. Debido a la naturaleza NP-dura de este problema, lo descomponemos en dos procesos de decisión de Markov (MDP) interconectados: un subproblema de colaboración de espectro resuelto utilizando un algoritmo de optimización de políticas proximales multiagente (MAPPO) consciente del indicador de fuerza de señal recibida (RSSI) y un subproblema de colaboración de búsqueda abordado a través de un enfoque MAPPO guiado por un mapa de probabilidad de objetivo (TPM) con un innovador mecanismo de enmascaramiento de acciones. Simulaciones extensas demuestran un rendimiento superior en comparación con métodos de referencia (IPPO, QMIX e IQL). Resultados experimentales extensos demuestran ventajas significativas en el rendimiento, incluyendo un 68.7% y un 146.2% más de rendimiento en comparación con QMIX e IQL, respectivamente, junto con una reducción del 16.7-48.3% en los pasos de finalización de búsqueda frente a métodos de referencia, mientras se mantienen operaciones robustas bajo condiciones de interferencia dinámica. El marco exhibe una fuerte resiliencia a las interrupciones de comunicación mientras mantiene un rendimiento de búsqueda estable, validando su aplicabilidad práctica en escenarios de interferencia del mundo real.
Descripción
Los vehículos aéreos no tripulados (VANT) han surgido como una solución prometedora para misiones de búsqueda colaborativa en entornos complejos. Sin embargo, en presencia de interferencias, las interrupciones en la comunicación entre los VANT y las estaciones de control terrestre pueden degradar severamente la eficiencia de la coordinación, lo que lleva a tiempos de búsqueda prolongados y tasas de éxito de misión reducidas. Para abordar estos desafíos, este documento propone un novedoso marco de aprendizaje por refuerzo profundo multiagente (MADRL) para la colaboración conjunta en espectro y búsqueda en sistemas de múltiples VANT. El problema central se formula como una tarea de optimización combinatoria que optimiza simultáneamente la selección de canales y los ángulos de dirección para minimizar el tiempo total de búsqueda bajo condiciones de interferencia dinámica. Debido a la naturaleza NP-dura de este problema, lo descomponemos en dos procesos de decisión de Markov (MDP) interconectados: un subproblema de colaboración de espectro resuelto utilizando un algoritmo de optimización de políticas proximales multiagente (MAPPO) consciente del indicador de fuerza de señal recibida (RSSI) y un subproblema de colaboración de búsqueda abordado a través de un enfoque MAPPO guiado por un mapa de probabilidad de objetivo (TPM) con un innovador mecanismo de enmascaramiento de acciones. Simulaciones extensas demuestran un rendimiento superior en comparación con métodos de referencia (IPPO, QMIX e IQL). Resultados experimentales extensos demuestran ventajas significativas en el rendimiento, incluyendo un 68.7% y un 146.2% más de rendimiento en comparación con QMIX e IQL, respectivamente, junto con una reducción del 16.7-48.3% en los pasos de finalización de búsqueda frente a métodos de referencia, mientras se mantienen operaciones robustas bajo condiciones de interferencia dinámica. El marco exhibe una fuerte resiliencia a las interrupciones de comunicación mientras mantiene un rendimiento de búsqueda estable, validando su aplicabilidad práctica en escenarios de interferencia del mundo real.