Reconocimiento y búsqueda con múltiples vehículos aéreos no tripulados (multi-UAV) con rango de comunicación limitado utilizando memoria episódica semántica en aprendizaje por refuerzo
Autores: Zhang, Boquan; Wang, Tao; Li, Mingxuan; Cui, Yanru; Lin, Xiang; Zhu, Zhi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Reconocimiento y búsqueda con múltiples vehículos aéreos no tripulados (multi-UAV) con rango de comunicación limitado utilizando memoria episódica semántica en aprendizaje por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Multi-UAV
Rango de comunicación
Optimización multiobjetivo
Proceso de decisión de Markov parcialmente observable descentralizado
Aprendizaje por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los Vehículos Aéreos No Tripulados (VANT) han atraído una atención generalizada en operaciones de reconocimiento y búsqueda debido a su bajo costo y alta flexibilidad. Sin embargo, cuando múltiples VANT (multi-VANT) colaboran en estas tareas, un rango de comunicación limitado puede restringir su eficiencia. Este documento investiga el problema del reconocimiento y búsqueda colaborativa de multi-VANT para objetivos estáticos con un rango de comunicación limitado (MCRS-LCR). Para abordar las limitaciones de comunicación, diseñamos un modelo de comunicación y fusión de información basado en mapas de creencias y modelamos MCRS-LCR como un problema de optimización multiobjetivo. Además, reformulamos este problema como un proceso de decisión de Markov parcialmente observable descentralizado (Dec-POMDP). Introdujimos memoria episódica en el marco de aprendizaje por refuerzo, proponiendo el algoritmo de Utilización de Memoria Episódica Semántica CNN (CNN-SEMU). Específicamente, CNN-SEMU utiliza una estructura de codificador-decodificador con una CNN para aprender patrones de incrustación de estado influenciados por los mayores retornos. Extrae características semánticas del espacio de estado del mapa de alta dimensión para construir un espacio de incrustación de memoria más suave, mejorando en última instancia el rendimiento del aprendizaje por refuerzo al recordar los mayores retornos de estados históricos. Amplios experimentos de simulación demuestran que en tareas de reconocimiento y búsqueda de diversas escalas, CNN-SEMU supera a los métodos de aprendizaje por refuerzo multiagente de última generación en recompensas episódicas, eficiencia de búsqueda y frecuencia de colisiones.
Descripción
Los Vehículos Aéreos No Tripulados (VANT) han atraído una atención generalizada en operaciones de reconocimiento y búsqueda debido a su bajo costo y alta flexibilidad. Sin embargo, cuando múltiples VANT (multi-VANT) colaboran en estas tareas, un rango de comunicación limitado puede restringir su eficiencia. Este documento investiga el problema del reconocimiento y búsqueda colaborativa de multi-VANT para objetivos estáticos con un rango de comunicación limitado (MCRS-LCR). Para abordar las limitaciones de comunicación, diseñamos un modelo de comunicación y fusión de información basado en mapas de creencias y modelamos MCRS-LCR como un problema de optimización multiobjetivo. Además, reformulamos este problema como un proceso de decisión de Markov parcialmente observable descentralizado (Dec-POMDP). Introdujimos memoria episódica en el marco de aprendizaje por refuerzo, proponiendo el algoritmo de Utilización de Memoria Episódica Semántica CNN (CNN-SEMU). Específicamente, CNN-SEMU utiliza una estructura de codificador-decodificador con una CNN para aprender patrones de incrustación de estado influenciados por los mayores retornos. Extrae características semánticas del espacio de estado del mapa de alta dimensión para construir un espacio de incrustación de memoria más suave, mejorando en última instancia el rendimiento del aprendizaje por refuerzo al recordar los mayores retornos de estados históricos. Amplios experimentos de simulación demuestran que en tareas de reconocimiento y búsqueda de diversas escalas, CNN-SEMU supera a los métodos de aprendizaje por refuerzo multiagente de última generación en recompensas episódicas, eficiencia de búsqueda y frecuencia de colisiones.