logo móvil
Contáctanos

Reconocimiento y búsqueda con múltiples vehículos aéreos no tripulados (multi-UAV) con rango de comunicación limitado utilizando memoria episódica semántica en aprendizaje por refuerzo

Autores: Zhang, Boquan; Wang, Tao; Li, Mingxuan; Cui, Yanru; Lin, Xiang; Zhu, Zhi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Reconocimiento y búsqueda con múltiples vehículos aéreos no tripulados (multi-UAV) con rango de comunicación limitado utilizando memoria episódica semántica en aprendizaje por refuerzo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados
Multi-UAV
Rango de comunicación
Optimización multiobjetivo
Proceso de decisión de Markov parcialmente observable descentralizado
Aprendizaje por refuerzo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los Vehículos Aéreos No Tripulados (VANT) han atraído una atención generalizada en operaciones de reconocimiento y búsqueda debido a su bajo costo y alta flexibilidad. Sin embargo, cuando múltiples VANT (multi-VANT) colaboran en estas tareas, un rango de comunicación limitado puede restringir su eficiencia. Este documento investiga el problema del reconocimiento y búsqueda colaborativa de multi-VANT para objetivos estáticos con un rango de comunicación limitado (MCRS-LCR). Para abordar las limitaciones de comunicación, diseñamos un modelo de comunicación y fusión de información basado en mapas de creencias y modelamos MCRS-LCR como un problema de optimización multiobjetivo. Además, reformulamos este problema como un proceso de decisión de Markov parcialmente observable descentralizado (Dec-POMDP). Introdujimos memoria episódica en el marco de aprendizaje por refuerzo, proponiendo el algoritmo de Utilización de Memoria Episódica Semántica CNN (CNN-SEMU). Específicamente, CNN-SEMU utiliza una estructura de codificador-decodificador con una CNN para aprender patrones de incrustación de estado influenciados por los mayores retornos. Extrae características semánticas del espacio de estado del mapa de alta dimensión para construir un espacio de incrustación de memoria más suave, mejorando en última instancia el rendimiento del aprendizaje por refuerzo al recordar los mayores retornos de estados históricos. Amplios experimentos de simulación demuestran que en tareas de reconocimiento y búsqueda de diversas escalas, CNN-SEMU supera a los métodos de aprendizaje por refuerzo multiagente de última generación en recompensas episódicas, eficiencia de búsqueda y frecuencia de colisiones.

Otros recursos que podrían interesarte

Temas Virtualpro