Búsqueda colaborativa de objetivos por múltiples vehículos aéreos no tripulados mediante DRL: un método multiagente parcialmente observable basado en DQN
Autores: Xu, Heng; Zhu, Dayong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Búsqueda colaborativa de objetivos por múltiples vehículos aéreos no tripulados mediante DRL: un método multiagente parcialmente observable basado en DQN
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Aprendizaje por refuerzo
Observación parcial
Algoritmo PODQN
Unidad Recurrente Con Puerta
Campo potencial artificial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
A medida que avanza la tecnología de Vehículos Aéreos No Tripulados (VANT), los VANT han atraído una atención generalizada en los campos militar y civil debido a su bajo costo y flexibilidad. En entornos desconocidos, los VANT pueden reducir significativamente el riesgo de bajas y mejorar la seguridad y la discreción al realizar misiones. El Aprendizaje por Refuerzo permite a los agentes aprender políticas óptimas a través de pruebas en el entorno, lo que permite a los VANT responder de manera autónoma según las condiciones en tiempo real. Debido a la limitación del rango de observación de los sensores de los VANT, las misiones de búsqueda de objetivos enfrentan el desafío de la observación parcial. Basado en esto, se propone el Deep Q-Network Parcialmente Observable (PODQN), que es un algoritmo basado en DQN. El algoritmo PODQN utiliza la Unidad Recurrente Con Puerta (GRU) para recordar la información de observación pasada. Integra la red objetivo y descompone el valor de acción para una mejor evaluación. Además, se introduce el campo potencial artificial para resolver el problema de colisión potencial. El entorno de simulación para la búsqueda de objetivos de VANT se construye a través del Proceso de Decisión de Markov personalizado. Al comparar el algoritmo PODQN con la estrategia aleatoria, DQN, Double DQN, Dueling DQN, VDN y QMIX, se demuestra que el algoritmo PODQN propuesto tiene el mejor rendimiento bajo diferentes configuraciones de agentes.
Descripción
A medida que avanza la tecnología de Vehículos Aéreos No Tripulados (VANT), los VANT han atraído una atención generalizada en los campos militar y civil debido a su bajo costo y flexibilidad. En entornos desconocidos, los VANT pueden reducir significativamente el riesgo de bajas y mejorar la seguridad y la discreción al realizar misiones. El Aprendizaje por Refuerzo permite a los agentes aprender políticas óptimas a través de pruebas en el entorno, lo que permite a los VANT responder de manera autónoma según las condiciones en tiempo real. Debido a la limitación del rango de observación de los sensores de los VANT, las misiones de búsqueda de objetivos enfrentan el desafío de la observación parcial. Basado en esto, se propone el Deep Q-Network Parcialmente Observable (PODQN), que es un algoritmo basado en DQN. El algoritmo PODQN utiliza la Unidad Recurrente Con Puerta (GRU) para recordar la información de observación pasada. Integra la red objetivo y descompone el valor de acción para una mejor evaluación. Además, se introduce el campo potencial artificial para resolver el problema de colisión potencial. El entorno de simulación para la búsqueda de objetivos de VANT se construye a través del Proceso de Decisión de Markov personalizado. Al comparar el algoritmo PODQN con la estrategia aleatoria, DQN, Double DQN, Dueling DQN, VDN y QMIX, se demuestra que el algoritmo PODQN propuesto tiene el mejor rendimiento bajo diferentes configuraciones de agentes.