logo móvil
Contáctanos

Búsqueda colaborativa de objetivos por múltiples vehículos aéreos no tripulados mediante DRL: un método multiagente parcialmente observable basado en DQN

Autores: Xu, Heng; Zhu, Dayong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Búsqueda colaborativa de objetivos por múltiples vehículos aéreos no tripulados mediante DRL: un método multiagente parcialmente observable basado en DQN


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado
Aprendizaje por refuerzo
Observación parcial
Algoritmo PODQN
Unidad Recurrente Con Puerta
Campo potencial artificial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
A medida que avanza la tecnología de Vehículos Aéreos No Tripulados (VANT), los VANT han atraído una atención generalizada en los campos militar y civil debido a su bajo costo y flexibilidad. En entornos desconocidos, los VANT pueden reducir significativamente el riesgo de bajas y mejorar la seguridad y la discreción al realizar misiones. El Aprendizaje por Refuerzo permite a los agentes aprender políticas óptimas a través de pruebas en el entorno, lo que permite a los VANT responder de manera autónoma según las condiciones en tiempo real. Debido a la limitación del rango de observación de los sensores de los VANT, las misiones de búsqueda de objetivos enfrentan el desafío de la observación parcial. Basado en esto, se propone el Deep Q-Network Parcialmente Observable (PODQN), que es un algoritmo basado en DQN. El algoritmo PODQN utiliza la Unidad Recurrente Con Puerta (GRU) para recordar la información de observación pasada. Integra la red objetivo y descompone el valor de acción para una mejor evaluación. Además, se introduce el campo potencial artificial para resolver el problema de colisión potencial. El entorno de simulación para la búsqueda de objetivos de VANT se construye a través del Proceso de Decisión de Markov personalizado. Al comparar el algoritmo PODQN con la estrategia aleatoria, DQN, Double DQN, Dueling DQN, VDN y QMIX, se demuestra que el algoritmo PODQN propuesto tiene el mejor rendimiento bajo diferentes configuraciones de agentes.

Otros recursos que podrían interesarte

Temas Virtualpro