Búsqueda colaborativa de objetivos por múltiples vehículos aéreos no tripulados mediante DRL: un método multiagente parcialmente observable basado en DQN

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Búsqueda colaborativa de objetivos por múltiples vehículos aéreos no tripulados mediante DRL: un método multiagente parcialmente observable basado en DQN

Autores: Xu, Heng; Zhu, Dayong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Búsqueda colaborativa de objetivos por múltiples vehículos aéreos no tripulados mediante DRL: un método multiagente parcialmente observable basado en DQN

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado

Aprendizaje por refuerzo

Observación parcial

Algoritmo PODQN

Unidad Recurrente Con Puerta

Campo potencial artificial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

A medida que avanza la tecnología de Vehículos Aéreos No Tripulados (VANT), los VANT han atraído una atención generalizada en los campos militar y civil debido a su bajo costo y flexibilidad. En entornos desconocidos, los VANT pueden reducir significativamente el riesgo de bajas y mejorar la seguridad y la discreción al realizar misiones. El Aprendizaje por Refuerzo permite a los agentes aprender políticas óptimas a través de pruebas en el entorno, lo que permite a los VANT responder de manera autónoma según las condiciones en tiempo real. Debido a la limitación del rango de observación de los sensores de los VANT, las misiones de búsqueda de objetivos enfrentan el desafío de la observación parcial. Basado en esto, se propone el Deep Q-Network Parcialmente Observable (PODQN), que es un algoritmo basado en DQN. El algoritmo PODQN utiliza la Unidad Recurrente Con Puerta (GRU) para recordar la información de observación pasada. Integra la red objetivo y descompone el valor de acción para una mejor evaluación. Además, se introduce el campo potencial artificial para resolver el problema de colisión potencial. El entorno de simulación para la búsqueda de objetivos de VANT se construye a través del Proceso de Decisión de Markov personalizado. Al comparar el algoritmo PODQN con la estrategia aleatoria, DQN, Double DQN, Dueling DQN, VDN y QMIX, se demuestra que el algoritmo PODQN propuesto tiene el mejor rendimiento bajo diferentes configuraciones de agentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro