logo móvil
Contáctanos

Un Método de Búsqueda de Objetivos a Largo Plazo para Vehículos Aéreos No Tripulados Basado en Aprendizaje por Refuerzo

Autores: Wei, Dexing; Zhang, Lun; Yang, Mei; Deng, Hanqiang; Huang, Jian

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un Método de Búsqueda de Objetivos a Largo Plazo para Vehículos Aéreos No Tripulados Basado en Aprendizaje por Refuerzo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados
Aprendizaje por refuerzo profundo
Tareas de búsqueda con drones
Aprendizaje por refuerzo en entornos agrupados temporalmente asíncronos
Entornos de entrenamiento
Eficiencia de los UAV

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los vehículos aéreos no tripulados (VANT) se están utilizando cada vez más en operaciones de búsqueda. El aprendizaje por refuerzo profundo (DRL), debido a sus robustas capacidades de autoaprendizaje y adaptación, se ha aplicado extensamente a tareas de búsqueda con drones. Sin embargo, los enfoques tradicionales de DRL a menudo sufren de largos tiempos de entrenamiento, especialmente en misiones de búsqueda a largo plazo para VANT, donde los ciclos de interacción entre el agente y el entorno se extienden. Este artículo aborda este problema crítico al introducir un nuevo método: el aprendizaje por refuerzo en entornos agrupados temporalmente asincrónicos (TAGRL). Nuestra innovación clave radica en reconocer que a medida que aumenta el número de entornos de entrenamiento, los agentes pueden aprender conocimientos de trayectorias discontinuas. Esta idea conduce al diseño de entornos agrupados, permitiendo que los agentes exploren solo un número limitado de pasos dentro de cada ciclo de interacción en lugar de completar secuencias completas. En consecuencia, TAGRL demuestra velocidades de aprendizaje más rápidas y un menor consumo de memoria en comparación con los métodos existentes de aprendizaje en entornos paralelos. Los resultados indican que este marco mejora la eficiencia de las tareas de búsqueda de VANT, allanando el camino para aplicaciones más escalables y efectivas del aprendizaje por refuerzo en escenarios complejos.

Otros recursos que podrían interesarte

Temas Virtualpro