Un Método de Búsqueda de Objetivos a Largo Plazo para Vehículos Aéreos No Tripulados Basado en Aprendizaje por Refuerzo
Autores: Wei, Dexing; Zhang, Lun; Yang, Mei; Deng, Hanqiang; Huang, Jian
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un Método de Búsqueda de Objetivos a Largo Plazo para Vehículos Aéreos No Tripulados Basado en Aprendizaje por Refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Aprendizaje por refuerzo profundo
Tareas de búsqueda con drones
Aprendizaje por refuerzo en entornos agrupados temporalmente asíncronos
Entornos de entrenamiento
Eficiencia de los UAV
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (VANT) se están utilizando cada vez más en operaciones de búsqueda. El aprendizaje por refuerzo profundo (DRL), debido a sus robustas capacidades de autoaprendizaje y adaptación, se ha aplicado extensamente a tareas de búsqueda con drones. Sin embargo, los enfoques tradicionales de DRL a menudo sufren de largos tiempos de entrenamiento, especialmente en misiones de búsqueda a largo plazo para VANT, donde los ciclos de interacción entre el agente y el entorno se extienden. Este artículo aborda este problema crítico al introducir un nuevo método: el aprendizaje por refuerzo en entornos agrupados temporalmente asincrónicos (TAGRL). Nuestra innovación clave radica en reconocer que a medida que aumenta el número de entornos de entrenamiento, los agentes pueden aprender conocimientos de trayectorias discontinuas. Esta idea conduce al diseño de entornos agrupados, permitiendo que los agentes exploren solo un número limitado de pasos dentro de cada ciclo de interacción en lugar de completar secuencias completas. En consecuencia, TAGRL demuestra velocidades de aprendizaje más rápidas y un menor consumo de memoria en comparación con los métodos existentes de aprendizaje en entornos paralelos. Los resultados indican que este marco mejora la eficiencia de las tareas de búsqueda de VANT, allanando el camino para aplicaciones más escalables y efectivas del aprendizaje por refuerzo en escenarios complejos.
Descripción
Los vehículos aéreos no tripulados (VANT) se están utilizando cada vez más en operaciones de búsqueda. El aprendizaje por refuerzo profundo (DRL), debido a sus robustas capacidades de autoaprendizaje y adaptación, se ha aplicado extensamente a tareas de búsqueda con drones. Sin embargo, los enfoques tradicionales de DRL a menudo sufren de largos tiempos de entrenamiento, especialmente en misiones de búsqueda a largo plazo para VANT, donde los ciclos de interacción entre el agente y el entorno se extienden. Este artículo aborda este problema crítico al introducir un nuevo método: el aprendizaje por refuerzo en entornos agrupados temporalmente asincrónicos (TAGRL). Nuestra innovación clave radica en reconocer que a medida que aumenta el número de entornos de entrenamiento, los agentes pueden aprender conocimientos de trayectorias discontinuas. Esta idea conduce al diseño de entornos agrupados, permitiendo que los agentes exploren solo un número limitado de pasos dentro de cada ciclo de interacción en lugar de completar secuencias completas. En consecuencia, TAGRL demuestra velocidades de aprendizaje más rápidas y un menor consumo de memoria en comparación con los métodos existentes de aprendizaje en entornos paralelos. Los resultados indican que este marco mejora la eficiencia de las tareas de búsqueda de VANT, allanando el camino para aplicaciones más escalables y efectivas del aprendizaje por refuerzo en escenarios complejos.