Un Método de Búsqueda de Objetivos a Largo Plazo para Vehículos Aéreos No Tripulados Basado en Aprendizaje por Refuerzo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un Método de Búsqueda de Objetivos a Largo Plazo para Vehículos Aéreos No Tripulados Basado en Aprendizaje por Refuerzo

Autores: Wei, Dexing; Zhang, Lun; Yang, Mei; Deng, Hanqiang; Huang, Jian

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Un Método de Búsqueda de Objetivos a Largo Plazo para Vehículos Aéreos No Tripulados Basado en Aprendizaje por Refuerzo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados

Aprendizaje por refuerzo profundo

Tareas de búsqueda con drones

Aprendizaje por refuerzo en entornos agrupados temporalmente asíncronos

Entornos de entrenamiento

Eficiencia de los UAV

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los vehículos aéreos no tripulados (VANT) se están utilizando cada vez más en operaciones de búsqueda. El aprendizaje por refuerzo profundo (DRL), debido a sus robustas capacidades de autoaprendizaje y adaptación, se ha aplicado extensamente a tareas de búsqueda con drones. Sin embargo, los enfoques tradicionales de DRL a menudo sufren de largos tiempos de entrenamiento, especialmente en misiones de búsqueda a largo plazo para VANT, donde los ciclos de interacción entre el agente y el entorno se extienden. Este artículo aborda este problema crítico al introducir un nuevo método: el aprendizaje por refuerzo en entornos agrupados temporalmente asincrónicos (TAGRL). Nuestra innovación clave radica en reconocer que a medida que aumenta el número de entornos de entrenamiento, los agentes pueden aprender conocimientos de trayectorias discontinuas. Esta idea conduce al diseño de entornos agrupados, permitiendo que los agentes exploren solo un número limitado de pasos dentro de cada ciclo de interacción en lugar de completar secuencias completas. En consecuencia, TAGRL demuestra velocidades de aprendizaje más rápidas y un menor consumo de memoria en comparación con los métodos existentes de aprendizaje en entornos paralelos. Los resultados indican que este marco mejora la eficiencia de las tareas de búsqueda de VANT, allanando el camino para aplicaciones más escalables y efectivas del aprendizaje por refuerzo en escenarios complejos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro