Aprendizaje por refuerzo profundo basado en visión para la navegación autónoma de vehículos aéreos no tripulados (UAV) utilizando información privilegiada
Autores: Wang, Junqiao; Yu, Zhongliang; Zhou, Dong; Shi, Jiaqi; Deng, Runran
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje por refuerzo profundo basado en visión para la navegación autónoma de vehículos aéreos no tripulados (UAV) utilizando información privilegiada
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Capacidades
UAVs
Navegación autónoma
Evitación de obstáculos
Algoritmo DPRL
Aprendizaje por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La capacidad de los UAV para una navegación autónoma eficiente y la evitación de obstáculos en entornos complejos y desconocidos es crítica para aplicaciones en riego agrícola, ayuda en desastres y logística. En este artículo, proponemos el algoritmo de navegación DPRL (Aprendizaje por Refuerzo Privilegiado Distribuido), una política de extremo a extremo diseñada para abordar el desafío de la navegación autónoma de UAV a alta velocidad en condiciones ambientales parcialmente observables. Nuestro enfoque combina el aprendizaje por refuerzo profundo con el aprendizaje privilegiado para superar el impacto de la corrupción de datos de observación causada por la observabilidad parcial. Aprovechamos una arquitectura asimétrica de Actor-Crítico para proporcionar al agente información privilegiada durante el entrenamiento, lo que mejora las capacidades perceptuales del modelo. Además, presentamos una estrategia de exploración multiagente en diversos entornos para acelerar la recolección de experiencias, lo que a su vez acelera la convergencia del modelo. Realizamos simulaciones extensas en varios escenarios, comparando nuestro algoritmo DPRL con algoritmos de navegación de última generación. Los resultados demuestran consistentemente el rendimiento superior de nuestro algoritmo en términos de eficiencia de vuelo, robustez y tasa de éxito general.
Descripción
La capacidad de los UAV para una navegación autónoma eficiente y la evitación de obstáculos en entornos complejos y desconocidos es crítica para aplicaciones en riego agrícola, ayuda en desastres y logística. En este artículo, proponemos el algoritmo de navegación DPRL (Aprendizaje por Refuerzo Privilegiado Distribuido), una política de extremo a extremo diseñada para abordar el desafío de la navegación autónoma de UAV a alta velocidad en condiciones ambientales parcialmente observables. Nuestro enfoque combina el aprendizaje por refuerzo profundo con el aprendizaje privilegiado para superar el impacto de la corrupción de datos de observación causada por la observabilidad parcial. Aprovechamos una arquitectura asimétrica de Actor-Crítico para proporcionar al agente información privilegiada durante el entrenamiento, lo que mejora las capacidades perceptuales del modelo. Además, presentamos una estrategia de exploración multiagente en diversos entornos para acelerar la recolección de experiencias, lo que a su vez acelera la convergencia del modelo. Realizamos simulaciones extensas en varios escenarios, comparando nuestro algoritmo DPRL con algoritmos de navegación de última generación. Los resultados demuestran consistentemente el rendimiento superior de nuestro algoritmo en términos de eficiencia de vuelo, robustez y tasa de éxito general.