logo móvil
Contáctanos

Aprendizaje por refuerzo profundo basado en visión para la navegación autónoma de vehículos aéreos no tripulados (UAV) utilizando información privilegiada

Autores: Wang, Junqiao; Yu, Zhongliang; Zhou, Dong; Shi, Jiaqi; Deng, Runran

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aprendizaje por refuerzo profundo basado en visión para la navegación autónoma de vehículos aéreos no tripulados (UAV) utilizando información privilegiada


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Capacidades
UAVs
Navegación autónoma
Evitación de obstáculos
Algoritmo DPRL
Aprendizaje por refuerzo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La capacidad de los UAV para una navegación autónoma eficiente y la evitación de obstáculos en entornos complejos y desconocidos es crítica para aplicaciones en riego agrícola, ayuda en desastres y logística. En este artículo, proponemos el algoritmo de navegación DPRL (Aprendizaje por Refuerzo Privilegiado Distribuido), una política de extremo a extremo diseñada para abordar el desafío de la navegación autónoma de UAV a alta velocidad en condiciones ambientales parcialmente observables. Nuestro enfoque combina el aprendizaje por refuerzo profundo con el aprendizaje privilegiado para superar el impacto de la corrupción de datos de observación causada por la observabilidad parcial. Aprovechamos una arquitectura asimétrica de Actor-Crítico para proporcionar al agente información privilegiada durante el entrenamiento, lo que mejora las capacidades perceptuales del modelo. Además, presentamos una estrategia de exploración multiagente en diversos entornos para acelerar la recolección de experiencias, lo que a su vez acelera la convergencia del modelo. Realizamos simulaciones extensas en varios escenarios, comparando nuestro algoritmo DPRL con algoritmos de navegación de última generación. Los resultados demuestran consistentemente el rendimiento superior de nuestro algoritmo en términos de eficiencia de vuelo, robustez y tasa de éxito general.

Otros recursos que podrían interesarte

Temas Virtualpro