logo móvil
Contáctanos

VizNav: Un marco modular de aprendizaje por refuerzo profundo fuera de política para la navegación autónoma de UAV basada en visión en entornos dinámicos 3D

Autores: AlMahamid, Fadi; Grolinger, Katarina

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

VizNav: Un marco modular de aprendizaje por refuerzo profundo fuera de política para la navegación autónoma de UAV basada en visión en entornos dinámicos 3D


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados
Aprendizaje profundo por refuerzo
Navegación autónoma de UAV
Marco VizNav
Gradiente de Política Determinista Profundo Doble Retrasado
Imágenes de mapas de profundidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los vehículos aéreos no tripulados (VANT) ofrecen beneficios a través de su eco-amigabilidad, rentabilidad y reducción del riesgo humano. El aprendizaje por refuerzo profundo (DRL) se utiliza ampliamente para la navegación autónoma de VANT; sin embargo, las técnicas actuales a menudo simplifican en exceso el entorno o imponen restricciones de movimiento. Además, la mayoría de los sistemas basados en visión carecen de una percepción de profundidad precisa, mientras que los medidores de distancia proporcionan una visión ambiental limitada, y el LiDAR es intensivo en energía. Para abordar estos desafíos, este documento propone VizNav, un marco modular basado en DRL para la navegación autónoma de VANT en entornos 3D dinámicos sin imponer restricciones de movilidad convencionales. VizNav incorpora el algoritmo Twin Delayed Deep Deterministic Policy Gradient (TD3) con Prioritized Experience Replay y Importance Sampling (PER) para mejorar el rendimiento en espacios de acción continuos y mitigar sobreestimaciones. Además, VizNav emplea imágenes de mapas de profundidad (DMI) para mejorar la navegación visual al estimar con precisión la información de profundidad de los objetos, mejorando así la evitación de obstáculos. Los resultados empíricos muestran que VizNav, al aprovechar TD3, mejora la navegación, y la inclusión de PER y DMI aumenta aún más el rendimiento. Además, el despliegue de VizNav en diversos entornos experimentales confirma su flexibilidad y adaptabilidad. La arquitectura del marco separa el aprendizaje del agente del proceso de entrenamiento, facilitando la integración con varios algoritmos de DRL, entornos de simulación y funciones de recompensa. Esta modularidad crea un potencial para influir en la simulación de RL en varios sistemas de navegación autónoma, incluidos el control de robótica y los vehículos autónomos.

Otros recursos que podrían interesarte

Temas Virtualpro