logo móvil
Contáctanos

Un método híbrido de aprendizaje por refuerzo profundo con intervención humana para la planificación de movimiento de UAV para trayectorias largas con obstáculos impredecibles

Autores: Zhang, Sitong; Li, Yibing; Ye, Fang; Geng, Xiaoyu; Zhou, Zitao; Shi, Tuo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un método híbrido de aprendizaje por refuerzo profundo con intervención humana para la planificación de movimiento de UAV para trayectorias largas con obstáculos impredecibles


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados
Métodos de evitación de colisiones
Aprendizaje profundo por refuerzo
Navegación en tiempo real
Entornos complejos
Evitación de obstáculos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los Vehículos Aéreos No Tripulados (VANT) pueden ser un componente importante en el ecosistema del Internet de las Cosas (IoT) debido a su capacidad para recolectar y transmitir datos desde áreas remotas y de difícil acceso. Asegurar una navegación libre de colisiones para estos VANT es crucial para lograr este objetivo. Sin embargo, los métodos existentes de evitación de colisiones para VANT enfrentan dos desafíos: los métodos convencionales de planificación de rutas son intensivos en energía y requieren mucho cálculo, mientras que los métodos de planificación de movimiento basados en aprendizaje por refuerzo profundo (DRL) tienden a hacer que los VANT queden atrapados en entornos complejos, especialmente en trayectorias largas con obstáculos impredecibles, debido a la limitada capacidad de detección de los VANT. Para abordar estos desafíos, proponemos un método híbrido de evitación de colisiones para la navegación en tiempo real de VANT en entornos complejos con obstáculos impredecibles. En primer lugar, desarrollamos un módulo de entrenamiento de DRL con humano en el circuito (HL-DRL) para la evitación de obstáculos sin mapa y, en segundo lugar, establecemos un módulo de planificación global que genera algunos puntos como guía de waypoints. Además, se propone un novedoso algoritmo de actualización de objetivos para integrar el módulo de entrenamiento HL-DRL con el módulo de planificación global al determinar de manera adaptativa el waypoint a alcanzar. El método propuesto se evalúa en diferentes entornos simulados. Los resultados demuestran que nuestro enfoque puede adaptarse rápidamente a los cambios en los entornos con un corto tiempo de replanteamiento y evitar que el VANT se quede atascado en entornos laberínticos.

Otros recursos que podrían interesarte

Temas Virtualpro