Navegación autónoma de UAV con control adaptativo basado en aprendizaje profundo por refuerzo
Autores: Yin, Yongfeng; Wang, Zhetao; Zheng, Lili; Su, Qingran; Guo, Yang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Navegación autónoma de UAV con control adaptativo basado en aprendizaje profundo por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Vehículo aéreo no tripulado
Navegación
Control adaptativo
Evasión de obstáculos
Aprendizaje profundo por refuerzo
Entorno 3D
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La navegación de vehículos aéreos no tripulados (UAV) juega un papel crucial en su capacidad para realizar misiones autónomas en entornos complejos. La mayoría de los métodos existentes de aprendizaje por refuerzo para resolver el problema de navegación de UAV fijan la altitud y la velocidad de vuelo, lo que reduce en gran medida la dificultad del algoritmo. Sin embargo, los métodos sin control adaptativo no son adecuados en entornos de baja altitud con situaciones complejas, generalmente sufren de una débil evasión de obstáculos. Algunos estudios de navegación de UAV con vuelo adaptativo solo tienen capacidades débiles de evasión de obstáculos. Para abordar el problema de la navegación de UAV en entornos de baja altitud, construimos la navegación autónoma de UAV en entornos 3D con control adaptativo como un proceso de decisión de Markov y proponemos un algoritmo de aprendizaje profundo por refuerzo. Para resolver el problema de la débil evasión de obstáculos, proponemos creativamente el método de atención de guía para que la decisión de un UAV se enfoque entre la tarea de navegación y la tarea de evasión de obstáculos según los cambios en el obstáculo. Planteamos una nueva función de pérdida con restricción de velocidad y la agregamos a la pérdida original del actor para mejorar la capacidad de control de velocidad del UAV. Los resultados de experimentos de simulación demuestran que nuestro algoritmo supera a algunos de los algoritmos de aprendizaje profundo por refuerzo más avanzados realizando tareas de navegación de UAV en un entorno 3D y tiene un rendimiento sobresaliente en la efectividad del algoritmo, con el aumento del premio promedio en un 9,35%, la tasa de éxito de las tareas de navegación en un 14% y la tasa de colisión disminuyendo en un 14%.
Descripción
La navegación de vehículos aéreos no tripulados (UAV) juega un papel crucial en su capacidad para realizar misiones autónomas en entornos complejos. La mayoría de los métodos existentes de aprendizaje por refuerzo para resolver el problema de navegación de UAV fijan la altitud y la velocidad de vuelo, lo que reduce en gran medida la dificultad del algoritmo. Sin embargo, los métodos sin control adaptativo no son adecuados en entornos de baja altitud con situaciones complejas, generalmente sufren de una débil evasión de obstáculos. Algunos estudios de navegación de UAV con vuelo adaptativo solo tienen capacidades débiles de evasión de obstáculos. Para abordar el problema de la navegación de UAV en entornos de baja altitud, construimos la navegación autónoma de UAV en entornos 3D con control adaptativo como un proceso de decisión de Markov y proponemos un algoritmo de aprendizaje profundo por refuerzo. Para resolver el problema de la débil evasión de obstáculos, proponemos creativamente el método de atención de guía para que la decisión de un UAV se enfoque entre la tarea de navegación y la tarea de evasión de obstáculos según los cambios en el obstáculo. Planteamos una nueva función de pérdida con restricción de velocidad y la agregamos a la pérdida original del actor para mejorar la capacidad de control de velocidad del UAV. Los resultados de experimentos de simulación demuestran que nuestro algoritmo supera a algunos de los algoritmos de aprendizaje profundo por refuerzo más avanzados realizando tareas de navegación de UAV en un entorno 3D y tiene un rendimiento sobresaliente en la efectividad del algoritmo, con el aumento del premio promedio en un 9,35%, la tasa de éxito de las tareas de navegación en un 14% y la tasa de colisión disminuyendo en un 14%.