Aprendizaje por Refuerzo Profundo para la Navegación Basada en Visión de UAVs en la Evitación de Obstáculos Estacionarios y Móviles
Autores: Kalidas, Amudhini P.; Joshua, Christy Jackson; Md, Abdul Quadir; Basheer, Shakila; Mohan, Senthilkumar; Sakri, Sapiah
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Aprendizaje por Refuerzo Profundo para la Navegación Basada en Visión de UAVs en la Evitación de Obstáculos Estacionarios y Móviles
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Drones
Aprendizaje por refuerzo
Detección de obstáculos
Operación autónoma
Prevención de colisiones
Algoritmos fuera de política
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (VANT), también conocidos como drones, han avanzado enormemente en los últimos años. Hay muchas formas en que se pueden utilizar los drones, incluyendo el transporte, la fotografía, el monitoreo climático y la ayuda en desastres. La razón de esto es su alto nivel de eficiencia y seguridad en todas las operaciones. Aunque el diseño de los drones busca la perfección, aún no es impecable. En lo que respecta a la detección y prevención de colisiones, los drones todavía enfrentan muchos desafíos. En este contexto, este documento describe una metodología para desarrollar un sistema de drones que opere de manera autónoma sin necesidad de intervención humana. Este estudio aplica algoritmos de aprendizaje por refuerzo para entrenar a un dron a evitar obstáculos de manera autónoma en espacios de acción discretos y continuos basándose únicamente en datos de imagen. La novedad de este estudio radica en su evaluación integral de las ventajas, limitaciones y direcciones futuras de investigación sobre la detección y evitación de obstáculos para drones, utilizando diferentes técnicas de aprendizaje por refuerzo. Este estudio compara tres estrategias diferentes de aprendizaje por refuerzo, a saber, Redes Neuronales Profundas (DQN), Optimización de Políticas Proximales (PPO) y Crítico Suave de Actor (SAC), que pueden ayudar a evitar obstáculos, tanto estacionarios como en movimiento; sin embargo, estas estrategias han tenido más éxito en drones. El experimento se ha llevado a cabo en un entorno virtual proporcionado por AirSim. Utilizando Unreal Engine 4, se crearon varios escenarios de entrenamiento y prueba para comprender y analizar el comportamiento de los algoritmos de aprendizaje por refuerzo para drones. Según los resultados del entrenamiento, SAC superó a los otros dos algoritmos. PPO fue el menos exitoso entre los algoritmos, lo que indica que los algoritmos en política son ineficaces en entornos 3D extensos con actores dinámicos. DQN y SAC, dos algoritmos fuera de política, produjeron resultados alentadores. Sin embargo, debido a su espacio de acción discreto limitado, DQN puede no ser tan ventajoso como SAC en caminos estrechos y giros. En cuanto a otros hallazgos, cuando se trata de drones autónomos, los algoritmos fuera de política, como DQN y SAC, funcionan de manera más efectiva que los algoritmos en política, como PPO. Los hallazgos podrían tener implicaciones prácticas para el desarrollo de drones más seguros y eficientes en el futuro.
Descripción
Los vehículos aéreos no tripulados (VANT), también conocidos como drones, han avanzado enormemente en los últimos años. Hay muchas formas en que se pueden utilizar los drones, incluyendo el transporte, la fotografía, el monitoreo climático y la ayuda en desastres. La razón de esto es su alto nivel de eficiencia y seguridad en todas las operaciones. Aunque el diseño de los drones busca la perfección, aún no es impecable. En lo que respecta a la detección y prevención de colisiones, los drones todavía enfrentan muchos desafíos. En este contexto, este documento describe una metodología para desarrollar un sistema de drones que opere de manera autónoma sin necesidad de intervención humana. Este estudio aplica algoritmos de aprendizaje por refuerzo para entrenar a un dron a evitar obstáculos de manera autónoma en espacios de acción discretos y continuos basándose únicamente en datos de imagen. La novedad de este estudio radica en su evaluación integral de las ventajas, limitaciones y direcciones futuras de investigación sobre la detección y evitación de obstáculos para drones, utilizando diferentes técnicas de aprendizaje por refuerzo. Este estudio compara tres estrategias diferentes de aprendizaje por refuerzo, a saber, Redes Neuronales Profundas (DQN), Optimización de Políticas Proximales (PPO) y Crítico Suave de Actor (SAC), que pueden ayudar a evitar obstáculos, tanto estacionarios como en movimiento; sin embargo, estas estrategias han tenido más éxito en drones. El experimento se ha llevado a cabo en un entorno virtual proporcionado por AirSim. Utilizando Unreal Engine 4, se crearon varios escenarios de entrenamiento y prueba para comprender y analizar el comportamiento de los algoritmos de aprendizaje por refuerzo para drones. Según los resultados del entrenamiento, SAC superó a los otros dos algoritmos. PPO fue el menos exitoso entre los algoritmos, lo que indica que los algoritmos en política son ineficaces en entornos 3D extensos con actores dinámicos. DQN y SAC, dos algoritmos fuera de política, produjeron resultados alentadores. Sin embargo, debido a su espacio de acción discreto limitado, DQN puede no ser tan ventajoso como SAC en caminos estrechos y giros. En cuanto a otros hallazgos, cuando se trata de drones autónomos, los algoritmos fuera de política, como DQN y SAC, funcionan de manera más efectiva que los algoritmos en política, como PPO. Los hallazgos podrían tener implicaciones prácticas para el desarrollo de drones más seguros y eficientes en el futuro.