Control de Vuelo Autónomo de UAV mediante Soft Actor-Critic por Pasos
Autores: Hwang, Ha Jun; Jang, Jaeyeon; Choi, Jongkwan; Bae, Jung Ho; Kim, Sung Ho; Kim, Chang Ouk
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Control de Vuelo Autónomo de UAV mediante Soft Actor-Critic por Pasos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Demanda creciente
Vehículos aéreos no tripulados
Aprendizaje por refuerzo
Vuelo autónomo
Algoritmo de actor-crítico suave
Estado de alta dimensión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
A pesar de la creciente demanda de vehículos aéreos no tripulados (VANT), el uso de VANT convencionales es limitado, ya que la mayoría de ellos requieren ser operados de forma remota por una persona que no se encuentra dentro del campo de visión del vehículo. Recientemente, muchos estudios han introducido el aprendizaje por refuerzo (RL) para abordar los obstáculos del vuelo autónomo de los VANT. Sin embargo, la mayoría de los estudios anteriores han asumido entornos excesivamente simplificados y, por lo tanto, no pueden aplicarse a escenarios de operación de VANT en el mundo real. Para abordar las limitaciones de los estudios anteriores, proponemos un algoritmo de actor-crítico suave por pasos (SeSAC) para un aprendizaje eficiente en un entorno de espacio de estado y acción continuo. SeSAC tiene como objetivo superar la ineficiencia del aprendizaje causada por intentar tareas desafiantes desde el principio. En cambio, comienza con misiones más fáciles y aumenta gradualmente el nivel de dificultad durante el entrenamiento, logrando finalmente el objetivo final. También controlamos un hiperparámetro de aprendizaje del algoritmo de actor-crítico suave e implementamos un mecanismo de buffer positivo durante el entrenamiento para mejorar la efectividad del aprendizaje. Nuestro algoritmo propuesto fue verificado en un entorno de vuelo de seis grados de libertad (DOF) con espacios de estado y acción de alta dimensión. Los resultados experimentales demuestran que el algoritmo propuesto completó con éxito misiones en dos escenarios desafiantes, uno para la gestión de desastres y otro para misiones de contrarresto al terrorismo, superando el rendimiento de otros enfoques de referencia.
Descripción
A pesar de la creciente demanda de vehículos aéreos no tripulados (VANT), el uso de VANT convencionales es limitado, ya que la mayoría de ellos requieren ser operados de forma remota por una persona que no se encuentra dentro del campo de visión del vehículo. Recientemente, muchos estudios han introducido el aprendizaje por refuerzo (RL) para abordar los obstáculos del vuelo autónomo de los VANT. Sin embargo, la mayoría de los estudios anteriores han asumido entornos excesivamente simplificados y, por lo tanto, no pueden aplicarse a escenarios de operación de VANT en el mundo real. Para abordar las limitaciones de los estudios anteriores, proponemos un algoritmo de actor-crítico suave por pasos (SeSAC) para un aprendizaje eficiente en un entorno de espacio de estado y acción continuo. SeSAC tiene como objetivo superar la ineficiencia del aprendizaje causada por intentar tareas desafiantes desde el principio. En cambio, comienza con misiones más fáciles y aumenta gradualmente el nivel de dificultad durante el entrenamiento, logrando finalmente el objetivo final. También controlamos un hiperparámetro de aprendizaje del algoritmo de actor-crítico suave e implementamos un mecanismo de buffer positivo durante el entrenamiento para mejorar la efectividad del aprendizaje. Nuestro algoritmo propuesto fue verificado en un entorno de vuelo de seis grados de libertad (DOF) con espacios de estado y acción de alta dimensión. Los resultados experimentales demuestran que el algoritmo propuesto completó con éxito misiones en dos escenarios desafiantes, uno para la gestión de desastres y otro para misiones de contrarresto al terrorismo, superando el rendimiento de otros enfoques de referencia.