logo móvil
Contáctanos

Control de Vuelo Autónomo de UAV mediante Soft Actor-Critic por Pasos

Autores: Hwang, Ha Jun; Jang, Jaeyeon; Choi, Jongkwan; Bae, Jung Ho; Kim, Sung Ho; Kim, Chang Ouk

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Control de Vuelo Autónomo de UAV mediante Soft Actor-Critic por Pasos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Demanda creciente
Vehículos aéreos no tripulados
Aprendizaje por refuerzo
Vuelo autónomo
Algoritmo de actor-crítico suave
Estado de alta dimensión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
A pesar de la creciente demanda de vehículos aéreos no tripulados (VANT), el uso de VANT convencionales es limitado, ya que la mayoría de ellos requieren ser operados de forma remota por una persona que no se encuentra dentro del campo de visión del vehículo. Recientemente, muchos estudios han introducido el aprendizaje por refuerzo (RL) para abordar los obstáculos del vuelo autónomo de los VANT. Sin embargo, la mayoría de los estudios anteriores han asumido entornos excesivamente simplificados y, por lo tanto, no pueden aplicarse a escenarios de operación de VANT en el mundo real. Para abordar las limitaciones de los estudios anteriores, proponemos un algoritmo de actor-crítico suave por pasos (SeSAC) para un aprendizaje eficiente en un entorno de espacio de estado y acción continuo. SeSAC tiene como objetivo superar la ineficiencia del aprendizaje causada por intentar tareas desafiantes desde el principio. En cambio, comienza con misiones más fáciles y aumenta gradualmente el nivel de dificultad durante el entrenamiento, logrando finalmente el objetivo final. También controlamos un hiperparámetro de aprendizaje del algoritmo de actor-crítico suave e implementamos un mecanismo de buffer positivo durante el entrenamiento para mejorar la efectividad del aprendizaje. Nuestro algoritmo propuesto fue verificado en un entorno de vuelo de seis grados de libertad (DOF) con espacios de estado y acción de alta dimensión. Los resultados experimentales demuestran que el algoritmo propuesto completó con éxito misiones en dos escenarios desafiantes, uno para la gestión de desastres y otro para misiones de contrarresto al terrorismo, superando el rendimiento de otros enfoques de referencia.

Otros recursos que podrían interesarte

Temas Virtualpro