Control de Vuelo Autónomo de UAV mediante Soft Actor-Critic por Pasos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Control de Vuelo Autónomo de UAV mediante Soft Actor-Critic por Pasos

Autores: Hwang, Ha Jun; Jang, Jaeyeon; Choi, Jongkwan; Bae, Jung Ho; Kim, Sung Ho; Kim, Chang Ouk

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Control de Vuelo Autónomo de UAV mediante Soft Actor-Critic por Pasos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Demanda creciente

Vehículos aéreos no tripulados

Aprendizaje por refuerzo

Vuelo autónomo

Algoritmo de actor-crítico suave

Estado de alta dimensión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

A pesar de la creciente demanda de vehículos aéreos no tripulados (VANT), el uso de VANT convencionales es limitado, ya que la mayoría de ellos requieren ser operados de forma remota por una persona que no se encuentra dentro del campo de visión del vehículo. Recientemente, muchos estudios han introducido el aprendizaje por refuerzo (RL) para abordar los obstáculos del vuelo autónomo de los VANT. Sin embargo, la mayoría de los estudios anteriores han asumido entornos excesivamente simplificados y, por lo tanto, no pueden aplicarse a escenarios de operación de VANT en el mundo real. Para abordar las limitaciones de los estudios anteriores, proponemos un algoritmo de actor-crítico suave por pasos (SeSAC) para un aprendizaje eficiente en un entorno de espacio de estado y acción continuo. SeSAC tiene como objetivo superar la ineficiencia del aprendizaje causada por intentar tareas desafiantes desde el principio. En cambio, comienza con misiones más fáciles y aumenta gradualmente el nivel de dificultad durante el entrenamiento, logrando finalmente el objetivo final. También controlamos un hiperparámetro de aprendizaje del algoritmo de actor-crítico suave e implementamos un mecanismo de buffer positivo durante el entrenamiento para mejorar la efectividad del aprendizaje. Nuestro algoritmo propuesto fue verificado en un entorno de vuelo de seis grados de libertad (DOF) con espacios de estado y acción de alta dimensión. Los resultados experimentales demuestran que el algoritmo propuesto completó con éxito misiones en dos escenarios desafiantes, uno para la gestión de desastres y otro para misiones de contrarresto al terrorismo, superando el rendimiento de otros enfoques de referencia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro