logo móvil
Contáctanos

Aplicación del Aprendizaje por Refuerzo en el Control de las Acciones de Vuelo de un UAV Quadrotor

Autores: Shen, Shang-En; Huang, Yi-Cheng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aplicación del Aprendizaje por Refuerzo en el Control de las Acciones de Vuelo de un UAV Quadrotor


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Drones de rotorcraft
Mecanismos de recompensa y castigo
Experimentos de simulación
Entrada de estado
Algoritmos de RL

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La mayoría de la literatura ha discutido extensamente el aprendizaje por refuerzo (RL) para controlar drones de rotor durante el vuelo en tareas de travesía. Sin embargo, la mayoría de los estudios carecen de detalles adecuados sobre el diseño de mecanismos de recompensa y castigo, y hay una exploración limitada de la viabilidad de aplicar el aprendizaje por refuerzo en el control de vuelo real después de experimentos de simulación. En consecuencia, este estudio se centra en la exploración del diseño de recompensa y castigo y la entrada de estado para el RL. El entorno de simulación se construye utilizando AirSim y Unreal Engine, con imágenes de la cámara a bordo que sirven como entrada de estado para el aprendizaje por refuerzo. La investigación investiga tres algoritmos de RL adecuados para el entrenamiento de acciones discretas. La Red Q Profunda (DQN), el Actor-Crítico de Ventaja (A2C) y la Optimización de Políticas Proximales (PPO) se combinaron con tres mecanismos de diseño de recompensa y castigo diferentes para el entrenamiento y la prueba. Los resultados indican que emplear el algoritmo PPO junto con un método de retorno continuo como mecanismo de recompensa permite una convergencia efectiva durante el proceso de entrenamiento, logrando una tasa de travesía objetivo del 71% en el entorno de prueba. Además, este estudio propone integrar el sistema de detección de objetos YOLOv7-tiny para evaluar la aplicabilidad del aprendizaje por refuerzo en entornos del mundo real. Unificando las entradas de estado de los entornos simulados y de detección de objetos y reemplazando las entradas de imagen simuladas originales con un enfoque de doble objetivo máximo, la simulación experimental logró una tasa de travesía objetivo del 52% en última instancia. En resumen, esta investigación formula un conjunto de marcos lógicos para un diseño de recompensa y castigo de RL implementado con la implementación en tiempo real de la detección de objetos de Yolo, sinergizado como una ayuda útil para estudios relacionados con el RL.

Otros recursos que podrían interesarte

Temas Virtualpro