Aplicación del Aprendizaje por Refuerzo en el Control de las Acciones de Vuelo de un UAV Quadrotor

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aplicación del Aprendizaje por Refuerzo en el Control de las Acciones de Vuelo de un UAV Quadrotor

Autores: Shen, Shang-En; Huang, Yi-Cheng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Aplicación del Aprendizaje por Refuerzo en el Control de las Acciones de Vuelo de un UAV Quadrotor

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo

Drones de rotorcraft

Mecanismos de recompensa y castigo

Experimentos de simulación

Entrada de estado

Algoritmos de RL

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La mayoría de la literatura ha discutido extensamente el aprendizaje por refuerzo (RL) para controlar drones de rotor durante el vuelo en tareas de travesía. Sin embargo, la mayoría de los estudios carecen de detalles adecuados sobre el diseño de mecanismos de recompensa y castigo, y hay una exploración limitada de la viabilidad de aplicar el aprendizaje por refuerzo en el control de vuelo real después de experimentos de simulación. En consecuencia, este estudio se centra en la exploración del diseño de recompensa y castigo y la entrada de estado para el RL. El entorno de simulación se construye utilizando AirSim y Unreal Engine, con imágenes de la cámara a bordo que sirven como entrada de estado para el aprendizaje por refuerzo. La investigación investiga tres algoritmos de RL adecuados para el entrenamiento de acciones discretas. La Red Q Profunda (DQN), el Actor-Crítico de Ventaja (A2C) y la Optimización de Políticas Proximales (PPO) se combinaron con tres mecanismos de diseño de recompensa y castigo diferentes para el entrenamiento y la prueba. Los resultados indican que emplear el algoritmo PPO junto con un método de retorno continuo como mecanismo de recompensa permite una convergencia efectiva durante el proceso de entrenamiento, logrando una tasa de travesía objetivo del 71% en el entorno de prueba. Además, este estudio propone integrar el sistema de detección de objetos YOLOv7-tiny para evaluar la aplicabilidad del aprendizaje por refuerzo en entornos del mundo real. Unificando las entradas de estado de los entornos simulados y de detección de objetos y reemplazando las entradas de imagen simuladas originales con un enfoque de doble objetivo máximo, la simulación experimental logró una tasa de travesía objetivo del 52% en última instancia. En resumen, esta investigación formula un conjunto de marcos lógicos para un diseño de recompensa y castigo de RL implementado con la implementación en tiempo real de la detección de objetos de Yolo, sinergizado como una ayuda útil para estudios relacionados con el RL.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro