logo móvil
Contáctanos

Control de Elevación de Drones Basado en un Marco Integrado de Python-Unity para Aplicaciones de Aprendizaje por Refuerzo

Autores: Abbass, Mahmoud Abdelkader Bashery; Kang, Hyun-Soo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Control de Elevación de Drones Basado en un Marco Integrado de Python-Unity para Aplicaciones de Aprendizaje por Refuerzo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Entornos del mundo real
Herramientas de plataformas de RL
Interacción Python-Unity
Comunicación UDP
Algoritmos de aprendizaje profundo por refuerzo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las aplicaciones de aprendizaje por refuerzo (RL) requieren un gran esfuerzo para establecerse en entornos del mundo real, debido a los riesgos de lesiones y fallos durante las interacciones entre el agente de RL y el entorno, en el proceso de entrenamiento en línea. Además, las herramientas de la plataforma de RL (por ejemplo, Gym de OpenAI en Python, Unity ML-Agents, PyBullet, DART, MoJoCo, RaiSim, Isaac y AirSim), que son necesarias para reducir los desafíos del mundo real, sufren de desventajas (por ejemplo, el número limitado de ejemplos y aplicaciones, y las dificultades en la implementación de los algoritmos de RL, debido a las dificultades con el lenguaje de programación). Este documento presenta un marco integrado de RL, basado en la interacción Python-Unity, para demostrar la capacidad de crear una nueva herramienta de plataforma de RL, basada en establecer una comunicación estable mediante el protocolo de datagramas de usuario (UDP) entre el algoritmo del agente de RL (desarrollado utilizando el lenguaje de programación Python como servidor) y el entorno de simulación (creado utilizando el software de simulación Unity como cliente). Este proceso de integración Python-Unity aumenta la ventaja de la plataforma de RL en general (es decir, flexibilidad, escalabilidad y robustez), con la capacidad de crear diferentes especificaciones de entorno. También se logra el desafío de la implementación y desarrollo de algoritmos de RL. El marco propuesto se valida aplicando dos algoritmos populares de RL profundo (es decir, Vanilla Policy Gradient (VPG) y Actor-Critic (A2C)), en un desafío de control de elevación para un dron cuadricóptero. Los resultados de validación de estas pruebas experimentales demuestran la innovación del marco propuesto, para ser utilizado en aplicaciones de RL, ya que ambos algoritmos implementados logran una alta estabilidad, alcanzando la convergencia al rendimiento requerido a través del proceso de entrenamiento semi-en línea.

Otros recursos que podrían interesarte

Temas Virtualpro