Control de Elevación de Drones Basado en un Marco Integrado de Python-Unity para Aplicaciones de Aprendizaje por Refuerzo
Autores: Abbass, Mahmoud Abdelkader Bashery; Kang, Hyun-Soo
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Control de Elevación de Drones Basado en un Marco Integrado de Python-Unity para Aplicaciones de Aprendizaje por Refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Entornos del mundo real
Herramientas de plataformas de RL
Interacción Python-Unity
Comunicación UDP
Algoritmos de aprendizaje profundo por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las aplicaciones de aprendizaje por refuerzo (RL) requieren un gran esfuerzo para establecerse en entornos del mundo real, debido a los riesgos de lesiones y fallos durante las interacciones entre el agente de RL y el entorno, en el proceso de entrenamiento en línea. Además, las herramientas de la plataforma de RL (por ejemplo, Gym de OpenAI en Python, Unity ML-Agents, PyBullet, DART, MoJoCo, RaiSim, Isaac y AirSim), que son necesarias para reducir los desafíos del mundo real, sufren de desventajas (por ejemplo, el número limitado de ejemplos y aplicaciones, y las dificultades en la implementación de los algoritmos de RL, debido a las dificultades con el lenguaje de programación). Este documento presenta un marco integrado de RL, basado en la interacción Python-Unity, para demostrar la capacidad de crear una nueva herramienta de plataforma de RL, basada en establecer una comunicación estable mediante el protocolo de datagramas de usuario (UDP) entre el algoritmo del agente de RL (desarrollado utilizando el lenguaje de programación Python como servidor) y el entorno de simulación (creado utilizando el software de simulación Unity como cliente). Este proceso de integración Python-Unity aumenta la ventaja de la plataforma de RL en general (es decir, flexibilidad, escalabilidad y robustez), con la capacidad de crear diferentes especificaciones de entorno. También se logra el desafío de la implementación y desarrollo de algoritmos de RL. El marco propuesto se valida aplicando dos algoritmos populares de RL profundo (es decir, Vanilla Policy Gradient (VPG) y Actor-Critic (A2C)), en un desafío de control de elevación para un dron cuadricóptero. Los resultados de validación de estas pruebas experimentales demuestran la innovación del marco propuesto, para ser utilizado en aplicaciones de RL, ya que ambos algoritmos implementados logran una alta estabilidad, alcanzando la convergencia al rendimiento requerido a través del proceso de entrenamiento semi-en línea.
Descripción
Las aplicaciones de aprendizaje por refuerzo (RL) requieren un gran esfuerzo para establecerse en entornos del mundo real, debido a los riesgos de lesiones y fallos durante las interacciones entre el agente de RL y el entorno, en el proceso de entrenamiento en línea. Además, las herramientas de la plataforma de RL (por ejemplo, Gym de OpenAI en Python, Unity ML-Agents, PyBullet, DART, MoJoCo, RaiSim, Isaac y AirSim), que son necesarias para reducir los desafíos del mundo real, sufren de desventajas (por ejemplo, el número limitado de ejemplos y aplicaciones, y las dificultades en la implementación de los algoritmos de RL, debido a las dificultades con el lenguaje de programación). Este documento presenta un marco integrado de RL, basado en la interacción Python-Unity, para demostrar la capacidad de crear una nueva herramienta de plataforma de RL, basada en establecer una comunicación estable mediante el protocolo de datagramas de usuario (UDP) entre el algoritmo del agente de RL (desarrollado utilizando el lenguaje de programación Python como servidor) y el entorno de simulación (creado utilizando el software de simulación Unity como cliente). Este proceso de integración Python-Unity aumenta la ventaja de la plataforma de RL en general (es decir, flexibilidad, escalabilidad y robustez), con la capacidad de crear diferentes especificaciones de entorno. También se logra el desafío de la implementación y desarrollo de algoritmos de RL. El marco propuesto se valida aplicando dos algoritmos populares de RL profundo (es decir, Vanilla Policy Gradient (VPG) y Actor-Critic (A2C)), en un desafío de control de elevación para un dron cuadricóptero. Los resultados de validación de estas pruebas experimentales demuestran la innovación del marco propuesto, para ser utilizado en aplicaciones de RL, ya que ambos algoritmos implementados logran una alta estabilidad, alcanzando la convergencia al rendimiento requerido a través del proceso de entrenamiento semi-en línea.