Simulación a Realidad del Aterrizaje de Cuadricópteros a través de Redes Neuronales Profundas Q Secuenciales y Aleatorización de Dominio
Autores: Polvara, Riccardo; Patacchiola, Massimiliano; Hanheide, Marc; Neumann, Gerhard
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Simulación a Realidad del Aterrizaje de Cuadricópteros a través de Redes Neuronales Profundas Q Secuenciales y Aleatorización de Dominio
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aterrizaje autónomo
Vehículo Aéreo No Tripulado
Aprendizaje profundo por refuerzo
Red Profunda Q Secuencial
Aleatorización de dominio
Escenarios del mundo real
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
El aterrizaje autónomo de un Vehículo Aéreo No Tripulado (VANT) en un marcador es uno de los problemas más desafiantes en robótica. Se han propuesto muchas soluciones, siendo los mejores resultados logrados a través de características geométricas personalizadas y sensores externos. Este artículo discute por primera vez el uso del aprendizaje profundo por refuerzo como un paradigma de aprendizaje de extremo a extremo para encontrar una política para el aterrizaje autónomo de VANTs. Nuestro método se basa en un paradigma de dividir y conquistar que descompone una tarea en subtareas secuenciales, cada una asignada a una Red Neuronal Profunda de Q (DQN), de ahí el nombre de Red Neuronal Profunda de Q Secuencial (SDQN). Cada DQN en un SDQN se activa mediante un disparador interno y representa un componente de una política de control de alto nivel, que puede guiar el VANT hacia el marcador. Se han implementado diferentes soluciones técnicas, por ejemplo, combinando DQNs simples y dobles, y la introducción de un búfer de repetición particionado para abordar el problema de la eficiencia de muestra. Una de las principales contribuciones de este trabajo consiste en mostrar cómo un SDQN entrenado en un simulador a través de la aleatorización del dominio puede generalizar efectivamente a escenarios del mundo real de creciente complejidad. El rendimiento de los SDQNs es comparable con un algoritmo de vanguardia y pilotos humanos, siendo cuantitativamente mejor en condiciones ruidosas.
Descripción
El aterrizaje autónomo de un Vehículo Aéreo No Tripulado (VANT) en un marcador es uno de los problemas más desafiantes en robótica. Se han propuesto muchas soluciones, siendo los mejores resultados logrados a través de características geométricas personalizadas y sensores externos. Este artículo discute por primera vez el uso del aprendizaje profundo por refuerzo como un paradigma de aprendizaje de extremo a extremo para encontrar una política para el aterrizaje autónomo de VANTs. Nuestro método se basa en un paradigma de dividir y conquistar que descompone una tarea en subtareas secuenciales, cada una asignada a una Red Neuronal Profunda de Q (DQN), de ahí el nombre de Red Neuronal Profunda de Q Secuencial (SDQN). Cada DQN en un SDQN se activa mediante un disparador interno y representa un componente de una política de control de alto nivel, que puede guiar el VANT hacia el marcador. Se han implementado diferentes soluciones técnicas, por ejemplo, combinando DQNs simples y dobles, y la introducción de un búfer de repetición particionado para abordar el problema de la eficiencia de muestra. Una de las principales contribuciones de este trabajo consiste en mostrar cómo un SDQN entrenado en un simulador a través de la aleatorización del dominio puede generalizar efectivamente a escenarios del mundo real de creciente complejidad. El rendimiento de los SDQNs es comparable con un algoritmo de vanguardia y pilotos humanos, siendo cuantitativamente mejor en condiciones ruidosas.