Marsexplorer: exploración de terrenos desconocidos a través de aprendizaje profundo por refuerzo y entornos generados de forma procedural
Autores: Koutras, Dimitrios I.; Kapoutsis, Athanasios C.; Amanatiadis, Angelos A.; Kosmatopoulos, Elias B.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Marsexplorer: exploración de terrenos desconocidos a través de aprendizaje profundo por refuerzo y entornos generados de forma procedural
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje por refuerzo
Exploración
MarsExplorer
Algoritmos
Terrenos
Políticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Este artículo es un esfuerzo inicial para cerrar la brecha entre las poderosas metodologías de Aprendizaje Profundo por Refuerzo y el problema de exploración/cobertura de terrenos desconocidos. Dentro de este ámbito, se presenta MarsExplorer, un entorno compatible con openai-gym diseñado para la exploración/cobertura de áreas desconocidas. MarsExplorer traduce el problema original de robótica en una configuración de Aprendizaje por Refuerzo que varios algoritmos listos para usar pueden abordar. Cualquier política aprendida puede aplicarse directamente a una plataforma robótica sin un modelo de simulación elaborado de la dinámica del robot para aplicar una fase de aprendizaje/adaptación diferente. Una de sus características principales es la generación procedural multidimensional controlable de terrenos, que es clave para producir políticas con fuertes capacidades de generalización. Cuatro algoritmos de Aprendizaje por Refuerzo de última generación (A3C, PPO, Rainbow y SAC) son entrenados en el entorno MarsExplorer, y se informa de una evaluación adecuada de sus resultados en comparación con el rendimiento promedio a nivel humano. En el análisis experimental de seguimiento, se analiza el efecto del ajuste de dificultad multidimensional en las capacidades de aprendizaje del algoritmo de mejor rendimiento (PPO). Un resultado destacado es la generación de una política de exploración que sigue la curva de Hilbert sin proporcionar esta información al entorno o recompensar directa o indirectamente trayectorias similares a la curva de Hilbert. El análisis experimental concluye evaluando el algoritmo de política aprendida de PPO lado a lado con estrategias de exploración basadas en la frontera. Un estudio sobre las curvas de rendimiento reveló que la política basada en PPO fue capaz de realizar un barrido adaptativo al terreno desconocido sin dejar áreas costosas de revisitar sin cubrir, subrayando la capacidad de las metodologías basadas en RL para abordar eficientemente tareas de exploración.
Descripción
Este artículo es un esfuerzo inicial para cerrar la brecha entre las poderosas metodologías de Aprendizaje Profundo por Refuerzo y el problema de exploración/cobertura de terrenos desconocidos. Dentro de este ámbito, se presenta MarsExplorer, un entorno compatible con openai-gym diseñado para la exploración/cobertura de áreas desconocidas. MarsExplorer traduce el problema original de robótica en una configuración de Aprendizaje por Refuerzo que varios algoritmos listos para usar pueden abordar. Cualquier política aprendida puede aplicarse directamente a una plataforma robótica sin un modelo de simulación elaborado de la dinámica del robot para aplicar una fase de aprendizaje/adaptación diferente. Una de sus características principales es la generación procedural multidimensional controlable de terrenos, que es clave para producir políticas con fuertes capacidades de generalización. Cuatro algoritmos de Aprendizaje por Refuerzo de última generación (A3C, PPO, Rainbow y SAC) son entrenados en el entorno MarsExplorer, y se informa de una evaluación adecuada de sus resultados en comparación con el rendimiento promedio a nivel humano. En el análisis experimental de seguimiento, se analiza el efecto del ajuste de dificultad multidimensional en las capacidades de aprendizaje del algoritmo de mejor rendimiento (PPO). Un resultado destacado es la generación de una política de exploración que sigue la curva de Hilbert sin proporcionar esta información al entorno o recompensar directa o indirectamente trayectorias similares a la curva de Hilbert. El análisis experimental concluye evaluando el algoritmo de política aprendida de PPO lado a lado con estrategias de exploración basadas en la frontera. Un estudio sobre las curvas de rendimiento reveló que la política basada en PPO fue capaz de realizar un barrido adaptativo al terreno desconocido sin dejar áreas costosas de revisitar sin cubrir, subrayando la capacidad de las metodologías basadas en RL para abordar eficientemente tareas de exploración.