logo móvil
Contáctanos

Marsexplorer: exploración de terrenos desconocidos a través de aprendizaje profundo por refuerzo y entornos generados de forma procedural

Autores: Koutras, Dimitrios I.; Kapoutsis, Athanasios C.; Amanatiadis, Angelos A.; Kosmatopoulos, Elias B.

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Marsexplorer: exploración de terrenos desconocidos a través de aprendizaje profundo por refuerzo y entornos generados de forma procedural


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje por refuerzo
Exploración
MarsExplorer
Algoritmos
Terrenos
Políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Este artículo es un esfuerzo inicial para cerrar la brecha entre las poderosas metodologías de Aprendizaje Profundo por Refuerzo y el problema de exploración/cobertura de terrenos desconocidos. Dentro de este ámbito, se presenta MarsExplorer, un entorno compatible con openai-gym diseñado para la exploración/cobertura de áreas desconocidas. MarsExplorer traduce el problema original de robótica en una configuración de Aprendizaje por Refuerzo que varios algoritmos listos para usar pueden abordar. Cualquier política aprendida puede aplicarse directamente a una plataforma robótica sin un modelo de simulación elaborado de la dinámica del robot para aplicar una fase de aprendizaje/adaptación diferente. Una de sus características principales es la generación procedural multidimensional controlable de terrenos, que es clave para producir políticas con fuertes capacidades de generalización. Cuatro algoritmos de Aprendizaje por Refuerzo de última generación (A3C, PPO, Rainbow y SAC) son entrenados en el entorno MarsExplorer, y se informa de una evaluación adecuada de sus resultados en comparación con el rendimiento promedio a nivel humano. En el análisis experimental de seguimiento, se analiza el efecto del ajuste de dificultad multidimensional en las capacidades de aprendizaje del algoritmo de mejor rendimiento (PPO). Un resultado destacado es la generación de una política de exploración que sigue la curva de Hilbert sin proporcionar esta información al entorno o recompensar directa o indirectamente trayectorias similares a la curva de Hilbert. El análisis experimental concluye evaluando el algoritmo de política aprendida de PPO lado a lado con estrategias de exploración basadas en la frontera. Un estudio sobre las curvas de rendimiento reveló que la política basada en PPO fue capaz de realizar un barrido adaptativo al terreno desconocido sin dejar áreas costosas de revisitar sin cubrir, subrayando la capacidad de las metodologías basadas en RL para abordar eficientemente tareas de exploración.

Otros recursos que podrían interesarte

Temas Virtualpro