Marsexplorer: exploración de terrenos desconocidos a través de aprendizaje profundo por refuerzo y entornos generados de forma procedural

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Marsexplorer: exploración de terrenos desconocidos a través de aprendizaje profundo por refuerzo y entornos generados de forma procedural

Autores: Koutras, Dimitrios I.; Kapoutsis, Athanasios C.; Amanatiadis, Angelos A.; Kosmatopoulos, Elias B.

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Marsexplorer: exploración de terrenos desconocidos a través de aprendizaje profundo por refuerzo y entornos generados de forma procedural

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje por refuerzo

Exploración

MarsExplorer

Algoritmos

Terrenos

Políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Este artículo es un esfuerzo inicial para cerrar la brecha entre las poderosas metodologías de Aprendizaje Profundo por Refuerzo y el problema de exploración/cobertura de terrenos desconocidos. Dentro de este ámbito, se presenta MarsExplorer, un entorno compatible con openai-gym diseñado para la exploración/cobertura de áreas desconocidas. MarsExplorer traduce el problema original de robótica en una configuración de Aprendizaje por Refuerzo que varios algoritmos listos para usar pueden abordar. Cualquier política aprendida puede aplicarse directamente a una plataforma robótica sin un modelo de simulación elaborado de la dinámica del robot para aplicar una fase de aprendizaje/adaptación diferente. Una de sus características principales es la generación procedural multidimensional controlable de terrenos, que es clave para producir políticas con fuertes capacidades de generalización. Cuatro algoritmos de Aprendizaje por Refuerzo de última generación (A3C, PPO, Rainbow y SAC) son entrenados en el entorno MarsExplorer, y se informa de una evaluación adecuada de sus resultados en comparación con el rendimiento promedio a nivel humano. En el análisis experimental de seguimiento, se analiza el efecto del ajuste de dificultad multidimensional en las capacidades de aprendizaje del algoritmo de mejor rendimiento (PPO). Un resultado destacado es la generación de una política de exploración que sigue la curva de Hilbert sin proporcionar esta información al entorno o recompensar directa o indirectamente trayectorias similares a la curva de Hilbert. El análisis experimental concluye evaluando el algoritmo de política aprendida de PPO lado a lado con estrategias de exploración basadas en la frontera. Un estudio sobre las curvas de rendimiento reveló que la política basada en PPO fue capaz de realizar un barrido adaptativo al terreno desconocido sin dejar áreas costosas de revisitar sin cubrir, subrayando la capacidad de las metodologías basadas en RL para abordar eficientemente tareas de exploración.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro