logo móvil
Contáctanos

M-learning: enfoque heurístico para recompensas tardías en aprendizaje por refuerzo

Autores: Perdomo Charry, Cesar Andrey; Mora Cortes, Marlon Sneider; Perdomo, Oscar J.

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

M-learning: enfoque heurístico para recompensas tardías en aprendizaje por refuerzo


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Métodos de aprendizaje por refuerzo
Deep Q-Network
Algoritmo de Q-Learning
M-Learning
Procesos de Decisión de Markov
Episodios de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones


Descripción
El diseño actual de los métodos de aprendizaje por refuerzo requiere de extensos recursos computacionales. Algoritmos como Deep Q-Network (DQN) han obtenido resultados sobresalientes en el avance del campo. Sin embargo, la necesidad de ajustar miles de parámetros y ejecutar millones de episodios de entrenamiento sigue siendo un desafío significativo. Este documento propone un análisis comparativo entre el algoritmo Q-Learning, que sentó las bases para el Deep Q-Learning, y nuestro método propuesto, denominado M-Learning. La comparación se realiza utilizando Procesos de Decisión de Markov con la recompensa retrasada como marco de pruebas general. En primer lugar, este documento proporciona una descripción completa de los principales desafíos relacionados con la implementación de Q-Learning, particularmente en lo que respecta a sus múltiples parámetros. Luego, se presentan los fundamentos de nuestra heurística propuesta, incluyendo su formulación, y se describe detalladamente el algoritmo. La metodología utilizada para comparar ambos algoritmos implicó entrenarlos en el entorno de Frozen Lake. Los resultados experimentales, junto con un análisis de las mejores soluciones, demuestran que nuestra propuesta requiere menos episodios y muestra una reducción en la variabilidad de los resultados. Específicamente, M-Learning entrena a los agentes un 30.7% más rápido en un entorno determinista y un 61.66% más rápido en un entorno estocástico. Además, logra una mayor consistencia, reduciendo la desviación estándar de las puntuaciones en un 58.37% y un 49.75% en los entornos determinista y estocástico, respectivamente. El código estará disponible en un repositorio de GitHub tras la publicación de este artículo.

Otros recursos que podrían interesarte

Temas Virtualpro