M-learning: enfoque heurístico para recompensas tardías en aprendizaje por refuerzo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

M-learning: enfoque heurístico para recompensas tardías en aprendizaje por refuerzo

Autores: Perdomo Charry, Cesar Andrey; Mora Cortes, Marlon Sneider; Perdomo, Oscar J.

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

M-learning: enfoque heurístico para recompensas tardías en aprendizaje por refuerzo

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Métodos de aprendizaje por refuerzo

Deep Q-Network

Algoritmo de Q-Learning

M-Learning

Procesos de Decisión de Markov

Episodios de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones

El diseño actual de los métodos de aprendizaje por refuerzo requiere de extensos recursos computacionales. Algoritmos como Deep Q-Network (DQN) han obtenido resultados sobresalientes en el avance del campo. Sin embargo, la necesidad de ajustar miles de parámetros y ejecutar millones de episodios de entrenamiento sigue siendo un desafío significativo. Este documento propone un análisis comparativo entre el algoritmo Q-Learning, que sentó las bases para el Deep Q-Learning, y nuestro método propuesto, denominado M-Learning. La comparación se realiza utilizando Procesos de Decisión de Markov con la recompensa retrasada como marco de pruebas general. En primer lugar, este documento proporciona una descripción completa de los principales desafíos relacionados con la implementación de Q-Learning, particularmente en lo que respecta a sus múltiples parámetros. Luego, se presentan los fundamentos de nuestra heurística propuesta, incluyendo su formulación, y se describe detalladamente el algoritmo. La metodología utilizada para comparar ambos algoritmos implicó entrenarlos en el entorno de Frozen Lake. Los resultados experimentales, junto con un análisis de las mejores soluciones, demuestran que nuestra propuesta requiere menos episodios y muestra una reducción en la variabilidad de los resultados. Específicamente, M-Learning entrena a los agentes un 30.7% más rápido en un entorno determinista y un 61.66% más rápido en un entorno estocástico. Además, logra una mayor consistencia, reduciendo la desviación estándar de las puntuaciones en un 58.37% y un 49.75% en los entornos determinista y estocástico, respectivamente. El código estará disponible en un repositorio de GitHub tras la publicación de este artículo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro