logo móvil
Contáctanos

Aprendizaje de diferencias temporales fuera de política con residuos de Bellman

Autores: Yang, Shangdong; Sun, Dingyuanhao; Chen, Xingguo

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aprendizaje de diferencias temporales fuera de política con residuos de Bellman


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje por refuerzo
Aprendizaje por diferencia temporal fuera de política
Residuos de Bellman
Convergencia
Estabilidad
Algoritmo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
En el aprendizaje por refuerzo, los métodos de aprendizaje de diferencia temporal fuera de política han ganado una atención significativa debido a su flexibilidad en la utilización de datos existentes. Sin embargo, los métodos tradicionales de diferencia temporal fuera de política a menudo sufren de una convergencia y estabilidad pobres al manejar problemas complejos. Para abordar estos problemas, este documento propone un algoritmo de diferencia temporal fuera de política con residuos de Bellman (TDBR). Al incorporar residuos de Bellman, el algoritmo propuesto mejora efectivamente la convergencia y la estabilidad del proceso de aprendizaje fuera de política. Este documento primero introduce los conceptos básicos del aprendizaje por refuerzo y la aproximación de la función de valor, resaltando la importancia de los residuos de Bellman en el aprendizaje fuera de política. Luego, se describen en detalle los fundamentos teóricos y los detalles de implementación del algoritmo TDBR. Los resultados experimentales en múltiples entornos de referencia demuestran que el algoritmo TDBR supera significativamente a los métodos tradicionales en cuanto a velocidad de convergencia y calidad de la solución. En general, el algoritmo TDBR proporciona una solución efectiva y estable para el aprendizaje por refuerzo fuera de política con amplias perspectivas de aplicación. La investigación futura puede optimizar aún más los parámetros del algoritmo y extender su aplicación a espacios de estado y acción continuos para mejorar su aplicabilidad y rendimiento en problemas del mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro