Aprendizaje de diferencias temporales fuera de política con residuos de Bellman

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje de diferencias temporales fuera de política con residuos de Bellman

Autores: Yang, Shangdong; Sun, Dingyuanhao; Chen, Xingguo

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Aprendizaje de diferencias temporales fuera de política con residuos de Bellman

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje por refuerzo

Aprendizaje por diferencia temporal fuera de política

Residuos de Bellman

Convergencia

Estabilidad

Algoritmo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

En el aprendizaje por refuerzo, los métodos de aprendizaje de diferencia temporal fuera de política han ganado una atención significativa debido a su flexibilidad en la utilización de datos existentes. Sin embargo, los métodos tradicionales de diferencia temporal fuera de política a menudo sufren de una convergencia y estabilidad pobres al manejar problemas complejos. Para abordar estos problemas, este documento propone un algoritmo de diferencia temporal fuera de política con residuos de Bellman (TDBR). Al incorporar residuos de Bellman, el algoritmo propuesto mejora efectivamente la convergencia y la estabilidad del proceso de aprendizaje fuera de política. Este documento primero introduce los conceptos básicos del aprendizaje por refuerzo y la aproximación de la función de valor, resaltando la importancia de los residuos de Bellman en el aprendizaje fuera de política. Luego, se describen en detalle los fundamentos teóricos y los detalles de implementación del algoritmo TDBR. Los resultados experimentales en múltiples entornos de referencia demuestran que el algoritmo TDBR supera significativamente a los métodos tradicionales en cuanto a velocidad de convergencia y calidad de la solución. En general, el algoritmo TDBR proporciona una solución efectiva y estable para el aprendizaje por refuerzo fuera de política con amplias perspectivas de aplicación. La investigación futura puede optimizar aún más los parámetros del algoritmo y extender su aplicación a espacios de estado y acción continuos para mejorar su aplicabilidad y rendimiento en problemas del mundo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro