Sobre la tasa de convergencia de MRetrace
Autores: Chen, Xingguo; Qin, Wangrong; Gong, Yu; Yang, Shangdong; Wang, Wenhao
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Sobre la tasa de convergencia de MRetrace
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje por refuerzo
Fuera de la política
Tasa de convergencia
Algoritmos
Valor propio
Aprendizaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
El off-policy es un entorno clave para los algoritmos de aprendizaje por refuerzo. En los últimos años, la estabilidad del aprendizaje off-policy para el aprendizaje por refuerzo basado en valores ha sido garantizada incluso cuando se combina con aproximación lineal de funciones y bootstrapping. El análisis de la tasa de convergencia es actualmente un tema candente. Sin embargo, las tasas de convergencia de los algoritmos de aprendizaje varían, y analizar las razones detrás de esto sigue siendo un problema abierto. En este documento, proponemos una versión esencialmente simplificada de una tasa de convergencia para generar algoritmos generales de aprendizaje de diferencias temporales off-policy. Enfatizamos que el determinante principal que influye en la tasa de convergencia es el valor propio mínimo de la matriz clave. Además, realizamos un análisis comparativo del factor influyente en diversos escenarios numéricos a través de varios algoritmos de aprendizaje off-policy. Los hallazgos experimentales validan el determinante propuesto, que sirve como referencia para el diseño de algoritmos de aprendizaje más eficientes.
Descripción
El off-policy es un entorno clave para los algoritmos de aprendizaje por refuerzo. En los últimos años, la estabilidad del aprendizaje off-policy para el aprendizaje por refuerzo basado en valores ha sido garantizada incluso cuando se combina con aproximación lineal de funciones y bootstrapping. El análisis de la tasa de convergencia es actualmente un tema candente. Sin embargo, las tasas de convergencia de los algoritmos de aprendizaje varían, y analizar las razones detrás de esto sigue siendo un problema abierto. En este documento, proponemos una versión esencialmente simplificada de una tasa de convergencia para generar algoritmos generales de aprendizaje de diferencias temporales off-policy. Enfatizamos que el determinante principal que influye en la tasa de convergencia es el valor propio mínimo de la matriz clave. Además, realizamos un análisis comparativo del factor influyente en diversos escenarios numéricos a través de varios algoritmos de aprendizaje off-policy. Los hallazgos experimentales validan el determinante propuesto, que sirve como referencia para el diseño de algoritmos de aprendizaje más eficientes.