Un mecanismo de auto-recompensa en el aprendizaje profundo por refuerzo para la optimización de estrategias comerciales
Autores: Huang, Yuling; Zhou, Chujin; Zhang, Lin; Lu, Xiaoping
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un mecanismo de auto-recompensa en el aprendizaje profundo por refuerzo para la optimización de estrategias comerciales
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje por refuerzo
Aprendizaje profundo auto-recompensante
Conocimiento experto
Modelos de extracción de características de series temporales
Estrategias de trading
Mecanismo de auto-recompensa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
El Aprendizaje por Refuerzo (RL) se está aplicando cada vez más a tareas de toma de decisiones complejas como el trading financiero. Sin embargo, el diseño de funciones de recompensa efectivas sigue siendo un desafío significativo. Las funciones de recompensa estáticas tradicionales a menudo no se adaptan a entornos dinámicos, lo que conduce a ineficiencias en el aprendizaje. Este documento presenta un enfoque novedoso, llamado Aprendizaje Profundo de Refuerzo Autorecompensante (SRDRL), que integra una red autorecompensante dentro del marco de RL. El mecanismo SRDRL opera en dos fases principales: primero, se utilizan técnicas de aprendizaje supervisado para aprender de conocimientos expertos mediante modelos avanzados de extracción de características de series temporales, incluidos TimesNet y WFTNet. Este paso perfecciona los parámetros de la red autorecompensante al comparar las recompensas predichas con las recompensas etiquetadas por expertos, que se basan en métricas como Min-Max, Sharpe Ratio y Return. En la segunda fase, el modelo selecciona el valor más alto entre las recompensas etiquetadas por expertos y las predichas como la recompensa de RL, almacenándola en el búfer de reproducción. Esta combinación de conocimientos expertos y recompensas predichas mejora el rendimiento de las estrategias de trading. La implementación propuesta, llamada Doble DQN Autorecompensante (SRDDQN), demuestra que el mecanismo autorecompensante mejora el aprendizaje y optimiza las decisiones de trading. Los experimentos realizados en conjuntos de datos que incluyen DJI, IXIC y SP500 muestran que SRDDQN logra un retorno acumulativo del 1124,23% en el conjunto de datos IXIC, superando significativamente al próximo mejor método, Fire (DQN-HER), que logró un 51,87%. SRDDQN también mejora la estabilidad y eficiencia de las estrategias de trading, proporcionando mejoras notables sobre los métodos tradicionales de RL. La integración de un mecanismo autorecompensante dentro de RL aborda una limitación crítica en el diseño de funciones de recompensa y ofrece una solución escalable y adaptable para entornos de trading complejos y dinámicos.
Descripción
El Aprendizaje por Refuerzo (RL) se está aplicando cada vez más a tareas de toma de decisiones complejas como el trading financiero. Sin embargo, el diseño de funciones de recompensa efectivas sigue siendo un desafío significativo. Las funciones de recompensa estáticas tradicionales a menudo no se adaptan a entornos dinámicos, lo que conduce a ineficiencias en el aprendizaje. Este documento presenta un enfoque novedoso, llamado Aprendizaje Profundo de Refuerzo Autorecompensante (SRDRL), que integra una red autorecompensante dentro del marco de RL. El mecanismo SRDRL opera en dos fases principales: primero, se utilizan técnicas de aprendizaje supervisado para aprender de conocimientos expertos mediante modelos avanzados de extracción de características de series temporales, incluidos TimesNet y WFTNet. Este paso perfecciona los parámetros de la red autorecompensante al comparar las recompensas predichas con las recompensas etiquetadas por expertos, que se basan en métricas como Min-Max, Sharpe Ratio y Return. En la segunda fase, el modelo selecciona el valor más alto entre las recompensas etiquetadas por expertos y las predichas como la recompensa de RL, almacenándola en el búfer de reproducción. Esta combinación de conocimientos expertos y recompensas predichas mejora el rendimiento de las estrategias de trading. La implementación propuesta, llamada Doble DQN Autorecompensante (SRDDQN), demuestra que el mecanismo autorecompensante mejora el aprendizaje y optimiza las decisiones de trading. Los experimentos realizados en conjuntos de datos que incluyen DJI, IXIC y SP500 muestran que SRDDQN logra un retorno acumulativo del 1124,23% en el conjunto de datos IXIC, superando significativamente al próximo mejor método, Fire (DQN-HER), que logró un 51,87%. SRDDQN también mejora la estabilidad y eficiencia de las estrategias de trading, proporcionando mejoras notables sobre los métodos tradicionales de RL. La integración de un mecanismo autorecompensante dentro de RL aborda una limitación crítica en el diseño de funciones de recompensa y ofrece una solución escalable y adaptable para entornos de trading complejos y dinámicos.