logo móvil
Contáctanos

Un mecanismo de auto-recompensa en el aprendizaje profundo por refuerzo para la optimización de estrategias comerciales

Autores: Huang, Yuling; Zhou, Chujin; Zhang, Lin; Lu, Xiaoping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un mecanismo de auto-recompensa en el aprendizaje profundo por refuerzo para la optimización de estrategias comerciales


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje por refuerzo
Aprendizaje profundo auto-recompensante
Conocimiento experto
Modelos de extracción de características de series temporales
Estrategias de trading
Mecanismo de auto-recompensa

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
El Aprendizaje por Refuerzo (RL) se está aplicando cada vez más a tareas de toma de decisiones complejas como el trading financiero. Sin embargo, el diseño de funciones de recompensa efectivas sigue siendo un desafío significativo. Las funciones de recompensa estáticas tradicionales a menudo no se adaptan a entornos dinámicos, lo que conduce a ineficiencias en el aprendizaje. Este documento presenta un enfoque novedoso, llamado Aprendizaje Profundo de Refuerzo Autorecompensante (SRDRL), que integra una red autorecompensante dentro del marco de RL. El mecanismo SRDRL opera en dos fases principales: primero, se utilizan técnicas de aprendizaje supervisado para aprender de conocimientos expertos mediante modelos avanzados de extracción de características de series temporales, incluidos TimesNet y WFTNet. Este paso perfecciona los parámetros de la red autorecompensante al comparar las recompensas predichas con las recompensas etiquetadas por expertos, que se basan en métricas como Min-Max, Sharpe Ratio y Return. En la segunda fase, el modelo selecciona el valor más alto entre las recompensas etiquetadas por expertos y las predichas como la recompensa de RL, almacenándola en el búfer de reproducción. Esta combinación de conocimientos expertos y recompensas predichas mejora el rendimiento de las estrategias de trading. La implementación propuesta, llamada Doble DQN Autorecompensante (SRDDQN), demuestra que el mecanismo autorecompensante mejora el aprendizaje y optimiza las decisiones de trading. Los experimentos realizados en conjuntos de datos que incluyen DJI, IXIC y SP500 muestran que SRDDQN logra un retorno acumulativo del 1124,23% en el conjunto de datos IXIC, superando significativamente al próximo mejor método, Fire (DQN-HER), que logró un 51,87%. SRDDQN también mejora la estabilidad y eficiencia de las estrategias de trading, proporcionando mejoras notables sobre los métodos tradicionales de RL. La integración de un mecanismo autorecompensante dentro de RL aborda una limitación crítica en el diseño de funciones de recompensa y ofrece una solución escalable y adaptable para entornos de trading complejos y dinámicos.

Otros recursos que podrían interesarte

Temas Virtualpro