Un mecanismo de auto-recompensa en el aprendizaje profundo por refuerzo para la optimización de estrategias comerciales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un mecanismo de auto-recompensa en el aprendizaje profundo por refuerzo para la optimización de estrategias comerciales

Autores: Huang, Yuling; Zhou, Chujin; Zhang, Lin; Lu, Xiaoping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Un mecanismo de auto-recompensa en el aprendizaje profundo por refuerzo para la optimización de estrategias comerciales

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje por refuerzo

Aprendizaje profundo auto-recompensante

Conocimiento experto

Modelos de extracción de características de series temporales

Estrategias de trading

Mecanismo de auto-recompensa

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

El Aprendizaje por Refuerzo (RL) se está aplicando cada vez más a tareas de toma de decisiones complejas como el trading financiero. Sin embargo, el diseño de funciones de recompensa efectivas sigue siendo un desafío significativo. Las funciones de recompensa estáticas tradicionales a menudo no se adaptan a entornos dinámicos, lo que conduce a ineficiencias en el aprendizaje. Este documento presenta un enfoque novedoso, llamado Aprendizaje Profundo de Refuerzo Autorecompensante (SRDRL), que integra una red autorecompensante dentro del marco de RL. El mecanismo SRDRL opera en dos fases principales: primero, se utilizan técnicas de aprendizaje supervisado para aprender de conocimientos expertos mediante modelos avanzados de extracción de características de series temporales, incluidos TimesNet y WFTNet. Este paso perfecciona los parámetros de la red autorecompensante al comparar las recompensas predichas con las recompensas etiquetadas por expertos, que se basan en métricas como Min-Max, Sharpe Ratio y Return. En la segunda fase, el modelo selecciona el valor más alto entre las recompensas etiquetadas por expertos y las predichas como la recompensa de RL, almacenándola en el búfer de reproducción. Esta combinación de conocimientos expertos y recompensas predichas mejora el rendimiento de las estrategias de trading. La implementación propuesta, llamada Doble DQN Autorecompensante (SRDDQN), demuestra que el mecanismo autorecompensante mejora el aprendizaje y optimiza las decisiones de trading. Los experimentos realizados en conjuntos de datos que incluyen DJI, IXIC y SP500 muestran que SRDDQN logra un retorno acumulativo del 1124,23% en el conjunto de datos IXIC, superando significativamente al próximo mejor método, Fire (DQN-HER), que logró un 51,87%. SRDDQN también mejora la estabilidad y eficiencia de las estrategias de trading, proporcionando mejoras notables sobre los métodos tradicionales de RL. La integración de un mecanismo autorecompensante dentro de RL aborda una limitación crítica en el diseño de funciones de recompensa y ofrece una solución escalable y adaptable para entornos de trading complejos y dinámicos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro