R-ddqn: optimizando algoritmos de trading utilizando una red de recompensa en un DQN doble
Autores: Zhou, Chujin; Huang, Yuling; Cui, Kai; Lu, Xiaoping
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
R-ddqn: optimizando algoritmos de trading utilizando una red de recompensa en un DQN doble
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Trading algorítmico
Aprendizaje profundo por refuerzo
Estrategias de trading de alta frecuencia
Algoritmo double DQN
Red de función de recompensa
Demostraciones de expertos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
El trading algorítmico está jugando un papel cada vez más importante en el mercado financiero, logrando estrategias de trading más eficientes al reemplazar la toma de decisiones humanas. Entre numerosos algoritmos de trading, el aprendizaje profundo por refuerzo está reemplazando gradualmente las estrategias tradicionales de trading de alta frecuencia y se ha convertido en una dirección de investigación principal en el campo del trading algorítmico. Este documento presenta un enfoque novedoso que aprovecha el aprendizaje por refuerzo con retroalimentación humana (RLHF) dentro del algoritmo double DQN. Las funciones de recompensa tradicionales en el trading algorítmico dependen en gran medida del conocimiento experto, lo que plantea desafíos en su diseño e implementación. Para abordar esto, se propone el algoritmo R-DDQN impulsado por recompensas, que integra la retroalimentación humana a través de una red de funciones de recompensa entrenada en demostraciones de expertos. Además, se emplea un método de entrenamiento basado en clasificación para optimizar la red de funciones de recompensa. Los experimentos, realizados en conjuntos de datos que incluyen HSI, IXIC, SP500, GOOGL, MSFT e INTC, muestran que el método propuesto supera a todas las líneas de base en los seis conjuntos de datos y logra un retorno acumulativo máximo del 1502% en 24 meses.
Descripción
El trading algorítmico está jugando un papel cada vez más importante en el mercado financiero, logrando estrategias de trading más eficientes al reemplazar la toma de decisiones humanas. Entre numerosos algoritmos de trading, el aprendizaje profundo por refuerzo está reemplazando gradualmente las estrategias tradicionales de trading de alta frecuencia y se ha convertido en una dirección de investigación principal en el campo del trading algorítmico. Este documento presenta un enfoque novedoso que aprovecha el aprendizaje por refuerzo con retroalimentación humana (RLHF) dentro del algoritmo double DQN. Las funciones de recompensa tradicionales en el trading algorítmico dependen en gran medida del conocimiento experto, lo que plantea desafíos en su diseño e implementación. Para abordar esto, se propone el algoritmo R-DDQN impulsado por recompensas, que integra la retroalimentación humana a través de una red de funciones de recompensa entrenada en demostraciones de expertos. Además, se emplea un método de entrenamiento basado en clasificación para optimizar la red de funciones de recompensa. Los experimentos, realizados en conjuntos de datos que incluyen HSI, IXIC, SP500, GOOGL, MSFT e INTC, muestran que el método propuesto supera a todas las líneas de base en los seis conjuntos de datos y logra un retorno acumulativo máximo del 1502% en 24 meses.