logo móvil
Contáctanos

R-ddqn: optimizando algoritmos de trading utilizando una red de recompensa en un DQN doble

Autores: Zhou, Chujin; Huang, Yuling; Cui, Kai; Lu, Xiaoping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

R-ddqn: optimizando algoritmos de trading utilizando una red de recompensa en un DQN doble


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Trading algorítmico
Aprendizaje profundo por refuerzo
Estrategias de trading de alta frecuencia
Algoritmo double DQN
Red de función de recompensa
Demostraciones de expertos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
El trading algorítmico está jugando un papel cada vez más importante en el mercado financiero, logrando estrategias de trading más eficientes al reemplazar la toma de decisiones humanas. Entre numerosos algoritmos de trading, el aprendizaje profundo por refuerzo está reemplazando gradualmente las estrategias tradicionales de trading de alta frecuencia y se ha convertido en una dirección de investigación principal en el campo del trading algorítmico. Este documento presenta un enfoque novedoso que aprovecha el aprendizaje por refuerzo con retroalimentación humana (RLHF) dentro del algoritmo double DQN. Las funciones de recompensa tradicionales en el trading algorítmico dependen en gran medida del conocimiento experto, lo que plantea desafíos en su diseño e implementación. Para abordar esto, se propone el algoritmo R-DDQN impulsado por recompensas, que integra la retroalimentación humana a través de una red de funciones de recompensa entrenada en demostraciones de expertos. Además, se emplea un método de entrenamiento basado en clasificación para optimizar la red de funciones de recompensa. Los experimentos, realizados en conjuntos de datos que incluyen HSI, IXIC, SP500, GOOGL, MSFT e INTC, muestran que el método propuesto supera a todas las líneas de base en los seis conjuntos de datos y logra un retorno acumulativo máximo del 1502% en 24 meses.

Otros recursos que podrían interesarte

Temas Virtualpro