R-ddqn: optimizando algoritmos de trading utilizando una red de recompensa en un DQN doble

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

R-ddqn: optimizando algoritmos de trading utilizando una red de recompensa en un DQN doble

Autores: Zhou, Chujin; Huang, Yuling; Cui, Kai; Lu, Xiaoping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

R-ddqn: optimizando algoritmos de trading utilizando una red de recompensa en un DQN doble

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Trading algorítmico

Aprendizaje profundo por refuerzo

Estrategias de trading de alta frecuencia

Algoritmo double DQN

Red de función de recompensa

Demostraciones de expertos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones

El trading algorítmico está jugando un papel cada vez más importante en el mercado financiero, logrando estrategias de trading más eficientes al reemplazar la toma de decisiones humanas. Entre numerosos algoritmos de trading, el aprendizaje profundo por refuerzo está reemplazando gradualmente las estrategias tradicionales de trading de alta frecuencia y se ha convertido en una dirección de investigación principal en el campo del trading algorítmico. Este documento presenta un enfoque novedoso que aprovecha el aprendizaje por refuerzo con retroalimentación humana (RLHF) dentro del algoritmo double DQN. Las funciones de recompensa tradicionales en el trading algorítmico dependen en gran medida del conocimiento experto, lo que plantea desafíos en su diseño e implementación. Para abordar esto, se propone el algoritmo R-DDQN impulsado por recompensas, que integra la retroalimentación humana a través de una red de funciones de recompensa entrenada en demostraciones de expertos. Además, se emplea un método de entrenamiento basado en clasificación para optimizar la red de funciones de recompensa. Los experimentos, realizados en conjuntos de datos que incluyen HSI, IXIC, SP500, GOOGL, MSFT e INTC, muestran que el método propuesto supera a todas las líneas de base en los seis conjuntos de datos y logra un retorno acumulativo máximo del 1502% en 24 meses.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro