Un sistema de trading de aprendizaje por refuerzo multi-escala basado en redes neuronales convolucionales multi-escala
Autores: Huang, Yuling; Cui, Kai; Song, Yunlin; Chen, Zongren
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un sistema de trading de aprendizaje por refuerzo multi-escala basado en redes neuronales convolucionales multi-escala
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Avances
Aprendizaje automático
Aprendizaje profundo por refuerzo
Red neuronal convolucional multiescala
Trading de acciones
Características temporales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 46
Citaciones: Sin citaciones
Los avances en el aprendizaje automático han llevado a un mayor interés en aplicar técnicas de aprendizaje profundo por refuerzo a problemas de toma de decisiones de inversión. A pesar de esto, los enfoques existentes a menudo se basan únicamente en la escala única de datos diarios, descuidando la importancia de la información de múltiples escalas, como los datos semanales o mensuales, en los procesos de toma de decisiones. Para abordar esta limitación, se propone una red neuronal convolucional de múltiples escalas para el trading de acciones basado en el aprendizaje por refuerzo, denominada red neuronal convolucional de múltiples escalas SARSA (estado, acción, recompensa, estado, acción). Nuestro método utiliza una red neuronal convolucional de múltiples escalas para obtener automáticamente características de múltiples escalas de datos financieros diarios y semanales. Esto implica el uso de una red neuronal convolucional con varios tamaños de filtro para realizar una extracción de características temporales de múltiples escalas. La minería de características de múltiples escalas permite a los agentes operar en escalas de tiempo más largas, identificando posiciones bajas de acciones en la línea semanal y evitando fluctuaciones diarias durante declives continuos. Esto imita el enfoque humano de considerar información en diferentes escalas temporales y espaciales durante el trading de acciones. Mejoramos aún más la robustez de la red agregando una capa de agrupación promedio a la red neuronal convolucional principal, reduciendo el sobreajuste. Estado, acción, recompensa, estado, acción, como un método de aprendizaje por refuerzo en política, genera estrategias de trading dinámicas que combinan información de múltiples escalas en diferentes escalas de tiempo, evitando estrategias peligrosas. Evaluamos la efectividad de nuestro método propuesto en cuatro conjuntos de datos del mundo real (Dow Jones, NASDAQ, General Electric y AAPLE) que abarcan desde el 1 de enero de 2007 hasta el 31 de diciembre de 2020, y demostramos sus beneficios superiores en comparación con varios métodos de referencia. Además, realizamos diversas pruebas comparativas y de ablación para demostrar la superioridad de la arquitectura de red propuesta. A través de estos experimentos, nuestro módulo de múltiples escalas propuesto arroja mejores resultados en comparación con el módulo de escala única.
Descripción
Los avances en el aprendizaje automático han llevado a un mayor interés en aplicar técnicas de aprendizaje profundo por refuerzo a problemas de toma de decisiones de inversión. A pesar de esto, los enfoques existentes a menudo se basan únicamente en la escala única de datos diarios, descuidando la importancia de la información de múltiples escalas, como los datos semanales o mensuales, en los procesos de toma de decisiones. Para abordar esta limitación, se propone una red neuronal convolucional de múltiples escalas para el trading de acciones basado en el aprendizaje por refuerzo, denominada red neuronal convolucional de múltiples escalas SARSA (estado, acción, recompensa, estado, acción). Nuestro método utiliza una red neuronal convolucional de múltiples escalas para obtener automáticamente características de múltiples escalas de datos financieros diarios y semanales. Esto implica el uso de una red neuronal convolucional con varios tamaños de filtro para realizar una extracción de características temporales de múltiples escalas. La minería de características de múltiples escalas permite a los agentes operar en escalas de tiempo más largas, identificando posiciones bajas de acciones en la línea semanal y evitando fluctuaciones diarias durante declives continuos. Esto imita el enfoque humano de considerar información en diferentes escalas temporales y espaciales durante el trading de acciones. Mejoramos aún más la robustez de la red agregando una capa de agrupación promedio a la red neuronal convolucional principal, reduciendo el sobreajuste. Estado, acción, recompensa, estado, acción, como un método de aprendizaje por refuerzo en política, genera estrategias de trading dinámicas que combinan información de múltiples escalas en diferentes escalas de tiempo, evitando estrategias peligrosas. Evaluamos la efectividad de nuestro método propuesto en cuatro conjuntos de datos del mundo real (Dow Jones, NASDAQ, General Electric y AAPLE) que abarcan desde el 1 de enero de 2007 hasta el 31 de diciembre de 2020, y demostramos sus beneficios superiores en comparación con varios métodos de referencia. Además, realizamos diversas pruebas comparativas y de ablación para demostrar la superioridad de la arquitectura de red propuesta. A través de estos experimentos, nuestro módulo de múltiples escalas propuesto arroja mejores resultados en comparación con el módulo de escala única.