logo móvil
Contáctanos

Un sistema de trading de aprendizaje por refuerzo multi-escala basado en redes neuronales convolucionales multi-escala

Autores: Huang, Yuling; Cui, Kai; Song, Yunlin; Chen, Zongren

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un sistema de trading de aprendizaje por refuerzo multi-escala basado en redes neuronales convolucionales multi-escala


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Avances
Aprendizaje automático
Aprendizaje profundo por refuerzo
Red neuronal convolucional multiescala
Trading de acciones
Características temporales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 46

Citaciones: Sin citaciones


Descripción
Los avances en el aprendizaje automático han llevado a un mayor interés en aplicar técnicas de aprendizaje profundo por refuerzo a problemas de toma de decisiones de inversión. A pesar de esto, los enfoques existentes a menudo se basan únicamente en la escala única de datos diarios, descuidando la importancia de la información de múltiples escalas, como los datos semanales o mensuales, en los procesos de toma de decisiones. Para abordar esta limitación, se propone una red neuronal convolucional de múltiples escalas para el trading de acciones basado en el aprendizaje por refuerzo, denominada red neuronal convolucional de múltiples escalas SARSA (estado, acción, recompensa, estado, acción). Nuestro método utiliza una red neuronal convolucional de múltiples escalas para obtener automáticamente características de múltiples escalas de datos financieros diarios y semanales. Esto implica el uso de una red neuronal convolucional con varios tamaños de filtro para realizar una extracción de características temporales de múltiples escalas. La minería de características de múltiples escalas permite a los agentes operar en escalas de tiempo más largas, identificando posiciones bajas de acciones en la línea semanal y evitando fluctuaciones diarias durante declives continuos. Esto imita el enfoque humano de considerar información en diferentes escalas temporales y espaciales durante el trading de acciones. Mejoramos aún más la robustez de la red agregando una capa de agrupación promedio a la red neuronal convolucional principal, reduciendo el sobreajuste. Estado, acción, recompensa, estado, acción, como un método de aprendizaje por refuerzo en política, genera estrategias de trading dinámicas que combinan información de múltiples escalas en diferentes escalas de tiempo, evitando estrategias peligrosas. Evaluamos la efectividad de nuestro método propuesto en cuatro conjuntos de datos del mundo real (Dow Jones, NASDAQ, General Electric y AAPLE) que abarcan desde el 1 de enero de 2007 hasta el 31 de diciembre de 2020, y demostramos sus beneficios superiores en comparación con varios métodos de referencia. Además, realizamos diversas pruebas comparativas y de ablación para demostrar la superioridad de la arquitectura de red propuesta. A través de estos experimentos, nuestro módulo de múltiples escalas propuesto arroja mejores resultados en comparación con el módulo de escala única.

Otros recursos que podrían interesarte

Temas Virtualpro