Utilizando el aprendizaje por refuerzo basado en aumento de datos para el trading diario de acciones
Autores: Yuan, Yuyu; Wen, Wen; Yang, Jincui
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Utilizando el aprendizaje por refuerzo basado en aumento de datos para el trading diario de acciones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Trading algorítmico
Conjunto de datos de entrenamiento
Aprendizaje por refuerzo
Aumento de datos
Trading de acciones
Optimización de políticas proximales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
En el trading algorítmico, un conjunto de datos de entrenamiento adecuado es clave para obtener beneficios. Sin embargo, los datos de trading de acciones en unidades de un día no pueden satisfacer la gran demanda de aprendizaje por refuerzo. Para abordar este problema, propusimos un marco llamado aprendizaje por refuerzo basado en aumento de datos (DARL) que utiliza datos de velas por minuto (apertura, máximo, mínimo, cierre) para entrenar al agente. Luego, el agente se utiliza para guiar el trading diario de acciones. De esta manera, podemos aumentar las instancias de datos disponibles para el entrenamiento en cientos de veces, lo que puede mejorar sustancialmente el efecto de aprendizaje por refuerzo. Pero no todas las acciones son adecuadas para este tipo de trading. Por lo tanto, proponemos un mecanismo de acceso basado en la asimetría y la curtosis para seleccionar acciones que puedan ser intercambiadas correctamente utilizando este algoritmo. En nuestro experimento, encontramos que la optimización de política proximal (PPO) es el algoritmo más estable para lograr altos rendimientos ajustados al riesgo. El aprendizaje profundo Q (DQN) y el crítico de actor suave (SAC) pueden superar al mercado en el índice de Sharpe.
Descripción
En el trading algorítmico, un conjunto de datos de entrenamiento adecuado es clave para obtener beneficios. Sin embargo, los datos de trading de acciones en unidades de un día no pueden satisfacer la gran demanda de aprendizaje por refuerzo. Para abordar este problema, propusimos un marco llamado aprendizaje por refuerzo basado en aumento de datos (DARL) que utiliza datos de velas por minuto (apertura, máximo, mínimo, cierre) para entrenar al agente. Luego, el agente se utiliza para guiar el trading diario de acciones. De esta manera, podemos aumentar las instancias de datos disponibles para el entrenamiento en cientos de veces, lo que puede mejorar sustancialmente el efecto de aprendizaje por refuerzo. Pero no todas las acciones son adecuadas para este tipo de trading. Por lo tanto, proponemos un mecanismo de acceso basado en la asimetría y la curtosis para seleccionar acciones que puedan ser intercambiadas correctamente utilizando este algoritmo. En nuestro experimento, encontramos que la optimización de política proximal (PPO) es el algoritmo más estable para lograr altos rendimientos ajustados al riesgo. El aprendizaje profundo Q (DQN) y el crítico de actor suave (SAC) pueden superar al mercado en el índice de Sharpe.