Contratos por Diferencia: Un Enfoque de Aprendizaje por Refuerzo
Autores: Zengeler, Nico; Handmann, Uwe
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Contratos por Diferencia: Un Enfoque de Aprendizaje por Refuerzo
Categoría
Gestión y administración
Subcategoría
Gestión de recursos
Palabras clave
Aprendizaje por refuerzo
Redes LSTM
Comercio de alta frecuencia
Historia del mercado
Activos especulativos
Política de trading
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 15
Citaciones: Sin citaciones
Presentamos un marco de aprendizaje por refuerzo profundo para el comercio automático de contratos por diferencia (CfD) sobre índices a alta frecuencia. Nuestra contribución demuestra que los agentes de aprendizaje por refuerzo con redes de memoria a corto y largo plazo (LSTM) pueden aprender de la historia reciente del mercado y superar al mercado. Por lo general, estos enfoques dependen de una baja latencia. En un ejemplo del mundo real, mostramos que un mayor tamaño del modelo puede compensar una mayor latencia. Dado que la naturaleza ruidosa de las tendencias económicas complica las predicciones, especialmente en activos especulativos, nuestro enfoque no predice precios, sino que utiliza un agente de aprendizaje por refuerzo para aprender una política de comercio globalmente lucrativa. Por lo tanto, simulamos un entorno de mercado virtual, basado en datos históricos de comercio. Nuestro entorno proporciona un proceso de decisión de Markov parcialmente observable (POMDP) a los aprendices por refuerzo y permite el entrenamiento de varias estrategias.
Descripción
Presentamos un marco de aprendizaje por refuerzo profundo para el comercio automático de contratos por diferencia (CfD) sobre índices a alta frecuencia. Nuestra contribución demuestra que los agentes de aprendizaje por refuerzo con redes de memoria a corto y largo plazo (LSTM) pueden aprender de la historia reciente del mercado y superar al mercado. Por lo general, estos enfoques dependen de una baja latencia. En un ejemplo del mundo real, mostramos que un mayor tamaño del modelo puede compensar una mayor latencia. Dado que la naturaleza ruidosa de las tendencias económicas complica las predicciones, especialmente en activos especulativos, nuestro enfoque no predice precios, sino que utiliza un agente de aprendizaje por refuerzo para aprender una política de comercio globalmente lucrativa. Por lo tanto, simulamos un entorno de mercado virtual, basado en datos históricos de comercio. Nuestro entorno proporciona un proceso de decisión de Markov parcialmente observable (POMDP) a los aprendices por refuerzo y permite el entrenamiento de varias estrategias.