Modelo de conjunto dinámico basado en aprendizaje profundo por refuerzo para la predicción de acciones
Autores: Lin, Wenjing; Xie, Liang; Xu, Haijiao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelo de conjunto dinámico basado en aprendizaje profundo por refuerzo para la predicción de acciones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelos de conjunto
Aprendizaje por refuerzo profundo
Predicción de acciones
Retroalimentación del mercado en tiempo real
Modelos de series temporales basados en aprendizaje profundo
Retornos de inversión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 46
Citaciones: Sin citaciones
En los problemas de predicción de existencias, los modelos de conjunto profundo están mejor adaptados a entornos de mercado de valores que cambian dinámicamente en comparación con las redes de series temporales individuales. Sin embargo, los modelos de conjunto existentes a menudo subutilizan la retroalimentación del mercado en tiempo real para una supervisión efectiva, y los modelos base están pre-entrenados y fijos en su optimización, lo que les hace carecer de adaptabilidad para entornos de mercado en evolución. Para abordar este problema, proponemos un modelo de conjunto dinámico basado en aprendizaje profundo para la predicción de existencias (DRL-DEM). En primer lugar, empleamos el aprendizaje profundo por refuerzo para optimizar los pesos de los modelos de series temporales basados en aprendizaje profundo. En segundo lugar, los métodos existentes de aprendizaje profundo por refuerzo solo consideran recompensas ambientales. Por lo tanto, mejoramos la función de recompensa al introducir rendimientos de inversión en tiempo real como señales de retroalimentación adicionales para el algoritmo de aprendizaje profundo por refuerzo. Finalmente, se utiliza un algoritmo iterativo alternante para entrenar simultáneamente los predictores base y el modelo de aprendizaje profundo por refuerzo, lo que permite que DRL-DEM utilice completamente la información supervisada para una optimización coordinada global. Los resultados experimentales muestran que en los conjuntos de datos SSE 50 y NASDAQ 100, el error cuadrático medio (MSE) del método propuesto alcanzó 0.011 y 0.005, el índice de Sharpe (SR) alcanzó 2.20 y 1.53, y el rendimiento acumulativo (CR) alcanzó 1.38 y 1.21. En comparación con los mejores resultados en el modelo reciente, el MSE disminuyó un 21.4% y un 28.6%, el SR aumentó un 81.8% y un 82.1%, y el CR aumentó un 89.0% y un 89.1%, con una mayor precisión en la predicción y una mayor capacidad de retorno de inversión.
Descripción
En los problemas de predicción de existencias, los modelos de conjunto profundo están mejor adaptados a entornos de mercado de valores que cambian dinámicamente en comparación con las redes de series temporales individuales. Sin embargo, los modelos de conjunto existentes a menudo subutilizan la retroalimentación del mercado en tiempo real para una supervisión efectiva, y los modelos base están pre-entrenados y fijos en su optimización, lo que les hace carecer de adaptabilidad para entornos de mercado en evolución. Para abordar este problema, proponemos un modelo de conjunto dinámico basado en aprendizaje profundo para la predicción de existencias (DRL-DEM). En primer lugar, empleamos el aprendizaje profundo por refuerzo para optimizar los pesos de los modelos de series temporales basados en aprendizaje profundo. En segundo lugar, los métodos existentes de aprendizaje profundo por refuerzo solo consideran recompensas ambientales. Por lo tanto, mejoramos la función de recompensa al introducir rendimientos de inversión en tiempo real como señales de retroalimentación adicionales para el algoritmo de aprendizaje profundo por refuerzo. Finalmente, se utiliza un algoritmo iterativo alternante para entrenar simultáneamente los predictores base y el modelo de aprendizaje profundo por refuerzo, lo que permite que DRL-DEM utilice completamente la información supervisada para una optimización coordinada global. Los resultados experimentales muestran que en los conjuntos de datos SSE 50 y NASDAQ 100, el error cuadrático medio (MSE) del método propuesto alcanzó 0.011 y 0.005, el índice de Sharpe (SR) alcanzó 2.20 y 1.53, y el rendimiento acumulativo (CR) alcanzó 1.38 y 1.21. En comparación con los mejores resultados en el modelo reciente, el MSE disminuyó un 21.4% y un 28.6%, el SR aumentó un 81.8% y un 82.1%, y el CR aumentó un 89.0% y un 89.1%, con una mayor precisión en la predicción y una mayor capacidad de retorno de inversión.