Modelo multimodal basado en aprendizaje por refuerzo para la tarea de gestión de cartera de inversiones en acciones
Autores: Du, Sha; Shen, Hailong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Modelo multimodal basado en aprendizaje por refuerzo para la tarea de gestión de cartera de inversiones en acciones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje automático
Aprendizaje por refuerzo
Basado en gradiente de política
DDPG
Aprendizaje de representación de estados
Mercado de valores.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
El aprendizaje automático se ha aplicado cada vez más por más académicos en el campo de la inversión cuantitativa, pero los métodos tradicionales de aprendizaje automático no pueden proporcionar altos rendimientos y una fuerte estabilidad al mismo tiempo. En este documento, se construye un modelo multimodal basado en aprendizaje por refuerzo (RL) para la gestión de carteras de inversión en acciones. La mayoría de los métodos anteriores basados en RL han elegido los métodos basados en el valor de RL. Los métodos de aprendizaje por refuerzo basados en la política de gradientes se han demostrado ser superiores a los métodos basados en el valor por un número creciente de investigaciones. Los métodos de aprendizaje por refuerzo basados en gradientes de política comúnmente utilizados son DDPG, TD3, SAC y PPO. Realizamos experimentos comparativos para seleccionar el método más adecuado para el conjunto de datos en este documento. La elección final fue DDPG. Además, rara vez habrá una forma de refinar los datos en bruto antes de entrenar al agente. El mercado de valores tiene una gran cantidad de datos, y los datos son complejos. Si los datos en bruto del mercado de valores se alimentan directamente al agente, el agente no puede aprender la información en los datos de manera eficiente y rápida. Utilizamos el aprendizaje de representación de estados (SRL) para procesar los datos en bruto de las acciones y luego alimentamos los datos procesados al agente. No es suficiente entrenar al agente utilizando solo datos de acciones; también agregamos datos de texto de comentarios y datos de imágenes. Los datos de texto de comentarios provienen de los comentarios de los inversores en las barras de acciones. Los datos de imágenes se derivan de imágenes que pueden representar la dirección general del mercado. Realizamos experimentos en tres conjuntos de datos y comparamos nuestro modelo propuesto con otros 11 métodos. Establecimos tres indicadores de evaluación en el documento. En conjunto, nuestro modelo propuesto funciona mejor.
Descripción
El aprendizaje automático se ha aplicado cada vez más por más académicos en el campo de la inversión cuantitativa, pero los métodos tradicionales de aprendizaje automático no pueden proporcionar altos rendimientos y una fuerte estabilidad al mismo tiempo. En este documento, se construye un modelo multimodal basado en aprendizaje por refuerzo (RL) para la gestión de carteras de inversión en acciones. La mayoría de los métodos anteriores basados en RL han elegido los métodos basados en el valor de RL. Los métodos de aprendizaje por refuerzo basados en la política de gradientes se han demostrado ser superiores a los métodos basados en el valor por un número creciente de investigaciones. Los métodos de aprendizaje por refuerzo basados en gradientes de política comúnmente utilizados son DDPG, TD3, SAC y PPO. Realizamos experimentos comparativos para seleccionar el método más adecuado para el conjunto de datos en este documento. La elección final fue DDPG. Además, rara vez habrá una forma de refinar los datos en bruto antes de entrenar al agente. El mercado de valores tiene una gran cantidad de datos, y los datos son complejos. Si los datos en bruto del mercado de valores se alimentan directamente al agente, el agente no puede aprender la información en los datos de manera eficiente y rápida. Utilizamos el aprendizaje de representación de estados (SRL) para procesar los datos en bruto de las acciones y luego alimentamos los datos procesados al agente. No es suficiente entrenar al agente utilizando solo datos de acciones; también agregamos datos de texto de comentarios y datos de imágenes. Los datos de texto de comentarios provienen de los comentarios de los inversores en las barras de acciones. Los datos de imágenes se derivan de imágenes que pueden representar la dirección general del mercado. Realizamos experimentos en tres conjuntos de datos y comparamos nuestro modelo propuesto con otros 11 métodos. Establecimos tres indicadores de evaluación en el documento. En conjunto, nuestro modelo propuesto funciona mejor.