logo móvil
Contáctanos

Modelo multimodal basado en aprendizaje por refuerzo para la tarea de gestión de cartera de inversiones en acciones

Autores: Du, Sha; Shen, Hailong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Modelo multimodal basado en aprendizaje por refuerzo para la tarea de gestión de cartera de inversiones en acciones


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje automático
Aprendizaje por refuerzo
Basado en gradiente de política
DDPG
Aprendizaje de representación de estados
Mercado de valores.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
El aprendizaje automático se ha aplicado cada vez más por más académicos en el campo de la inversión cuantitativa, pero los métodos tradicionales de aprendizaje automático no pueden proporcionar altos rendimientos y una fuerte estabilidad al mismo tiempo. En este documento, se construye un modelo multimodal basado en aprendizaje por refuerzo (RL) para la gestión de carteras de inversión en acciones. La mayoría de los métodos anteriores basados en RL han elegido los métodos basados en el valor de RL. Los métodos de aprendizaje por refuerzo basados en la política de gradientes se han demostrado ser superiores a los métodos basados en el valor por un número creciente de investigaciones. Los métodos de aprendizaje por refuerzo basados en gradientes de política comúnmente utilizados son DDPG, TD3, SAC y PPO. Realizamos experimentos comparativos para seleccionar el método más adecuado para el conjunto de datos en este documento. La elección final fue DDPG. Además, rara vez habrá una forma de refinar los datos en bruto antes de entrenar al agente. El mercado de valores tiene una gran cantidad de datos, y los datos son complejos. Si los datos en bruto del mercado de valores se alimentan directamente al agente, el agente no puede aprender la información en los datos de manera eficiente y rápida. Utilizamos el aprendizaje de representación de estados (SRL) para procesar los datos en bruto de las acciones y luego alimentamos los datos procesados al agente. No es suficiente entrenar al agente utilizando solo datos de acciones; también agregamos datos de texto de comentarios y datos de imágenes. Los datos de texto de comentarios provienen de los comentarios de los inversores en las barras de acciones. Los datos de imágenes se derivan de imágenes que pueden representar la dirección general del mercado. Realizamos experimentos en tres conjuntos de datos y comparamos nuestro modelo propuesto con otros 11 métodos. Establecimos tres indicadores de evaluación en el documento. En conjunto, nuestro modelo propuesto funciona mejor.

Otros recursos que podrían interesarte

Temas Virtualpro