logo móvil
Contáctanos

Aprendizaje conjunto de programación de volumen y políticas de colocación de órdenes para una ejecución óptima de órdenes

Autores: Li, Siyuan; Niu, Hui; Lu, Jiani; Liu, Peng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aprendizaje conjunto de programación de volumen y políticas de colocación de órdenes para una ejecución óptima de órdenes


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Ejecución de órdenes
Aprendizaje por refuerzo
Técnicas de RL
Marco jerárquico de RL
Programación de volumen
Colocación de órdenes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
La ejecución de órdenes es un problema extremadamente importante en el ámbito financiero, y recientemente, cada vez más investigadores han intentado emplear técnicas de aprendizaje por refuerzo (RL) para resolver este desafiante problema. Hay muchas dificultades para que los métodos de RL convencionales aborden el problema de ejecución de órdenes, como el gran espacio de acciones que incluye precio y cantidad, y la propiedad de horizonte largo. Dado que naturalmente la ejecución de órdenes se compone de una etapa de programación de volumen de baja frecuencia y una etapa de colocación de órdenes de alta frecuencia, la mayoría de los métodos de ejecución de órdenes basados en RL existentes tratan estas etapas como dos tareas distintas y ofrecen una solución parcial al abordar una de ellas individualmente. Sin embargo, la literatura actual no logra modelar la influencia mutua no despreciable entre estas dos tareas, lo que lleva a soluciones de ejecución de órdenes poco prácticas. Para abordar estas limitaciones, proponemos un enfoque novedoso de ejecución de órdenes automático basado en el marco jerárquico de RL (OEHRL), que aprende conjuntamente las políticas para la programación de volumen y la colocación de órdenes. OEHRL primero extrae los embeddings de estado a niveles macro y micro con un modelo secuencial de auto-codificador variacional. Basado en los embeddings efectivos, OEHRL genera un conjunto de datos de expertos retrospectivos, que se utiliza para entrenar una política jerárquica de ejecución de órdenes. En la estructura jerárquica, la política de alto nivel se encarga del volumen objetivo y el nivel bajo aprende a determinar los precios para una serie de sub-órdenes asignadas desde el nivel alto. Estos dos niveles colaboran de manera fluida y contribuyen a la política óptima de ejecución de órdenes. Los extensos resultados experimentales en 200 acciones en los mercados de EE. UU. y China A-share validan la efectividad del enfoque propuesto.

Otros recursos que podrían interesarte

Temas Virtualpro