Aprendizaje conjunto de programación de volumen y políticas de colocación de órdenes para una ejecución óptima de órdenes
Autores: Li, Siyuan; Niu, Hui; Lu, Jiani; Liu, Peng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje conjunto de programación de volumen y políticas de colocación de órdenes para una ejecución óptima de órdenes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Ejecución de órdenes
Aprendizaje por refuerzo
Técnicas de RL
Marco jerárquico de RL
Programación de volumen
Colocación de órdenes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La ejecución de órdenes es un problema extremadamente importante en el ámbito financiero, y recientemente, cada vez más investigadores han intentado emplear técnicas de aprendizaje por refuerzo (RL) para resolver este desafiante problema. Hay muchas dificultades para que los métodos de RL convencionales aborden el problema de ejecución de órdenes, como el gran espacio de acciones que incluye precio y cantidad, y la propiedad de horizonte largo. Dado que naturalmente la ejecución de órdenes se compone de una etapa de programación de volumen de baja frecuencia y una etapa de colocación de órdenes de alta frecuencia, la mayoría de los métodos de ejecución de órdenes basados en RL existentes tratan estas etapas como dos tareas distintas y ofrecen una solución parcial al abordar una de ellas individualmente. Sin embargo, la literatura actual no logra modelar la influencia mutua no despreciable entre estas dos tareas, lo que lleva a soluciones de ejecución de órdenes poco prácticas. Para abordar estas limitaciones, proponemos un enfoque novedoso de ejecución de órdenes automático basado en el marco jerárquico de RL (OEHRL), que aprende conjuntamente las políticas para la programación de volumen y la colocación de órdenes. OEHRL primero extrae los embeddings de estado a niveles macro y micro con un modelo secuencial de auto-codificador variacional. Basado en los embeddings efectivos, OEHRL genera un conjunto de datos de expertos retrospectivos, que se utiliza para entrenar una política jerárquica de ejecución de órdenes. En la estructura jerárquica, la política de alto nivel se encarga del volumen objetivo y el nivel bajo aprende a determinar los precios para una serie de sub-órdenes asignadas desde el nivel alto. Estos dos niveles colaboran de manera fluida y contribuyen a la política óptima de ejecución de órdenes. Los extensos resultados experimentales en 200 acciones en los mercados de EE. UU. y China A-share validan la efectividad del enfoque propuesto.
Descripción
La ejecución de órdenes es un problema extremadamente importante en el ámbito financiero, y recientemente, cada vez más investigadores han intentado emplear técnicas de aprendizaje por refuerzo (RL) para resolver este desafiante problema. Hay muchas dificultades para que los métodos de RL convencionales aborden el problema de ejecución de órdenes, como el gran espacio de acciones que incluye precio y cantidad, y la propiedad de horizonte largo. Dado que naturalmente la ejecución de órdenes se compone de una etapa de programación de volumen de baja frecuencia y una etapa de colocación de órdenes de alta frecuencia, la mayoría de los métodos de ejecución de órdenes basados en RL existentes tratan estas etapas como dos tareas distintas y ofrecen una solución parcial al abordar una de ellas individualmente. Sin embargo, la literatura actual no logra modelar la influencia mutua no despreciable entre estas dos tareas, lo que lleva a soluciones de ejecución de órdenes poco prácticas. Para abordar estas limitaciones, proponemos un enfoque novedoso de ejecución de órdenes automático basado en el marco jerárquico de RL (OEHRL), que aprende conjuntamente las políticas para la programación de volumen y la colocación de órdenes. OEHRL primero extrae los embeddings de estado a niveles macro y micro con un modelo secuencial de auto-codificador variacional. Basado en los embeddings efectivos, OEHRL genera un conjunto de datos de expertos retrospectivos, que se utiliza para entrenar una política jerárquica de ejecución de órdenes. En la estructura jerárquica, la política de alto nivel se encarga del volumen objetivo y el nivel bajo aprende a determinar los precios para una serie de sub-órdenes asignadas desde el nivel alto. Estos dos niveles colaboran de manera fluida y contribuyen a la política óptima de ejecución de órdenes. Los extensos resultados experimentales en 200 acciones en los mercados de EE. UU. y China A-share validan la efectividad del enfoque propuesto.