Aprendizaje conjunto de programación de volumen y políticas de colocación de órdenes para una ejecución óptima de órdenes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje conjunto de programación de volumen y políticas de colocación de órdenes para una ejecución óptima de órdenes

Autores: Li, Siyuan; Niu, Hui; Lu, Jiani; Liu, Peng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Aprendizaje conjunto de programación de volumen y políticas de colocación de órdenes para una ejecución óptima de órdenes

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Ejecución de órdenes

Aprendizaje por refuerzo

Técnicas de RL

Marco jerárquico de RL

Programación de volumen

Colocación de órdenes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

La ejecución de órdenes es un problema extremadamente importante en el ámbito financiero, y recientemente, cada vez más investigadores han intentado emplear técnicas de aprendizaje por refuerzo (RL) para resolver este desafiante problema. Hay muchas dificultades para que los métodos de RL convencionales aborden el problema de ejecución de órdenes, como el gran espacio de acciones que incluye precio y cantidad, y la propiedad de horizonte largo. Dado que naturalmente la ejecución de órdenes se compone de una etapa de programación de volumen de baja frecuencia y una etapa de colocación de órdenes de alta frecuencia, la mayoría de los métodos de ejecución de órdenes basados en RL existentes tratan estas etapas como dos tareas distintas y ofrecen una solución parcial al abordar una de ellas individualmente. Sin embargo, la literatura actual no logra modelar la influencia mutua no despreciable entre estas dos tareas, lo que lleva a soluciones de ejecución de órdenes poco prácticas. Para abordar estas limitaciones, proponemos un enfoque novedoso de ejecución de órdenes automático basado en el marco jerárquico de RL (OEHRL), que aprende conjuntamente las políticas para la programación de volumen y la colocación de órdenes. OEHRL primero extrae los embeddings de estado a niveles macro y micro con un modelo secuencial de auto-codificador variacional. Basado en los embeddings efectivos, OEHRL genera un conjunto de datos de expertos retrospectivos, que se utiliza para entrenar una política jerárquica de ejecución de órdenes. En la estructura jerárquica, la política de alto nivel se encarga del volumen objetivo y el nivel bajo aprende a determinar los precios para una serie de sub-órdenes asignadas desde el nivel alto. Estos dos niveles colaboran de manera fluida y contribuyen a la política óptima de ejecución de órdenes. Los extensos resultados experimentales en 200 acciones en los mercados de EE. UU. y China A-share validan la efectividad del enfoque propuesto.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro