Aprendizaje por Refuerzo Modular para la Optimización de Portafolios en Múltiples Mercados
Autores: Khemlichi, Firdaous; Idrissi Khamlichi, Youness; Elhaj Ben Ali, Safae
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por Refuerzo Modular para la Optimización de Portafolios en Múltiples Mercados
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje por refuerzo
Optimización de carteras
Diseño modular
Algoritmos de RL
índices de acciones
Pronóstico de volatilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La mayoría de los métodos de aprendizaje por refuerzo (RL) para la optimización de carteras siguen limitados a mercados únicos y a un solo paradigma algorítmico, lo que restringe su adaptabilidad a cambios de régimen y condiciones heterogéneas. Este artículo presenta una versión generalizada del Sistema Modular de Aprendizaje de Carteras (MPLS), que se extiende más allá de su estructura inicial de PPO para integrar cuatro algoritmos de RL: Optimización de Política Proximal (PPO), Red Q Profunda (DQN), Gradiente de Política Determinista Profunda (DDPG) y Actor-Crítico Suave (SAC). Basándose en su diseño modular, MPLS aprovecha componentes especializados para el análisis de sentimientos, la previsión de volatilidad y el modelado de dependencias estructurales, cuyas señales se fusionan dentro de un marco de decisión basado en atención. A diferencia de enfoques anteriores, MPLS se evalúa de manera independiente en tres índices bursátiles importantes (S&P 500, DAX 30 y FTSE 100) a través de diversos regímenes, incluyendo fases estables, de crisis, de recuperación y laterales. Los resultados experimentales muestran que MPLS logró consistentemente mayores ratios de Sharpe, típicamente +40-70% sobre la Cartera de Mínima Varianza (MVP) y Paridad de Riesgo (RP), mientras limita las caídas y el Valor en Riesgo Condicional (CVaR) durante períodos de estrés como el colapso de COVID-19. Los niveles de rotación se mantuvieron moderados, confirmando la conciencia de costos. Los análisis de ablación y varianza destacan la contribución distintiva de cada módulo y la robustez del marco. En general, MPLS representa un marco modular, resiliente y prácticamente relevante para la optimización de carteras consciente del riesgo.
Descripción
La mayoría de los métodos de aprendizaje por refuerzo (RL) para la optimización de carteras siguen limitados a mercados únicos y a un solo paradigma algorítmico, lo que restringe su adaptabilidad a cambios de régimen y condiciones heterogéneas. Este artículo presenta una versión generalizada del Sistema Modular de Aprendizaje de Carteras (MPLS), que se extiende más allá de su estructura inicial de PPO para integrar cuatro algoritmos de RL: Optimización de Política Proximal (PPO), Red Q Profunda (DQN), Gradiente de Política Determinista Profunda (DDPG) y Actor-Crítico Suave (SAC). Basándose en su diseño modular, MPLS aprovecha componentes especializados para el análisis de sentimientos, la previsión de volatilidad y el modelado de dependencias estructurales, cuyas señales se fusionan dentro de un marco de decisión basado en atención. A diferencia de enfoques anteriores, MPLS se evalúa de manera independiente en tres índices bursátiles importantes (S&P 500, DAX 30 y FTSE 100) a través de diversos regímenes, incluyendo fases estables, de crisis, de recuperación y laterales. Los resultados experimentales muestran que MPLS logró consistentemente mayores ratios de Sharpe, típicamente +40-70% sobre la Cartera de Mínima Varianza (MVP) y Paridad de Riesgo (RP), mientras limita las caídas y el Valor en Riesgo Condicional (CVaR) durante períodos de estrés como el colapso de COVID-19. Los niveles de rotación se mantuvieron moderados, confirmando la conciencia de costos. Los análisis de ablación y varianza destacan la contribución distintiva de cada módulo y la robustez del marco. En general, MPLS representa un marco modular, resiliente y prácticamente relevante para la optimización de carteras consciente del riesgo.