Mitigando el Desplazamiento de Distribución en Sistemas de Recomendación Basados en RL Offline con un Transformador de Decisión de Regularización Q-Learning
Autores: Zhou, Yu; Guo, Xinyu; Jiang, Yuanbo; Fang, Jiaxuan; Wang, Jin-Qiang; Zhi, Peng; Liu, Gang; Zhou, Rui; Li, Ling-Huey; Liu, Chuanyi; Zhou, Qingguo; Li, Kuan-Ching
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Mitigando el Desplazamiento de Distribución en Sistemas de Recomendación Basados en RL Offline con un Transformador de Decisión de Regularización Q-Learning
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sistemas de recomendación secuenciales
Aprendizaje por refuerzo offline
Cambio de distribución
Transformador de decisión regularizado por Q-Learning
Divergencia de Kullback-Leibler
Regularización de máxima entropía
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Optimizar la satisfacción del usuario a largo plazo en sistemas de recomendación secuenciales es un desafío crítico. El aprendizaje por refuerzo offline (RL) ofrece una solución prometedora al aprender políticas de recomendación a partir de registros de interacción históricos sin incurrir en los altos costos de la exploración en línea. Sin embargo, el RL offline sufre de un cambio de distribución severo: la política aprendida a menudo sobreestima el valor de los artículos fuera de distribución (OOD), lo que lleva a recomendaciones poco fiables y compromete la satisfacción del usuario. Para abordar este problema, proponemos un nuevo marco conocido como el Transformador de Decisión Regularizado por Q-Learning (QRDT). Basado en la arquitectura del Transformador de Decisión, el QRDT modela las recomendaciones como una tarea de predicción de secuencias para capturar dinámicas complejas del interés del usuario. Para mitigar el cambio de distribución, el QRDT integra la divergencia de Kullback-Leibler (KL) y la regularización de máxima entropía en la función de valor Q, lo que permite una estimación conservadora del valor a largo plazo mientras fomenta una exploración diversa dentro de la distribución de datos registrados. Experimentos extensivos en cuatro conjuntos de datos de comercio electrónico de Amazon del mundo real (CDs, Ropa, Teléfonos móviles y Belleza) demuestran que el QRDT logra un rendimiento competitivo y supera la línea base PGPR en la mayoría de los escenarios. Específicamente, el método propuesto produce mejoras del 2.99% en la Tasa de Éxito (HR), 2.19% en la Ganancia Acumulativa Descontada Normalizada (NDCG), 0.94% en la Recuperación y 0.84% en la Precisión, verificando la efectividad de nuestro enfoque de regularización.
Descripción
Optimizar la satisfacción del usuario a largo plazo en sistemas de recomendación secuenciales es un desafío crítico. El aprendizaje por refuerzo offline (RL) ofrece una solución prometedora al aprender políticas de recomendación a partir de registros de interacción históricos sin incurrir en los altos costos de la exploración en línea. Sin embargo, el RL offline sufre de un cambio de distribución severo: la política aprendida a menudo sobreestima el valor de los artículos fuera de distribución (OOD), lo que lleva a recomendaciones poco fiables y compromete la satisfacción del usuario. Para abordar este problema, proponemos un nuevo marco conocido como el Transformador de Decisión Regularizado por Q-Learning (QRDT). Basado en la arquitectura del Transformador de Decisión, el QRDT modela las recomendaciones como una tarea de predicción de secuencias para capturar dinámicas complejas del interés del usuario. Para mitigar el cambio de distribución, el QRDT integra la divergencia de Kullback-Leibler (KL) y la regularización de máxima entropía en la función de valor Q, lo que permite una estimación conservadora del valor a largo plazo mientras fomenta una exploración diversa dentro de la distribución de datos registrados. Experimentos extensivos en cuatro conjuntos de datos de comercio electrónico de Amazon del mundo real (CDs, Ropa, Teléfonos móviles y Belleza) demuestran que el QRDT logra un rendimiento competitivo y supera la línea base PGPR en la mayoría de los escenarios. Específicamente, el método propuesto produce mejoras del 2.99% en la Tasa de Éxito (HR), 2.19% en la Ganancia Acumulativa Descontada Normalizada (NDCG), 0.94% en la Recuperación y 0.84% en la Precisión, verificando la efectividad de nuestro enfoque de regularización.