logo móvil
Contáctanos

Mitigando el Desplazamiento de Distribución en Sistemas de Recomendación Basados en RL Offline con un Transformador de Decisión de Regularización Q-Learning

Autores: Zhou, Yu; Guo, Xinyu; Jiang, Yuanbo; Fang, Jiaxuan; Wang, Jin-Qiang; Zhi, Peng; Liu, Gang; Zhou, Rui; Li, Ling-Huey; Liu, Chuanyi; Zhou, Qingguo; Li, Kuan-Ching

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Mitigando el Desplazamiento de Distribución en Sistemas de Recomendación Basados en RL Offline con un Transformador de Decisión de Regularización Q-Learning


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sistemas de recomendación secuenciales
Aprendizaje por refuerzo offline
Cambio de distribución
Transformador de decisión regularizado por Q-Learning
Divergencia de Kullback-Leibler
Regularización de máxima entropía

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Optimizar la satisfacción del usuario a largo plazo en sistemas de recomendación secuenciales es un desafío crítico. El aprendizaje por refuerzo offline (RL) ofrece una solución prometedora al aprender políticas de recomendación a partir de registros de interacción históricos sin incurrir en los altos costos de la exploración en línea. Sin embargo, el RL offline sufre de un cambio de distribución severo: la política aprendida a menudo sobreestima el valor de los artículos fuera de distribución (OOD), lo que lleva a recomendaciones poco fiables y compromete la satisfacción del usuario. Para abordar este problema, proponemos un nuevo marco conocido como el Transformador de Decisión Regularizado por Q-Learning (QRDT). Basado en la arquitectura del Transformador de Decisión, el QRDT modela las recomendaciones como una tarea de predicción de secuencias para capturar dinámicas complejas del interés del usuario. Para mitigar el cambio de distribución, el QRDT integra la divergencia de Kullback-Leibler (KL) y la regularización de máxima entropía en la función de valor Q, lo que permite una estimación conservadora del valor a largo plazo mientras fomenta una exploración diversa dentro de la distribución de datos registrados. Experimentos extensivos en cuatro conjuntos de datos de comercio electrónico de Amazon del mundo real (CDs, Ropa, Teléfonos móviles y Belleza) demuestran que el QRDT logra un rendimiento competitivo y supera la línea base PGPR en la mayoría de los escenarios. Específicamente, el método propuesto produce mejoras del 2.99% en la Tasa de Éxito (HR), 2.19% en la Ganancia Acumulativa Descontada Normalizada (NDCG), 0.94% en la Recuperación y 0.84% en la Precisión, verificando la efectividad de nuestro enfoque de regularización.

Otros recursos que podrían interesarte

Temas Virtualpro