Mitigando el Desplazamiento de Distribución en Sistemas de Recomendación Basados en RL Offline con un Transformador de Decisión de Regularización Q-Learning

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mitigando el Desplazamiento de Distribución en Sistemas de Recomendación Basados en RL Offline con un Transformador de Decisión de Regularización Q-Learning

Autores: Zhou, Yu; Guo, Xinyu; Jiang, Yuanbo; Fang, Jiaxuan; Wang, Jin-Qiang; Zhi, Peng; Liu, Gang; Zhou, Rui; Li, Ling-Huey; Liu, Chuanyi; Zhou, Qingguo; Li, Kuan-Ching

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Mitigando el Desplazamiento de Distribución en Sistemas de Recomendación Basados en RL Offline con un Transformador de Decisión de Regularización Q-Learning

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sistemas de recomendación secuenciales

Aprendizaje por refuerzo offline

Cambio de distribución

Transformador de decisión regularizado por Q-Learning

Divergencia de Kullback-Leibler

Regularización de máxima entropía

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Optimizar la satisfacción del usuario a largo plazo en sistemas de recomendación secuenciales es un desafío crítico. El aprendizaje por refuerzo offline (RL) ofrece una solución prometedora al aprender políticas de recomendación a partir de registros de interacción históricos sin incurrir en los altos costos de la exploración en línea. Sin embargo, el RL offline sufre de un cambio de distribución severo: la política aprendida a menudo sobreestima el valor de los artículos fuera de distribución (OOD), lo que lleva a recomendaciones poco fiables y compromete la satisfacción del usuario. Para abordar este problema, proponemos un nuevo marco conocido como el Transformador de Decisión Regularizado por Q-Learning (QRDT). Basado en la arquitectura del Transformador de Decisión, el QRDT modela las recomendaciones como una tarea de predicción de secuencias para capturar dinámicas complejas del interés del usuario. Para mitigar el cambio de distribución, el QRDT integra la divergencia de Kullback-Leibler (KL) y la regularización de máxima entropía en la función de valor Q, lo que permite una estimación conservadora del valor a largo plazo mientras fomenta una exploración diversa dentro de la distribución de datos registrados. Experimentos extensivos en cuatro conjuntos de datos de comercio electrónico de Amazon del mundo real (CDs, Ropa, Teléfonos móviles y Belleza) demuestran que el QRDT logra un rendimiento competitivo y supera la línea base PGPR en la mayoría de los escenarios. Específicamente, el método propuesto produce mejoras del 2.99% en la Tasa de Éxito (HR), 2.19% en la Ganancia Acumulativa Descontada Normalizada (NDCG), 0.94% en la Recuperación y 0.84% en la Precisión, verificando la efectividad de nuestro enfoque de regularización.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro