logo móvil
Contáctanos

Matrix factorization y predicción para datos de conteo de co-ocurrencia de alta dimensionalidad a través del modelo compartido de parámetros alternantes cero inflado gamma

Autores: Kim, Taejoon; Wang, Haiyan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Matrix factorization y predicción para datos de conteo de co-ocurrencia de alta dimensionalidad a través del modelo compartido de parámetros alternantes cero inflado gamma


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos de matriz dispersa
Recuento de co-ocurrencia
Datos de alta dimensionalidad
Modelos de regresión Gamma inflados en cero
Relevancia de ítems
Similitud del coseno

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 43

Citaciones: Sin citaciones


Descripción
Los datos de matrices dispersas de alta dimensión surgen con frecuencia en diversas aplicaciones. Un ejemplo notable es el conjunto de datos de recuento de co-ocurrencia ponderado palabra-palabra, que resume la frecuencia ponderada de pares de palabras que aparecen dentro de la misma ventana de contexto. Este tipo de datos típicamente contiene valores no negativos altamente sesgados con una abundancia de ceros. Otro ejemplo es la co-ocurrencia de pares de ítems o ítem-usuario en comercio electrónico, lo que también genera datos de alta dimensión. El objetivo es utilizar estos datos para predecir la relevancia entre ítems o usuarios. En este documento, asumimos que los ítems o usuarios pueden ser representados por vectores densos desconocidos. El modelo trata los recuentos de co-ocurrencia como variables aleatorias Gamma infladas en cero y emplea la similitud del coseno entre los vectores desconocidos para resumir la relevancia ítem-ítem. Los valores desconocidos se estiman utilizando modelos de regresión Gamma inflados en cero con parámetro compartido alternante (SA-ZIG). Se consideran tanto modelos de enlace canónico como de enlace logarítmico. Se proponen dos esquemas de actualización de parámetros, junto con un algoritmo para estimar los parámetros desconocidos. Se presenta un análisis de convergencia de forma analítica. Estudios numéricos demuestran que el SA-ZIG utilizando puntuación de Fisher sin ajuste de tasa de aprendizaje puede fallar en encontrar la estimación de máxima verosimilitud. Sin embargo, el SA-ZIG con ajuste de tasa de aprendizaje funciona satisfactoriamente en nuestros estudios de simulación.

Otros recursos que podrían interesarte

Temas Virtualpro