Matrix factorization y predicción para datos de conteo de co-ocurrencia de alta dimensionalidad a través del modelo compartido de parámetros alternantes cero inflado gamma

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Matrix factorization y predicción para datos de conteo de co-ocurrencia de alta dimensionalidad a través del modelo compartido de parámetros alternantes cero inflado gamma

Autores: Kim, Taejoon; Wang, Haiyan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Matrix factorization y predicción para datos de conteo de co-ocurrencia de alta dimensionalidad a través del modelo compartido de parámetros alternantes cero inflado gamma

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos de matriz dispersa

Recuento de co-ocurrencia

Datos de alta dimensionalidad

Modelos de regresión Gamma inflados en cero

Relevancia de ítems

Similitud del coseno

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 43

Citaciones: Sin citaciones

Los datos de matrices dispersas de alta dimensión surgen con frecuencia en diversas aplicaciones. Un ejemplo notable es el conjunto de datos de recuento de co-ocurrencia ponderado palabra-palabra, que resume la frecuencia ponderada de pares de palabras que aparecen dentro de la misma ventana de contexto. Este tipo de datos típicamente contiene valores no negativos altamente sesgados con una abundancia de ceros. Otro ejemplo es la co-ocurrencia de pares de ítems o ítem-usuario en comercio electrónico, lo que también genera datos de alta dimensión. El objetivo es utilizar estos datos para predecir la relevancia entre ítems o usuarios. En este documento, asumimos que los ítems o usuarios pueden ser representados por vectores densos desconocidos. El modelo trata los recuentos de co-ocurrencia como variables aleatorias Gamma infladas en cero y emplea la similitud del coseno entre los vectores desconocidos para resumir la relevancia ítem-ítem. Los valores desconocidos se estiman utilizando modelos de regresión Gamma inflados en cero con parámetro compartido alternante (SA-ZIG). Se consideran tanto modelos de enlace canónico como de enlace logarítmico. Se proponen dos esquemas de actualización de parámetros, junto con un algoritmo para estimar los parámetros desconocidos. Se presenta un análisis de convergencia de forma analítica. Estudios numéricos demuestran que el SA-ZIG utilizando puntuación de Fisher sin ajuste de tasa de aprendizaje puede fallar en encontrar la estimación de máxima verosimilitud. Sin embargo, el SA-ZIG con ajuste de tasa de aprendizaje funciona satisfactoriamente en nuestros estudios de simulación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro