Análisis de datos de texto utilizando un modelo lineal mixto generalizado y visualización bayesiana
Autores: Jun, Sunghae
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Análisis de datos de texto utilizando un modelo lineal mixto generalizado y visualización bayesiana
Categoría
Matemáticas
Subcategoría
Análisis matemático
Palabras clave
Grandes datos
Análisis de datos de texto
Modelo lineal generalizado
GLM
Modelo lineal mixto generalizado
GLMM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Muchas partes de big data, como documentos web, publicaciones en línea, artículos, patentes y artículos, están en forma de texto. Por lo tanto, el análisis de datos de texto en el dominio de big data es una tarea importante. Se han estudiado muchos métodos basados en estadísticas o algoritmos de aprendizaje automático para el análisis de datos de texto. La mayoría de ellos eran métodos analíticos basados en el modelo lineal generalizado (GLM). Para el GLM, el análisis de datos de texto se realiza en base a la suposición del error incluido en los datos dados y sigue la distribución gaussiana. Sin embargo, el GLM ha mostrado limitaciones en el análisis de datos de texto, incluida la dispersión de datos. Esto se debe a que los datos de texto preprocesados tienen un problema de inflación de ceros. Para resolver este problema, propusimos un análisis de datos de texto utilizando el modelo lineal mixto generalizado (GLMM) y visualización bayesiana. Por lo tanto, el objetivo de nuestro estudio es proponer el uso de GLMM para superar las limitaciones del GLM convencional en el análisis de datos de texto con un problema de inflación de ceros. El GLMM utiliza varias distribuciones de probabilidad además de la gaussiana para los términos de error y considera la diferencia entre observaciones mediante agrupaciones. También utilizamos la visualización bayesiana para encontrar asociaciones significativas entre palabras clave. Por último, llevamos a cabo el análisis de datos de texto buscados en dominios reales y proporcionamos los resultados analíticos para mostrar el rendimiento y la validez de nuestro método propuesto.
Descripción
Muchas partes de big data, como documentos web, publicaciones en línea, artículos, patentes y artículos, están en forma de texto. Por lo tanto, el análisis de datos de texto en el dominio de big data es una tarea importante. Se han estudiado muchos métodos basados en estadísticas o algoritmos de aprendizaje automático para el análisis de datos de texto. La mayoría de ellos eran métodos analíticos basados en el modelo lineal generalizado (GLM). Para el GLM, el análisis de datos de texto se realiza en base a la suposición del error incluido en los datos dados y sigue la distribución gaussiana. Sin embargo, el GLM ha mostrado limitaciones en el análisis de datos de texto, incluida la dispersión de datos. Esto se debe a que los datos de texto preprocesados tienen un problema de inflación de ceros. Para resolver este problema, propusimos un análisis de datos de texto utilizando el modelo lineal mixto generalizado (GLMM) y visualización bayesiana. Por lo tanto, el objetivo de nuestro estudio es proponer el uso de GLMM para superar las limitaciones del GLM convencional en el análisis de datos de texto con un problema de inflación de ceros. El GLMM utiliza varias distribuciones de probabilidad además de la gaussiana para los términos de error y considera la diferencia entre observaciones mediante agrupaciones. También utilizamos la visualización bayesiana para encontrar asociaciones significativas entre palabras clave. Por último, llevamos a cabo el análisis de datos de texto buscados en dominios reales y proporcionamos los resultados analíticos para mostrar el rendimiento y la validez de nuestro método propuesto.