logo móvil
Contáctanos

Análisis de datos de texto utilizando un modelo lineal mixto generalizado y visualización bayesiana

Autores: Jun, Sunghae

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Análisis de datos de texto utilizando un modelo lineal mixto generalizado y visualización bayesiana


Categoría

Matemáticas

Subcategoría

Análisis matemático

Palabras clave

Grandes datos
Análisis de datos de texto
Modelo lineal generalizado
GLM
Modelo lineal mixto generalizado
GLMM

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones


Descripción
Muchas partes de big data, como documentos web, publicaciones en línea, artículos, patentes y artículos, están en forma de texto. Por lo tanto, el análisis de datos de texto en el dominio de big data es una tarea importante. Se han estudiado muchos métodos basados en estadísticas o algoritmos de aprendizaje automático para el análisis de datos de texto. La mayoría de ellos eran métodos analíticos basados en el modelo lineal generalizado (GLM). Para el GLM, el análisis de datos de texto se realiza en base a la suposición del error incluido en los datos dados y sigue la distribución gaussiana. Sin embargo, el GLM ha mostrado limitaciones en el análisis de datos de texto, incluida la dispersión de datos. Esto se debe a que los datos de texto preprocesados tienen un problema de inflación de ceros. Para resolver este problema, propusimos un análisis de datos de texto utilizando el modelo lineal mixto generalizado (GLMM) y visualización bayesiana. Por lo tanto, el objetivo de nuestro estudio es proponer el uso de GLMM para superar las limitaciones del GLM convencional en el análisis de datos de texto con un problema de inflación de ceros. El GLMM utiliza varias distribuciones de probabilidad además de la gaussiana para los términos de error y considera la diferencia entre observaciones mediante agrupaciones. También utilizamos la visualización bayesiana para encontrar asociaciones significativas entre palabras clave. Por último, llevamos a cabo el análisis de datos de texto buscados en dominios reales y proporcionamos los resultados analíticos para mostrar el rendimiento y la validez de nuestro método propuesto.

Otros recursos que podrían interesarte

Temas Virtualpro