Análisis de datos de texto utilizando un modelo lineal mixto generalizado y visualización bayesiana

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Análisis de datos de texto utilizando un modelo lineal mixto generalizado y visualización bayesiana

Autores: Jun, Sunghae

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Análisis de datos de texto utilizando un modelo lineal mixto generalizado y visualización bayesiana

Categoría

Matemáticas

Subcategoría

Análisis matemático

Palabras clave

Grandes datos

Análisis de datos de texto

Modelo lineal generalizado

GLM

Modelo lineal mixto generalizado

GLMM

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones

Muchas partes de big data, como documentos web, publicaciones en línea, artículos, patentes y artículos, están en forma de texto. Por lo tanto, el análisis de datos de texto en el dominio de big data es una tarea importante. Se han estudiado muchos métodos basados en estadísticas o algoritmos de aprendizaje automático para el análisis de datos de texto. La mayoría de ellos eran métodos analíticos basados en el modelo lineal generalizado (GLM). Para el GLM, el análisis de datos de texto se realiza en base a la suposición del error incluido en los datos dados y sigue la distribución gaussiana. Sin embargo, el GLM ha mostrado limitaciones en el análisis de datos de texto, incluida la dispersión de datos. Esto se debe a que los datos de texto preprocesados tienen un problema de inflación de ceros. Para resolver este problema, propusimos un análisis de datos de texto utilizando el modelo lineal mixto generalizado (GLMM) y visualización bayesiana. Por lo tanto, el objetivo de nuestro estudio es proponer el uso de GLMM para superar las limitaciones del GLM convencional en el análisis de datos de texto con un problema de inflación de ceros. El GLMM utiliza varias distribuciones de probabilidad además de la gaussiana para los términos de error y considera la diferencia entre observaciones mediante agrupaciones. También utilizamos la visualización bayesiana para encontrar asociaciones significativas entre palabras clave. Por último, llevamos a cabo el análisis de datos de texto buscados en dominios reales y proporcionamos los resultados analíticos para mostrar el rendimiento y la validez de nuestro método propuesto.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro