Análisis de datos de palabras clave utilizando modelos generativos basados en estadísticas y algoritmos de aprendizaje automático
Autores: Jun, Sunghae
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Análisis de datos de palabras clave utilizando modelos generativos basados en estadísticas y algoritmos de aprendizaje automático
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Análisis de grandes datos
Palabras clave
Matriz documento-palabra clave
Problema de inflación cero
Algoritmos de aprendizaje automático
Modelos generativos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
Para el análisis de grandes datos de texto, preprocesamos los datos de texto y construimos una matriz documento-palabra clave. Los elementos de esta matriz representan las frecuencias de palabras clave que aparecen en un documento. La matriz tiene un problema de inflación de ceros porque muchos elementos son valores cero. Además, en el proceso de preprocesamiento, se reduce el tamaño de los datos de la matriz documento-palabra clave. Sin embargo, varios algoritmos de aprendizaje automático requieren una gran cantidad de datos, por lo que para resolver los problemas de escasez de datos e inflación de ceros, proponemos el uso de modelos generativos basados en estadísticas y aprendizaje automático. En nuestras pruebas experimentales, comparamos el rendimiento de los modelos utilizando simulaciones y conjuntos de datos prácticos. Así, verificamos la validez y contribución de nuestra investigación para el análisis de datos de palabras clave.
Descripción
Para el análisis de grandes datos de texto, preprocesamos los datos de texto y construimos una matriz documento-palabra clave. Los elementos de esta matriz representan las frecuencias de palabras clave que aparecen en un documento. La matriz tiene un problema de inflación de ceros porque muchos elementos son valores cero. Además, en el proceso de preprocesamiento, se reduce el tamaño de los datos de la matriz documento-palabra clave. Sin embargo, varios algoritmos de aprendizaje automático requieren una gran cantidad de datos, por lo que para resolver los problemas de escasez de datos e inflación de ceros, proponemos el uso de modelos generativos basados en estadísticas y aprendizaje automático. En nuestras pruebas experimentales, comparamos el rendimiento de los modelos utilizando simulaciones y conjuntos de datos prácticos. Así, verificamos la validez y contribución de nuestra investigación para el análisis de datos de palabras clave.