Modelado de Temas para Textos Generados por Usuarios en Amárico
Autores: Neshir, Girma; Rauber, Andreas; Atnafu, Solomon
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Modelado de Temas para Textos Generados por Usuarios en Amárico
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Proceso estadístico
Modelado de temas
Supervisado
Corpus en amhárico
Herramientas de aprendizaje automático
Características TF-IDF
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El modelado de temas es un proceso estadístico que deriva los temas latentes de extensas colecciones de texto. Existen tres enfoques para el modelado de temas, a saber, no supervisado, semi-supervisado y supervisado. En este trabajo, desarrollamos un modelo de tema supervisado para un corpus en amhárico. También investigamos el efecto de la lematización en la detección de temas en características de Frecuencia de Término Inversa de Frecuencia de Documento (TF-IDF), características de Asignación de Dirichlet Latente (LDA) y una combinación de estos dos conjuntos de características utilizando cuatro herramientas de aprendizaje automático supervisado, a saber, Máquina de Vectores de Soporte (SVM), Bayes Naive (NB), Regresión Logística (LR) y Redes Neuronales (NN). Evaluamos nuestro enfoque utilizando un corpus en amhárico de 14,751 documentos de diez categorías temáticas. Tanto el análisis cualitativo como el cuantitativo de los resultados muestran que nuestra propuesta de detección de temas supervisada supera con una precisión del 88% por SVM utilizando características de palabras TF-IDF con el enfoque de última generación y con la aplicación de la Técnica de Sobremuestreo de Minorías Sintéticas (SMOTE) y sin operación de lematización. Los resultados muestran que las características de texto con lematización mejoran ligeramente el rendimiento del clasificador de temas en comparación con las características sin lematización.
Descripción
El modelado de temas es un proceso estadístico que deriva los temas latentes de extensas colecciones de texto. Existen tres enfoques para el modelado de temas, a saber, no supervisado, semi-supervisado y supervisado. En este trabajo, desarrollamos un modelo de tema supervisado para un corpus en amhárico. También investigamos el efecto de la lematización en la detección de temas en características de Frecuencia de Término Inversa de Frecuencia de Documento (TF-IDF), características de Asignación de Dirichlet Latente (LDA) y una combinación de estos dos conjuntos de características utilizando cuatro herramientas de aprendizaje automático supervisado, a saber, Máquina de Vectores de Soporte (SVM), Bayes Naive (NB), Regresión Logística (LR) y Redes Neuronales (NN). Evaluamos nuestro enfoque utilizando un corpus en amhárico de 14,751 documentos de diez categorías temáticas. Tanto el análisis cualitativo como el cuantitativo de los resultados muestran que nuestra propuesta de detección de temas supervisada supera con una precisión del 88% por SVM utilizando características de palabras TF-IDF con el enfoque de última generación y con la aplicación de la Técnica de Sobremuestreo de Minorías Sintéticas (SMOTE) y sin operación de lematización. Los resultados muestran que las características de texto con lematización mejoran ligeramente el rendimiento del clasificador de temas en comparación con las características sin lematización.