Modelado de Temas para Textos Generados por Usuarios en Amárico

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Modelado de Temas para Textos Generados por Usuarios en Amárico

Autores: Neshir, Girma; Rauber, Andreas; Atnafu, Solomon

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Modelado de Temas para Textos Generados por Usuarios en Amárico

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Proceso estadístico

Modelado de temas

Supervisado

Corpus en amhárico

Herramientas de aprendizaje automático

Características TF-IDF

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El modelado de temas es un proceso estadístico que deriva los temas latentes de extensas colecciones de texto. Existen tres enfoques para el modelado de temas, a saber, no supervisado, semi-supervisado y supervisado. En este trabajo, desarrollamos un modelo de tema supervisado para un corpus en amhárico. También investigamos el efecto de la lematización en la detección de temas en características de Frecuencia de Término Inversa de Frecuencia de Documento (TF-IDF), características de Asignación de Dirichlet Latente (LDA) y una combinación de estos dos conjuntos de características utilizando cuatro herramientas de aprendizaje automático supervisado, a saber, Máquina de Vectores de Soporte (SVM), Bayes Naive (NB), Regresión Logística (LR) y Redes Neuronales (NN). Evaluamos nuestro enfoque utilizando un corpus en amhárico de 14,751 documentos de diez categorías temáticas. Tanto el análisis cualitativo como el cuantitativo de los resultados muestran que nuestra propuesta de detección de temas supervisada supera con una precisión del 88% por SVM utilizando características de palabras TF-IDF con el enfoque de última generación y con la aplicación de la Técnica de Sobremuestreo de Minorías Sintéticas (SMOTE) y sin operación de lematización. Los resultados muestran que las características de texto con lematización mejoran ligeramente el rendimiento del clasificador de temas en comparación con las características sin lematización.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro