Clasificación de Temas en Redes Sociales en Reddit Griego
Autores: Mastrokostas, Charalampos; Giarelis, Nikolaos; Karacapilidis, Nikos
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Clasificación de Temas en Redes Sociales en Reddit Griego
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Clasificación de texto
Procesamiento de lenguaje natural
Modelo de aprendizaje automático
Aprendizaje profundo
Redes sociales griegas
Incrustaciones basadas en transformadores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La clasificación de texto (TC) es una subtarea del procesamiento del lenguaje natural (NLP) que categoriza fragmentos de texto en clases predefinidas basadas en su contenido textual y aspectos temáticos. Este proceso generalmente incluye el entrenamiento de un modelo de Aprendizaje Automático (ML) en un conjunto de datos etiquetado, donde cada ejemplo de texto está asociado con una clase específica. Los avances recientes en Aprendizaje Profundo (DL) han permitido el desarrollo de modelos de transformadores neuronales profundos, superando a los tradicionales de ML. En cualquier caso, los trabajos de la literatura sobre clasificación de temas priorizan los idiomas de alto recurso, particularmente el inglés, mientras que los esfuerzos de investigación para aquellos de bajo recurso, como el griego, son limitados. Teniendo en cuenta lo anterior, este artículo presenta: (i) el primer conjunto de datos de clasificación de temas en redes sociales en griego; (ii) una evaluación comparativa de una serie de modelos tradicionales de ML entrenados en este conjunto de datos, utilizando una variedad de métodos de vectorización de texto que incluyen TF-IDF, incrustaciones de palabras clásicas y basadas en transformadores en griego; (iii) un modelo de TC basado en GREEK-BERT ajustado en el mismo conjunto de datos; (iv) hallazgos empíricos clave que demuestran que las incrustaciones basadas en transformadores aumentan significativamente el rendimiento de los modelos tradicionales de ML, mientras que nuestro modelo de DL ajustado supera a los anteriores. El conjunto de datos, el modelo de mejor rendimiento y el código experimental se hacen públicos, con el objetivo de aumentar la reproducibilidad de este trabajo y avanzar en la investigación futura en el campo.
Descripción
La clasificación de texto (TC) es una subtarea del procesamiento del lenguaje natural (NLP) que categoriza fragmentos de texto en clases predefinidas basadas en su contenido textual y aspectos temáticos. Este proceso generalmente incluye el entrenamiento de un modelo de Aprendizaje Automático (ML) en un conjunto de datos etiquetado, donde cada ejemplo de texto está asociado con una clase específica. Los avances recientes en Aprendizaje Profundo (DL) han permitido el desarrollo de modelos de transformadores neuronales profundos, superando a los tradicionales de ML. En cualquier caso, los trabajos de la literatura sobre clasificación de temas priorizan los idiomas de alto recurso, particularmente el inglés, mientras que los esfuerzos de investigación para aquellos de bajo recurso, como el griego, son limitados. Teniendo en cuenta lo anterior, este artículo presenta: (i) el primer conjunto de datos de clasificación de temas en redes sociales en griego; (ii) una evaluación comparativa de una serie de modelos tradicionales de ML entrenados en este conjunto de datos, utilizando una variedad de métodos de vectorización de texto que incluyen TF-IDF, incrustaciones de palabras clásicas y basadas en transformadores en griego; (iii) un modelo de TC basado en GREEK-BERT ajustado en el mismo conjunto de datos; (iv) hallazgos empíricos clave que demuestran que las incrustaciones basadas en transformadores aumentan significativamente el rendimiento de los modelos tradicionales de ML, mientras que nuestro modelo de DL ajustado supera a los anteriores. El conjunto de datos, el modelo de mejor rendimiento y el código experimental se hacen públicos, con el objetivo de aumentar la reproducibilidad de este trabajo y avanzar en la investigación futura en el campo.