logo móvil
Contáctanos

Clasificación de Temas en Redes Sociales en Reddit Griego

Autores: Mastrokostas, Charalampos; Giarelis, Nikolaos; Karacapilidis, Nikos

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Clasificación de Temas en Redes Sociales en Reddit Griego


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clasificación de texto
Procesamiento de lenguaje natural
Modelo de aprendizaje automático
Aprendizaje profundo
Redes sociales griegas
Incrustaciones basadas en transformadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La clasificación de texto (TC) es una subtarea del procesamiento del lenguaje natural (NLP) que categoriza fragmentos de texto en clases predefinidas basadas en su contenido textual y aspectos temáticos. Este proceso generalmente incluye el entrenamiento de un modelo de Aprendizaje Automático (ML) en un conjunto de datos etiquetado, donde cada ejemplo de texto está asociado con una clase específica. Los avances recientes en Aprendizaje Profundo (DL) han permitido el desarrollo de modelos de transformadores neuronales profundos, superando a los tradicionales de ML. En cualquier caso, los trabajos de la literatura sobre clasificación de temas priorizan los idiomas de alto recurso, particularmente el inglés, mientras que los esfuerzos de investigación para aquellos de bajo recurso, como el griego, son limitados. Teniendo en cuenta lo anterior, este artículo presenta: (i) el primer conjunto de datos de clasificación de temas en redes sociales en griego; (ii) una evaluación comparativa de una serie de modelos tradicionales de ML entrenados en este conjunto de datos, utilizando una variedad de métodos de vectorización de texto que incluyen TF-IDF, incrustaciones de palabras clásicas y basadas en transformadores en griego; (iii) un modelo de TC basado en GREEK-BERT ajustado en el mismo conjunto de datos; (iv) hallazgos empíricos clave que demuestran que las incrustaciones basadas en transformadores aumentan significativamente el rendimiento de los modelos tradicionales de ML, mientras que nuestro modelo de DL ajustado supera a los anteriores. El conjunto de datos, el modelo de mejor rendimiento y el código experimental se hacen públicos, con el objetivo de aumentar la reproducibilidad de este trabajo y avanzar en la investigación futura en el campo.

Otros recursos que podrían interesarte

Temas Virtualpro