Hacia el análisis de sentimientos para contenido de Twitter en rumano
Autores: Neagu, Dan Claudiu; Rus, Andrei Bogdan; Grec, Mihai; Boroianu, Mihai Augustin; Bogdan, Nicolae; Gal, Attila
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Hacia el análisis de sentimientos para contenido de Twitter en rumano
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Plataformas de redes sociales
Análisis de sentimientos
Contenido de microblogging
Rumano
Métodos de clasificación
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Con el aumento de la popularidad de plataformas de redes sociales como Twitter o Facebook, el análisis de sentimientos (SA) sobre el contenido de microblogging se vuelve de crucial importancia. La literatura reporta buenos resultados para idiomas bien dotados como inglés, español o alemán, pero todavía existe un espacio de investigación abierto para idiomas poco representados como el rumano, donde hay una falta de conjuntos de datos de entrenamiento públicos o incrustaciones de palabras preentrenadas. La mayoría de la investigación sobre SA en rumano aborda el problema de manera de clasificación binaria (positivo vs. negativo), utilizando un solo conjunto de datos público que consiste en reseñas de productos. En este documento, respondemos a la necesidad de que un proyecto de vigilancia de medios posea un clasificador de SA multinomial personalizado para su uso en una configuración de producción restrictiva y específica. Describimos detalladamente cómo se construyó dicho clasificador, con la ayuda de un conjunto de datos en inglés (que contiene alrededor de tweets) traducido al rumano con un servicio público de traducción. Probamos los métodos de clasificación más populares que podrían aplicarse al SA, incluyendo aprendizaje automático estándar, aprendizaje profundo y BERT. Dado que no pudimos encontrar resultados para la clasificación de sentimientos multinomial (positivo, negativo y neutral) en rumano, establecimos dos precisión de referencia de ~78% utilizando aprendizaje automático estándar y ~81% utilizando BERT. Además, demostramos que el servicio de traducción automática no reduce el rendimiento de aprendizaje al comparar las precisiones logradas por los modelos entrenados en el conjunto de datos original con los modelos entrenados en los datos traducidos.
Descripción
Con el aumento de la popularidad de plataformas de redes sociales como Twitter o Facebook, el análisis de sentimientos (SA) sobre el contenido de microblogging se vuelve de crucial importancia. La literatura reporta buenos resultados para idiomas bien dotados como inglés, español o alemán, pero todavía existe un espacio de investigación abierto para idiomas poco representados como el rumano, donde hay una falta de conjuntos de datos de entrenamiento públicos o incrustaciones de palabras preentrenadas. La mayoría de la investigación sobre SA en rumano aborda el problema de manera de clasificación binaria (positivo vs. negativo), utilizando un solo conjunto de datos público que consiste en reseñas de productos. En este documento, respondemos a la necesidad de que un proyecto de vigilancia de medios posea un clasificador de SA multinomial personalizado para su uso en una configuración de producción restrictiva y específica. Describimos detalladamente cómo se construyó dicho clasificador, con la ayuda de un conjunto de datos en inglés (que contiene alrededor de tweets) traducido al rumano con un servicio público de traducción. Probamos los métodos de clasificación más populares que podrían aplicarse al SA, incluyendo aprendizaje automático estándar, aprendizaje profundo y BERT. Dado que no pudimos encontrar resultados para la clasificación de sentimientos multinomial (positivo, negativo y neutral) en rumano, establecimos dos precisión de referencia de ~78% utilizando aprendizaje automático estándar y ~81% utilizando BERT. Además, demostramos que el servicio de traducción automática no reduce el rendimiento de aprendizaje al comparar las precisiones logradas por los modelos entrenados en el conjunto de datos original con los modelos entrenados en los datos traducidos.