logo móvil
Contáctanos

Un conjunto de datos de Twitter sobre COVID-19 en un lenguaje mixto malayo-inglés: un análisis de sentimientos

Autores: Kong, Jeffery T. H.; Juwono, Filbert H.; Ngu, Ik Ying; Nugraha, I. Gde Dharma; Maraden, Yan; Wong, W. K.

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un conjunto de datos de Twitter sobre COVID-19 en un lenguaje mixto malayo-inglés: un análisis de sentimientos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Redes sociales
Noticias falsas
Enfermedad por Coronavirus 2019
COVID-19
Análisis de sentimientos
Twitter

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Las redes sociales se han convertido en una plataforma para la difusión de información, incluidas noticias falsas. Hay mucha información falsa sobre la situación actual de la pandemia de la Enfermedad por Coronavirus 2019 (COVID-19), como información falsa sobre la vacunación. En este documento, nos centramos en el análisis de sentimientos para noticias relacionadas con el COVID-19 en Malasia en las redes sociales como Twitter. Los tuits en Malasia suelen ser una combinación de malayo, inglés y chino con muchas abreviaturas, símbolos, emojis y emoticonos dentro de la longitud máxima de un tuit. Las contribuciones de este documento son dobles. En primer lugar, construimos un conjunto de datos de Twitter multilingüe sobre COVID-19, que comprende tuits escritos del 1 de septiembre de 2021 al 12 de diciembre de 2021. En particular, recopilamos 108,246 tuits, con más en idioma malayo, en inglés, en chino, y en otros idiomas. Luego anotamos manualmente y asignamos el sentimiento de 11,568 tuits en tres clases de sentimientos (positivo, negativo y neutral) para desarrollar una herramienta de análisis de sentimientos en idioma malayo. Para este fin, aplicamos un método de compresión de datos utilizando Codificación de Pares de Bytes (BPE) en los textos y utilizamos dos enfoques de aprendizaje profundo, es decir, el Codificador Bidireccional Multilingüe de Representación para Transformadores (M-BERT) y la red neuronal convolucional (CNN). La tokenización de BPE se utiliza para codificar palabras raras y desconocidas en subpalabras más pequeñas y significativas. Con la CNN, convertimos los tuits etiquetados en archivos de imagen. Nuestros experimentos exploraron diferentes tamaños de vocabulario de BPE con nuestros modelos BPE-Texto-a-Imagen-CNN y BPE-M-BERT. Los resultados muestran que el tamaño de vocabulario óptimo para BPE es 12,000; cualquier valor más allá de eso no contribuiría mucho al puntaje F1. En general, nuestros resultados muestran que BPE-M-BERT supera ligeramente al modelo CNN, demostrando así que la red M-BERT preentrenada tiene la ventaja para nuestro conjunto de datos multilingüe.

Otros recursos que podrían interesarte

Temas Virtualpro