Clasificación de tweets de COVID-19 basada en un método híbrido de incrustación de palabras
Autores: Didi, Yosra; Walha, Ahlam; Wali, Ali
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Clasificación de tweets de COVID-19 basada en un método híbrido de incrustación de palabras
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Pandemia
Redes sociales
Aprendizaje automático
Tweets
Extracción de características
Clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
En marzo de 2020, la Organización Mundial de la Salud declaró que COVID-19 era una nueva pandemia. Este virus mortal se propagó y afectó a muchos países en el mundo. Durante el brote, las plataformas de redes sociales como Twitter contribuyeron con valiosos y masivos datos para evaluar mejor la toma de decisiones relacionadas con la salud. Por lo tanto, proponemos que los sentimientos de los usuarios podrían ser analizados con la aplicación de enfoques efectivos de aprendizaje automático supervisado para predecir la prevalencia de enfermedades y proporcionar advertencias tempranas. Los tweets recopilados se prepararon para el preprocesamiento y se categorizaron en: negativo, positivo y neutral. En la segunda fase, se extrajeron diferentes características de las publicaciones aplicando varias técnicas ampliamente utilizadas, como TF-IDF, Word2Vec, Glove y FastText para capturar los conjuntos de características. La novedad de este estudio se basa en la extracción de características híbridas, donde combinamos características sintácticas (TF-IDF) con características semánticas (FastText y Glove) para representar las publicaciones con precisión, lo que ayuda a mejorar el proceso de clasificación. Los resultados experimentales muestran que FastText combinado con TF-IDF funcionó mejor con SVM que los otros modelos. SVM superó a los otros modelos en un 88,72%, al igual que XGBoost, con una puntuación de precisión del 85,29%. Este estudio muestra que los métodos híbridos demostraron su capacidad para extraer características de los tweets y aumentar el rendimiento de la clasificación.
Descripción
En marzo de 2020, la Organización Mundial de la Salud declaró que COVID-19 era una nueva pandemia. Este virus mortal se propagó y afectó a muchos países en el mundo. Durante el brote, las plataformas de redes sociales como Twitter contribuyeron con valiosos y masivos datos para evaluar mejor la toma de decisiones relacionadas con la salud. Por lo tanto, proponemos que los sentimientos de los usuarios podrían ser analizados con la aplicación de enfoques efectivos de aprendizaje automático supervisado para predecir la prevalencia de enfermedades y proporcionar advertencias tempranas. Los tweets recopilados se prepararon para el preprocesamiento y se categorizaron en: negativo, positivo y neutral. En la segunda fase, se extrajeron diferentes características de las publicaciones aplicando varias técnicas ampliamente utilizadas, como TF-IDF, Word2Vec, Glove y FastText para capturar los conjuntos de características. La novedad de este estudio se basa en la extracción de características híbridas, donde combinamos características sintácticas (TF-IDF) con características semánticas (FastText y Glove) para representar las publicaciones con precisión, lo que ayuda a mejorar el proceso de clasificación. Los resultados experimentales muestran que FastText combinado con TF-IDF funcionó mejor con SVM que los otros modelos. SVM superó a los otros modelos en un 88,72%, al igual que XGBoost, con una puntuación de precisión del 85,29%. Este estudio muestra que los métodos híbridos demostraron su capacidad para extraer características de los tweets y aumentar el rendimiento de la clasificación.