logo móvil
Contáctanos

Desarrollando herramientas analíticas para el análisis de sentimientos en árabe de datos de COVID-19

Autores: Abdelhady, Naglaa; Elsemman, Ibrahim E.; Farghally, Mohammed F.; Soliman, Taysir Hassan A.

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Desarrollando herramientas analíticas para el análisis de sentimientos en árabe de datos de COVID-19


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Distribución generalizada
Coronavirus
Sitios de redes sociales
árabe
Léxico
Analizador de sentimientos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
Debido a la amplia distribución del coronavirus y la existencia de una gran cantidad de datos en sitios de redes sociales, particularmente Twitter, había una necesidad urgente de desarrollar un modelo que evaluara las emociones de los usuarios y determinara cómo se sienten acerca de la pandemia. Sin embargo, la falta de recursos para ayudar en el Análisis de Sentimientos (SA) en árabe obstaculizó la finalización de este esfuerzo. Este trabajo presenta el léxico ArSentiCOVID, el primer y más grande léxico árabe de SA para COVID-19 que maneja la negación y los emojis. Diseñamos una herramienta analizadora de sentimientos basada en el léxico ArSentiCOVID que depende principalmente de este léxico para realizar una clasificación de tres vías. Además, empleamos el analizador de sentimientos para ensamblar automáticamente 42K tweets árabes anotados para COVID-19. Realizamos dos experimentos. Primero, probamos el efecto de aplicar reglas de negación y emojis al léxico creado. Los resultados indican que después de aplicar reglas de emojis, negación y ambas, el F-score mejoró en 2.13%, 4.13% y 6.13%, respectivamente. En segundo lugar, aplicamos un método de conjunto que combina cuatro grupos de características (n-gramas, negación, polaridad y emojis) como características de entrada para ocho clasificadores de Aprendizaje Automático (ML). Los resultados revelan que los clasificadores de Random Forest (RF) y Support Vector Machine (SVM) funcionan mejor, y que los cuatro grupos de características combinadas son las mejores para representar características, produciendo la máxima precisión (92.21%), precisión (92.23%), recall (92.21%) y F-score (92.23%) con una mejora del 3.2% sobre el modelo base.

Otros recursos que podrían interesarte

Temas Virtualpro