logo móvil
Contáctanos

Q8VaxStance: sistema de etiquetado de conjuntos de datos para la detección de posturas hacia las vacunas en el dialecto kuwaití

Autores: Alostad, Hana; Dawiek, Shoug; Davulcu, Hasan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Q8VaxStance: sistema de etiquetado de conjuntos de datos para la detección de posturas hacia las vacunas en el dialecto kuwaití


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Dialecto kuwaití
Investigación de procesamiento del lenguaje natural
Q8vaxstance
Reticencia a la vacuna
Modelos de aprendizaje automático
Detección de palabras clave

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
El dialecto kuwaití es un dialecto particular del árabe hablado en Kuwait; difiere significativamente del árabe estándar y de los dialectos de los países vecinos en la misma región. Pocos trabajos de investigación con enfoque en el dialecto kuwaití se han publicado en el campo del Procesamiento del Lenguaje Natural. En este estudio, creamos recursos lingüísticos del dialecto kuwaití utilizando Q8VaxStance, un sistema de etiquetado de postura sobre vacunas para un gran conjunto de datos de tweets. Este conjunto de datos llena este vacío y proporciona un recurso valioso para los investigadores que estudian la reticencia a las vacunas en Kuwait. Además, contribuye al campo del procesamiento del lenguaje natural en árabe al proporcionar un conjunto de datos para desarrollar y evaluar modelos de aprendizaje automático para la detección de posturas en el dialecto kuwaití. El sistema propuesto de etiquetado de posturas sobre vacunas combina los beneficios del aprendizaje supervisado débil y del aprendizaje sin datos; para este propósito, implementamos 52 experimentos en 42,815 tweets no etiquetados extraídos entre diciembre de 2020 y julio de 2022. Los resultados de los experimentos muestran que el uso de la detección de palabras clave en conjunto con las funciones de etiquetado del modelo sin datos es significativamente mejor que el uso solo de las funciones de etiquetado de detección de palabras clave o solo las funciones de etiquetado del modelo sin datos. Además, para el número total de etiquetas generadas, la diferencia entre el uso del idioma árabe en ambas etiquetas y en la indicación o una mezcla de etiquetas en árabe y una indicación en inglés es estadísticamente significativa, lo que indica que genera más etiquetas que cuando se utiliza inglés en ambas etiquetas y en la indicación. La mejor precisión lograda en nuestros experimentos en términos de los valores de Macro-F1 se encontró al usar las funciones de etiquetado de detección de palabras clave y hashtags en conjunto con las funciones de etiquetado del modelo sin datos, específicamente en los experimentos KHZSLF-EE4 y KHZSLF-EA1, con valores de 0.83 y 0.83, respectivamente. El experimento KHZSLF-EE4 pudo etiquetar 42,270 tweets, mientras que el experimento KHZSLF-EA1 pudo etiquetar 42,764 tweets. Finalmente, el valor promedio del acuerdo de anotación entre las etiquetas generadas y las etiquetas humanas oscila entre 0.61 y 0.64, lo que se considera un buen nivel de acuerdo.

Otros recursos que podrían interesarte

Temas Virtualpro