Q8VaxStance: sistema de etiquetado de conjuntos de datos para la detección de posturas hacia las vacunas en el dialecto kuwaití

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Q8VaxStance: sistema de etiquetado de conjuntos de datos para la detección de posturas hacia las vacunas en el dialecto kuwaití

Autores: Alostad, Hana; Dawiek, Shoug; Davulcu, Hasan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Q8VaxStance: sistema de etiquetado de conjuntos de datos para la detección de posturas hacia las vacunas en el dialecto kuwaití

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Dialecto kuwaití

Investigación de procesamiento del lenguaje natural

Q8vaxstance

Reticencia a la vacuna

Modelos de aprendizaje automático

Detección de palabras clave

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

El dialecto kuwaití es un dialecto particular del árabe hablado en Kuwait; difiere significativamente del árabe estándar y de los dialectos de los países vecinos en la misma región. Pocos trabajos de investigación con enfoque en el dialecto kuwaití se han publicado en el campo del Procesamiento del Lenguaje Natural. En este estudio, creamos recursos lingüísticos del dialecto kuwaití utilizando Q8VaxStance, un sistema de etiquetado de postura sobre vacunas para un gran conjunto de datos de tweets. Este conjunto de datos llena este vacío y proporciona un recurso valioso para los investigadores que estudian la reticencia a las vacunas en Kuwait. Además, contribuye al campo del procesamiento del lenguaje natural en árabe al proporcionar un conjunto de datos para desarrollar y evaluar modelos de aprendizaje automático para la detección de posturas en el dialecto kuwaití. El sistema propuesto de etiquetado de posturas sobre vacunas combina los beneficios del aprendizaje supervisado débil y del aprendizaje sin datos; para este propósito, implementamos 52 experimentos en 42,815 tweets no etiquetados extraídos entre diciembre de 2020 y julio de 2022. Los resultados de los experimentos muestran que el uso de la detección de palabras clave en conjunto con las funciones de etiquetado del modelo sin datos es significativamente mejor que el uso solo de las funciones de etiquetado de detección de palabras clave o solo las funciones de etiquetado del modelo sin datos. Además, para el número total de etiquetas generadas, la diferencia entre el uso del idioma árabe en ambas etiquetas y en la indicación o una mezcla de etiquetas en árabe y una indicación en inglés es estadísticamente significativa, lo que indica que genera más etiquetas que cuando se utiliza inglés en ambas etiquetas y en la indicación. La mejor precisión lograda en nuestros experimentos en términos de los valores de Macro-F1 se encontró al usar las funciones de etiquetado de detección de palabras clave y hashtags en conjunto con las funciones de etiquetado del modelo sin datos, específicamente en los experimentos KHZSLF-EE4 y KHZSLF-EA1, con valores de 0.83 y 0.83, respectivamente. El experimento KHZSLF-EE4 pudo etiquetar 42,270 tweets, mientras que el experimento KHZSLF-EA1 pudo etiquetar 42,764 tweets. Finalmente, el valor promedio del acuerdo de anotación entre las etiquetas generadas y las etiquetas humanas oscila entre 0.61 y 0.64, lo que se considera un buen nivel de acuerdo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro