Steducov: un conjunto de datos explorado y evaluado sobre la detección de posturas en tweets hacia la educación en línea durante la pandemia de COVID-19
Autores: Hamad, Omama; Hamdi, Ali; Hamdi, Sayed; Shaban, Khaled
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Steducov: un conjunto de datos explorado y evaluado sobre la detección de posturas en tweets hacia la educación en línea durante la pandemia de COVID-19
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Conjunto de datos
StEduCov
Tweets
Análisis
Educación en línea
COVID-19
Pandemia
Modelos de aprendizaje automático
Aprendizaje profundo
Comparación
Clases
Precisión
Validación cruzada
Aprendizaje por transferencia
Dominios específicos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
En este documento, presentamos StEduCov, un conjunto de datos anotado para el análisis de posturas hacia la educación en línea durante la pandemia de COVID-19. StEduCov consta de 16,572 tweets recopilados durante 15 meses, de marzo de 2020 a mayo de 2021, utilizando la API de Twitter. Los tweets fueron anotados manualmente en las clases de acuerdo, desacuerdo o neutral. Realizamos una evaluación comparativa en el conjunto de datos utilizando modelos de aprendizaje automático de vanguardia y tradicionales. Específicamente, entrenamos modelos de aprendizaje profundo: representaciones de codificadores bidireccionales de transformadores, memoria a corto plazo, redes neuronales convolucionales, biLSTM basadas en atención y Naive Bayes SVM, además de Naive Bayes, regresión logística, máquinas de vectores de soporte, árboles de decisión, vecinos más cercanos y bosques aleatorios. La precisión promedio en la validación cruzada de 10 pliegues de estos modelos osciló entre 75% y % y entre % y 68% para clasificaciones de posturas binarias y multiclase, respectivamente. El rendimiento se vio afectado por altas superposiciones de vocabulario entre las clases y una transferencia de aprendizaje poco fiable utilizando modelos profundos preentrenados en textos generales en relación con dominios específicos como COVID-19 y la educación a distancia.
Descripción
En este documento, presentamos StEduCov, un conjunto de datos anotado para el análisis de posturas hacia la educación en línea durante la pandemia de COVID-19. StEduCov consta de 16,572 tweets recopilados durante 15 meses, de marzo de 2020 a mayo de 2021, utilizando la API de Twitter. Los tweets fueron anotados manualmente en las clases de acuerdo, desacuerdo o neutral. Realizamos una evaluación comparativa en el conjunto de datos utilizando modelos de aprendizaje automático de vanguardia y tradicionales. Específicamente, entrenamos modelos de aprendizaje profundo: representaciones de codificadores bidireccionales de transformadores, memoria a corto plazo, redes neuronales convolucionales, biLSTM basadas en atención y Naive Bayes SVM, además de Naive Bayes, regresión logística, máquinas de vectores de soporte, árboles de decisión, vecinos más cercanos y bosques aleatorios. La precisión promedio en la validación cruzada de 10 pliegues de estos modelos osciló entre 75% y % y entre % y 68% para clasificaciones de posturas binarias y multiclase, respectivamente. El rendimiento se vio afectado por altas superposiciones de vocabulario entre las clases y una transferencia de aprendizaje poco fiable utilizando modelos profundos preentrenados en textos generales en relación con dominios específicos como COVID-19 y la educación a distancia.