Detección de Difusores de Noticias Falsas: A veces la Atención No Es Todo lo Que Necesitas
Autores: Siino, Marco; Di Nuovo, Elisa; Tinnirello, Ilenia; La Cascia, Marco
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Detección de Difusores de Noticias Falsas: A veces la Atención No Es Todo lo Que Necesitas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Transformadores
Difusores de noticias falsas
Modelos
Lingüística de corpus
Procesamiento de lenguaje natural
Conjunto de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Guiados por un enfoque de lingüística de corpus, en este artículo presentamos una evaluación comparativa de modelos de última generación (SotA), con un enfoque especial en Transformers, para abordar la tarea de detección de difusores de noticias falsas (es decir, usuarios que comparten noticias falsas). Primero, exploramos el conjunto de datos multilingüe de referencia para la tarea considerada, aprovechando técnicas de lingüística de corpus, como la prueba de chi-cuadrado, palabras clave y Word Sketch. En segundo lugar, realizamos experimentos en varios modelos de procesamiento de lenguaje natural. En tercer lugar, llevamos a cabo una evaluación comparativa utilizando los modelos más recientes basados en Transformers (RoBERTa, DistilBERT, BERT, XLNet, ELECTRA, Longformer) y otros modelos SotA profundos y no profundos (CNN, MultiCNN, Bayes, SVM). La CNN probada supera a todos los modelos evaluados y, hasta donde sabemos, a cualquier enfoque existente en el mismo conjunto de datos. En cuarto lugar, para comprender mejor este resultado, realizamos un análisis post-hoc como un intento de investigar el comportamiento del modelo de caja negra de mejor rendimiento presentado. Este estudio destaca la importancia de elegir un clasificador adecuado dado el tarea específica. Para tomar una decisión informada, proponemos el uso de técnicas de lingüística de corpus. Nuestros resultados sugieren que los grandes modelos profundos preentrenados como Transformers no son necesariamente la primera opción al abordar una tarea de clasificación de texto como la presentada en este artículo. Todo el código desarrollado para ejecutar nuestras pruebas está disponible públicamente en GitHub.
Descripción
Guiados por un enfoque de lingüística de corpus, en este artículo presentamos una evaluación comparativa de modelos de última generación (SotA), con un enfoque especial en Transformers, para abordar la tarea de detección de difusores de noticias falsas (es decir, usuarios que comparten noticias falsas). Primero, exploramos el conjunto de datos multilingüe de referencia para la tarea considerada, aprovechando técnicas de lingüística de corpus, como la prueba de chi-cuadrado, palabras clave y Word Sketch. En segundo lugar, realizamos experimentos en varios modelos de procesamiento de lenguaje natural. En tercer lugar, llevamos a cabo una evaluación comparativa utilizando los modelos más recientes basados en Transformers (RoBERTa, DistilBERT, BERT, XLNet, ELECTRA, Longformer) y otros modelos SotA profundos y no profundos (CNN, MultiCNN, Bayes, SVM). La CNN probada supera a todos los modelos evaluados y, hasta donde sabemos, a cualquier enfoque existente en el mismo conjunto de datos. En cuarto lugar, para comprender mejor este resultado, realizamos un análisis post-hoc como un intento de investigar el comportamiento del modelo de caja negra de mejor rendimiento presentado. Este estudio destaca la importancia de elegir un clasificador adecuado dado el tarea específica. Para tomar una decisión informada, proponemos el uso de técnicas de lingüística de corpus. Nuestros resultados sugieren que los grandes modelos profundos preentrenados como Transformers no son necesariamente la primera opción al abordar una tarea de clasificación de texto como la presentada en este artículo. Todo el código desarrollado para ejecutar nuestras pruebas está disponible públicamente en GitHub.