Misrobaerta: Transformers versus desinformación
Autores: Truic, Ciprian-Octavian; Apostol, Elena-Simona
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Misrobaerta: Transformers versus desinformación
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desinformación
Transformadores
Aprendizaje por transferencia
Redes sociales
Noticias falsas
Detección
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La desinformación se considera una amenaza para nuestros valores y principios democráticos. La propagación de dicho contenido en las redes sociales polariza la sociedad y socava el discurso público al distorsionar las percepciones públicas y generar malestar social, careciendo de la rigurosidad del periodismo tradicional. Transformers y el aprendizaje por transferencia demostraron ser métodos de vanguardia para múltiples tareas conocidas de procesamiento de lenguaje natural. En este documento, proponemos MisRoBÆRTa, una novedosa arquitectura de conjunto de redes neuronales profundas basada en transformers para la detección de desinformación. MisRoBÆRTa aprovecha dos transformers de vanguardia, es decir, BART y RoBERTa, para mejorar el rendimiento en la discriminación entre noticias reales y diferentes tipos de noticias falsas. También comparamos y evaluamos el rendimiento de varios transformers en la tarea de detección de desinformación. Para el entrenamiento y la prueba, utilizamos un gran conjunto de datos de artículos de noticias del mundo real (es decir, 100,000 registros) etiquetados con 10 clases, abordando así dos deficiencias en la investigación actual: () aumentar el tamaño del conjunto de datos de pequeño a grande, y () cambiar el enfoque de la detección de noticias falsas de clasificación binaria a clasificación multiclase. Para este conjunto de datos, verificamos manualmente el contenido de los artículos de noticias para asegurarnos de que estuvieran etiquetados correctamente. Los resultados experimentales muestran que la precisión de los transformers en el problema de detección de desinformación fue significativamente influenciada por el método utilizado para aprender el contexto, el tamaño del conjunto de datos y la dimensión del vocabulario. Observamos empíricamente que el mejor rendimiento de precisión entre los modelos de clasificación que utilizan solo un transformer se obtiene con BART, mientras que DistilRoBERTa obtiene la mejor precisión en la menor cantidad de tiempo requerida para el ajuste fino y el entrenamiento. Sin embargo, el MisRoBÆRTa propuesto supera a los otros modelos de transformer en la tarea de detección de desinformación. Para llegar a esta conclusión, realizamos amplias pruebas de ablación y sensibilidad con MisRoBÆRTa en dos conjuntos de datos.
Descripción
La desinformación se considera una amenaza para nuestros valores y principios democráticos. La propagación de dicho contenido en las redes sociales polariza la sociedad y socava el discurso público al distorsionar las percepciones públicas y generar malestar social, careciendo de la rigurosidad del periodismo tradicional. Transformers y el aprendizaje por transferencia demostraron ser métodos de vanguardia para múltiples tareas conocidas de procesamiento de lenguaje natural. En este documento, proponemos MisRoBÆRTa, una novedosa arquitectura de conjunto de redes neuronales profundas basada en transformers para la detección de desinformación. MisRoBÆRTa aprovecha dos transformers de vanguardia, es decir, BART y RoBERTa, para mejorar el rendimiento en la discriminación entre noticias reales y diferentes tipos de noticias falsas. También comparamos y evaluamos el rendimiento de varios transformers en la tarea de detección de desinformación. Para el entrenamiento y la prueba, utilizamos un gran conjunto de datos de artículos de noticias del mundo real (es decir, 100,000 registros) etiquetados con 10 clases, abordando así dos deficiencias en la investigación actual: () aumentar el tamaño del conjunto de datos de pequeño a grande, y () cambiar el enfoque de la detección de noticias falsas de clasificación binaria a clasificación multiclase. Para este conjunto de datos, verificamos manualmente el contenido de los artículos de noticias para asegurarnos de que estuvieran etiquetados correctamente. Los resultados experimentales muestran que la precisión de los transformers en el problema de detección de desinformación fue significativamente influenciada por el método utilizado para aprender el contexto, el tamaño del conjunto de datos y la dimensión del vocabulario. Observamos empíricamente que el mejor rendimiento de precisión entre los modelos de clasificación que utilizan solo un transformer se obtiene con BART, mientras que DistilRoBERTa obtiene la mejor precisión en la menor cantidad de tiempo requerida para el ajuste fino y el entrenamiento. Sin embargo, el MisRoBÆRTa propuesto supera a los otros modelos de transformer en la tarea de detección de desinformación. Para llegar a esta conclusión, realizamos amplias pruebas de ablación y sensibilidad con MisRoBÆRTa en dos conjuntos de datos.