Modelo de lenguaje pre-entrenado en conjunto para la detección de noticias falsas en árabe
Autores: Al-Zahrani, Lama; Al-Yahya, Maha
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Modelo de lenguaje pre-entrenado en conjunto para la detección de noticias falsas en árabe
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Detección de noticias falsas
Contenido en árabe
Modelos basados en transformadores
Enfoques de conjunto
Precisión de predicción
Conjunto de datos AMFND
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
La detección de noticias falsas (FND) sigue siendo un desafío debido a sus fuentes vastas y variadas, especialmente en plataformas de redes sociales. Aunque se han realizado numerosos intentos por parte de la academia y la industria para desarrollar sistemas de detección de noticias falsas, la investigación sobre contenido árabe sigue siendo limitada. Este estudio investiga modelos de lenguaje basados en transformadores para la FND árabe. Aunque los modelos basados en transformadores han mostrado un rendimiento prometedor en diversas tareas de procesamiento de lenguaje natural, a menudo tienen dificultades con tareas que involucran patrones lingüísticos complejos y contextos culturales, lo que resulta en un rendimiento poco fiable y problemas de clasificación errónea. Para superar estos desafíos, investigamos un conjunto de modelos basados en transformadores. Experimentamos con cinco modelos transformadores árabes: AraBERT, MARBERT, AraELECTRA, AraGPT2 y ARBERT. Se evaluaron varios enfoques de conjunto, incluyendo un conjunto de promedio ponderado, votación dura y votación suave, para determinar las técnicas más efectivas para impulsar los modelos de aprendizaje y mejorar las precisión de las predicciones. Los resultados de este estudio demuestran la efectividad de los modelos de conjunto en impulsar significativamente el rendimiento del modelo base. Un hallazgo importante es que los modelos de conjunto lograron un excelente rendimiento en el conjunto de datos de Detección de Noticias Falsas Multiorigen Árabe (AMFND), alcanzando un puntaje F1 del 94% utilizando promedios ponderados. Además, cambiar el número de modelos en el conjunto tiene un ligero efecto en el rendimiento. Estos hallazgos clave contribuyen al avance de la detección de noticias falsas en árabe, ofreciendo ideas valiosas tanto para la academia como para la industria.
Descripción
La detección de noticias falsas (FND) sigue siendo un desafío debido a sus fuentes vastas y variadas, especialmente en plataformas de redes sociales. Aunque se han realizado numerosos intentos por parte de la academia y la industria para desarrollar sistemas de detección de noticias falsas, la investigación sobre contenido árabe sigue siendo limitada. Este estudio investiga modelos de lenguaje basados en transformadores para la FND árabe. Aunque los modelos basados en transformadores han mostrado un rendimiento prometedor en diversas tareas de procesamiento de lenguaje natural, a menudo tienen dificultades con tareas que involucran patrones lingüísticos complejos y contextos culturales, lo que resulta en un rendimiento poco fiable y problemas de clasificación errónea. Para superar estos desafíos, investigamos un conjunto de modelos basados en transformadores. Experimentamos con cinco modelos transformadores árabes: AraBERT, MARBERT, AraELECTRA, AraGPT2 y ARBERT. Se evaluaron varios enfoques de conjunto, incluyendo un conjunto de promedio ponderado, votación dura y votación suave, para determinar las técnicas más efectivas para impulsar los modelos de aprendizaje y mejorar las precisión de las predicciones. Los resultados de este estudio demuestran la efectividad de los modelos de conjunto en impulsar significativamente el rendimiento del modelo base. Un hallazgo importante es que los modelos de conjunto lograron un excelente rendimiento en el conjunto de datos de Detección de Noticias Falsas Multiorigen Árabe (AMFND), alcanzando un puntaje F1 del 94% utilizando promedios ponderados. Además, cambiar el número de modelos en el conjunto tiene un ligero efecto en el rendimiento. Estos hallazgos clave contribuyen al avance de la detección de noticias falsas en árabe, ofreciendo ideas valiosas tanto para la academia como para la industria.