Bertguard: detección de noticias falsas de múltiples dominios de dos niveles con mitigación de desequilibrio de clases
Autores: Alnabhan, Mohammad Q.; Branco, Paula
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Bertguard: detección de noticias falsas de múltiples dominios de dos niveles con mitigación de desequilibrio de clases
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Desinformación
Noticias falsas
Multidominio
Detección
BERTGuard
Conjuntos de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 52
Citaciones: Sin citaciones
En una era donde la desinformación y las noticias falsas socavan el bienestar social, este trabajo proporciona un enfoque completo para la detección de noticias falsas en múltiples dominios. Las noticias de múltiples dominios se refieren al manejo de contenido diverso en diversas áreas temáticas como política, salud, investigación, crimen y preocupaciones sociales. Reconociendo la falta de investigación sistemática en la detección de noticias falsas en múltiples dominios, presentamos una estructura fundamental combinando conjuntos de datos de varios dominios de noticias. Nuestro enfoque de detección de dos niveles, BERTGuard, comienza con la clasificación de dominios, que utiliza un modelo basado en BERT entrenado en un conjunto de datos combinado de múltiples dominios para determinar el dominio de una pieza de noticias dada. A continuación, modelos BERT específicos del dominio evalúan la corrección de las noticias dentro de cada dominio designado, asegurando precisión y confiabilidad adaptadas a las características únicas de cada dominio. Las pruebas rigurosas en conjuntos de datos previamente encontrados en áreas críticas de la vida como política, salud, investigación, crimen y sociedad demuestran el rendimiento y la generalización del sistema. Para abordar los desafíos de desequilibrio de clases inherentes al combinar conjuntos de datos, nuestro estudio evalúa rigurosamente el impacto en la precisión de la detección y explora alternativas de manejo -sobremuestreo aleatorio, sobre-muestreo aleatorio y ajuste de peso de clase. Estos criterios proporcionan bases para la comparación, fortaleciendo el sistema de detección contra las complejidades de los conjuntos de datos desequilibrados.
Descripción
En una era donde la desinformación y las noticias falsas socavan el bienestar social, este trabajo proporciona un enfoque completo para la detección de noticias falsas en múltiples dominios. Las noticias de múltiples dominios se refieren al manejo de contenido diverso en diversas áreas temáticas como política, salud, investigación, crimen y preocupaciones sociales. Reconociendo la falta de investigación sistemática en la detección de noticias falsas en múltiples dominios, presentamos una estructura fundamental combinando conjuntos de datos de varios dominios de noticias. Nuestro enfoque de detección de dos niveles, BERTGuard, comienza con la clasificación de dominios, que utiliza un modelo basado en BERT entrenado en un conjunto de datos combinado de múltiples dominios para determinar el dominio de una pieza de noticias dada. A continuación, modelos BERT específicos del dominio evalúan la corrección de las noticias dentro de cada dominio designado, asegurando precisión y confiabilidad adaptadas a las características únicas de cada dominio. Las pruebas rigurosas en conjuntos de datos previamente encontrados en áreas críticas de la vida como política, salud, investigación, crimen y sociedad demuestran el rendimiento y la generalización del sistema. Para abordar los desafíos de desequilibrio de clases inherentes al combinar conjuntos de datos, nuestro estudio evalúa rigurosamente el impacto en la precisión de la detección y explora alternativas de manejo -sobremuestreo aleatorio, sobre-muestreo aleatorio y ajuste de peso de clase. Estos criterios proporcionan bases para la comparación, fortaleciendo el sistema de detección contra las complejidades de los conjuntos de datos desequilibrados.