El Corpus PolitiFact-Oslo: Un Nuevo Conjunto de Datos para el Análisis y Detección de Noticias Falsas
Autores: Põldvere, Nele; Uddin, Zia; Thomas, Aleena
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
El Corpus PolitiFact-Oslo: Un Nuevo Conjunto de Datos para el Análisis y Detección de Noticias Falsas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estudio
Conjunto de datos
Análisis de noticias falsas
Detección
Corpus PolitiFact-Oslo
Veracidad
Metadatos
Sentimiento
Parte del habla
Información contextual
Detección automática
Enfoques basados en aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este estudio presenta un nuevo conjunto de datos para el análisis y detección de noticias falsas, a saber, el Corpus PolitiFact-Oslo. El corpus contiene muestras de noticias falsas y reales en inglés, recopiladas del sitio web de verificación de hechos PolitiFact.com. Surgió de la necesidad de un conjunto de datos más controlado y efectivo para el desarrollo de modelos de análisis y detección de noticias falsas basados en eventos recientes. Tres características lo hacen especialmente adecuado para esto: (i) los textos han sido etiquetados individualmente por expertos en cuanto a su veracidad, (ii) son textos completos que corresponden estrictamente a las afirmaciones en cuestión, y (iii) están acompañados de metadatos importantes como el tipo de texto (por ejemplo, redes sociales, noticias y blogs). En relación con esto, presentamos un proceso para recopilar datos de calidad de los principales sitios web de verificación de hechos, un procedimiento que puede ser replicado en futuros esfuerzos de construcción de corpus. Un análisis exploratorio basado en información de sentimiento y partes del habla revela diferencias interesantes entre noticias falsas y reales, así como entre tipos de texto, destacando así la importancia de agregar información contextual a los corpus de noticias falsas. Dado que la aplicación principal del Corpus PolitiFact-Oslo es en la detección automática de noticias falsas, examinamos críticamente la aplicabilidad del corpus y otro conjunto de datos de PolitiFact construido con criterios menos estrictos para varios enfoques eficientes basados en aprendizaje profundo, como Memoria a Largo Plazo Bidireccional (Bi-LSTM), transformadores ajustados de LSTM como Representaciones de Codificador Bidireccionales de Transformadores (BERT) y RoBERTa, y XLNet.
Descripción
Este estudio presenta un nuevo conjunto de datos para el análisis y detección de noticias falsas, a saber, el Corpus PolitiFact-Oslo. El corpus contiene muestras de noticias falsas y reales en inglés, recopiladas del sitio web de verificación de hechos PolitiFact.com. Surgió de la necesidad de un conjunto de datos más controlado y efectivo para el desarrollo de modelos de análisis y detección de noticias falsas basados en eventos recientes. Tres características lo hacen especialmente adecuado para esto: (i) los textos han sido etiquetados individualmente por expertos en cuanto a su veracidad, (ii) son textos completos que corresponden estrictamente a las afirmaciones en cuestión, y (iii) están acompañados de metadatos importantes como el tipo de texto (por ejemplo, redes sociales, noticias y blogs). En relación con esto, presentamos un proceso para recopilar datos de calidad de los principales sitios web de verificación de hechos, un procedimiento que puede ser replicado en futuros esfuerzos de construcción de corpus. Un análisis exploratorio basado en información de sentimiento y partes del habla revela diferencias interesantes entre noticias falsas y reales, así como entre tipos de texto, destacando así la importancia de agregar información contextual a los corpus de noticias falsas. Dado que la aplicación principal del Corpus PolitiFact-Oslo es en la detección automática de noticias falsas, examinamos críticamente la aplicabilidad del corpus y otro conjunto de datos de PolitiFact construido con criterios menos estrictos para varios enfoques eficientes basados en aprendizaje profundo, como Memoria a Largo Plazo Bidireccional (Bi-LSTM), transformadores ajustados de LSTM como Representaciones de Codificador Bidireccionales de Transformadores (BERT) y RoBERTa, y XLNet.