logo móvil
Contáctanos

El Corpus PolitiFact-Oslo: Un Nuevo Conjunto de Datos para el Análisis y Detección de Noticias Falsas

Autores: Põldvere, Nele; Uddin, Zia; Thomas, Aleena

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

El Corpus PolitiFact-Oslo: Un Nuevo Conjunto de Datos para el Análisis y Detección de Noticias Falsas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Estudio
Conjunto de datos
Análisis de noticias falsas
Detección
Corpus PolitiFact-Oslo
Veracidad
Metadatos
Sentimiento
Parte del habla
Información contextual
Detección automática
Enfoques basados en aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este estudio presenta un nuevo conjunto de datos para el análisis y detección de noticias falsas, a saber, el Corpus PolitiFact-Oslo. El corpus contiene muestras de noticias falsas y reales en inglés, recopiladas del sitio web de verificación de hechos PolitiFact.com. Surgió de la necesidad de un conjunto de datos más controlado y efectivo para el desarrollo de modelos de análisis y detección de noticias falsas basados en eventos recientes. Tres características lo hacen especialmente adecuado para esto: (i) los textos han sido etiquetados individualmente por expertos en cuanto a su veracidad, (ii) son textos completos que corresponden estrictamente a las afirmaciones en cuestión, y (iii) están acompañados de metadatos importantes como el tipo de texto (por ejemplo, redes sociales, noticias y blogs). En relación con esto, presentamos un proceso para recopilar datos de calidad de los principales sitios web de verificación de hechos, un procedimiento que puede ser replicado en futuros esfuerzos de construcción de corpus. Un análisis exploratorio basado en información de sentimiento y partes del habla revela diferencias interesantes entre noticias falsas y reales, así como entre tipos de texto, destacando así la importancia de agregar información contextual a los corpus de noticias falsas. Dado que la aplicación principal del Corpus PolitiFact-Oslo es en la detección automática de noticias falsas, examinamos críticamente la aplicabilidad del corpus y otro conjunto de datos de PolitiFact construido con criterios menos estrictos para varios enfoques eficientes basados en aprendizaje profundo, como Memoria a Largo Plazo Bidireccional (Bi-LSTM), transformadores ajustados de LSTM como Representaciones de Codificador Bidireccionales de Transformadores (BERT) y RoBERTa, y XLNet.

Otros recursos que podrían interesarte

Temas Virtualpro