logo móvil
Contáctanos

Tb-bcg: generador de contramedidas bart basado en temas para la detección de noticias falsas

Autores: Karnyoto, Andrea Stevens; Sun, Chengjie; Liu, Bingquan; Wang, Xiaolong

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Tb-bcg: generador de contramedidas bart basado en temas para la detección de noticias falsas


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Noticias falsas
Precisión de detección
Aprendizaje profundo
Generador de falsificaciones
Conjunto de datos
Datos de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
Las noticias falsas se han estado propagando intencionalmente y engañando a la sociedad para que crea información no confirmada; este fenómeno dificulta identificar las noticias falsas basadas en el contenido compartido. La circulación de noticias falsas no es solo un problema actual, sino que se ha diseminado durante siglos. Lidiar con las noticias falsas es una tarea desafiante porque se propagan masivamente. Por lo tanto, la detección automática de noticias falsas es necesaria con urgencia. Introdujimos TB-BCG, Generador Falso de BART Basado en Temas, para aumentar la precisión de detección utilizando aprendizaje profundo. Este enfoque juega un papel esencial en la selección de filas de datos afectadas y agregando más datos de entrenamiento. Nuestra investigación implementó Asignación Latente de Dirichlet (basada en temas), Transformadores Bidireccionales y Autoregresivos (BART) y Similitud de Documentos Coseno como las principales herramientas involucradas en la tarea compartida de detección de noticias falsas Constraint @ AAAI2021-COVID19. Este documento expone esta idea simple pero poderosa al seleccionar un conjunto de datos basado en tema y ordenarlo según datos distintivos, generando datos de entrenamiento falsos utilizando BART y comparando el texto generado falso con el texto fuente usando similitud de coseno. Si el valor de comparación entre el texto generado falso y el texto fuente es superior al 95%, entonces se agrega ese texto generado falso al conjunto de datos. Para demostrar la resistencia de la precisión y la robustez en varios números de datos de entrenamiento, utilizamos el 30%, 50%, 80% y 100% del conjunto de datos total y lo entrenamos utilizando una red neuronal de memoria a corto y largo plazo (LSTM) y una red neuronal convolucional (CNN). En comparación con el método de referencia, nuestro método mejoró el rendimiento de prueba tanto para LSTM como para CNN, y los resultados son solo ligeramente diferentes.

Otros recursos que podrían interesarte

Temas Virtualpro