Tb-bcg: generador de contramedidas bart basado en temas para la detección de noticias falsas
Autores: Karnyoto, Andrea Stevens; Sun, Chengjie; Liu, Bingquan; Wang, Xiaolong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Tb-bcg: generador de contramedidas bart basado en temas para la detección de noticias falsas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Noticias falsas
Precisión de detección
Aprendizaje profundo
Generador de falsificaciones
Conjunto de datos
Datos de entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Las noticias falsas se han estado propagando intencionalmente y engañando a la sociedad para que crea información no confirmada; este fenómeno dificulta identificar las noticias falsas basadas en el contenido compartido. La circulación de noticias falsas no es solo un problema actual, sino que se ha diseminado durante siglos. Lidiar con las noticias falsas es una tarea desafiante porque se propagan masivamente. Por lo tanto, la detección automática de noticias falsas es necesaria con urgencia. Introdujimos TB-BCG, Generador Falso de BART Basado en Temas, para aumentar la precisión de detección utilizando aprendizaje profundo. Este enfoque juega un papel esencial en la selección de filas de datos afectadas y agregando más datos de entrenamiento. Nuestra investigación implementó Asignación Latente de Dirichlet (basada en temas), Transformadores Bidireccionales y Autoregresivos (BART) y Similitud de Documentos Coseno como las principales herramientas involucradas en la tarea compartida de detección de noticias falsas Constraint @ AAAI2021-COVID19. Este documento expone esta idea simple pero poderosa al seleccionar un conjunto de datos basado en tema y ordenarlo según datos distintivos, generando datos de entrenamiento falsos utilizando BART y comparando el texto generado falso con el texto fuente usando similitud de coseno. Si el valor de comparación entre el texto generado falso y el texto fuente es superior al 95%, entonces se agrega ese texto generado falso al conjunto de datos. Para demostrar la resistencia de la precisión y la robustez en varios números de datos de entrenamiento, utilizamos el 30%, 50%, 80% y 100% del conjunto de datos total y lo entrenamos utilizando una red neuronal de memoria a corto y largo plazo (LSTM) y una red neuronal convolucional (CNN). En comparación con el método de referencia, nuestro método mejoró el rendimiento de prueba tanto para LSTM como para CNN, y los resultados son solo ligeramente diferentes.
Descripción
Las noticias falsas se han estado propagando intencionalmente y engañando a la sociedad para que crea información no confirmada; este fenómeno dificulta identificar las noticias falsas basadas en el contenido compartido. La circulación de noticias falsas no es solo un problema actual, sino que se ha diseminado durante siglos. Lidiar con las noticias falsas es una tarea desafiante porque se propagan masivamente. Por lo tanto, la detección automática de noticias falsas es necesaria con urgencia. Introdujimos TB-BCG, Generador Falso de BART Basado en Temas, para aumentar la precisión de detección utilizando aprendizaje profundo. Este enfoque juega un papel esencial en la selección de filas de datos afectadas y agregando más datos de entrenamiento. Nuestra investigación implementó Asignación Latente de Dirichlet (basada en temas), Transformadores Bidireccionales y Autoregresivos (BART) y Similitud de Documentos Coseno como las principales herramientas involucradas en la tarea compartida de detección de noticias falsas Constraint @ AAAI2021-COVID19. Este documento expone esta idea simple pero poderosa al seleccionar un conjunto de datos basado en tema y ordenarlo según datos distintivos, generando datos de entrenamiento falsos utilizando BART y comparando el texto generado falso con el texto fuente usando similitud de coseno. Si el valor de comparación entre el texto generado falso y el texto fuente es superior al 95%, entonces se agrega ese texto generado falso al conjunto de datos. Para demostrar la resistencia de la precisión y la robustez en varios números de datos de entrenamiento, utilizamos el 30%, 50%, 80% y 100% del conjunto de datos total y lo entrenamos utilizando una red neuronal de memoria a corto y largo plazo (LSTM) y una red neuronal convolucional (CNN). En comparación con el método de referencia, nuestro método mejoró el rendimiento de prueba tanto para LSTM como para CNN, y los resultados son solo ligeramente diferentes.