Aprendizaje de pocas muestras para la detección de desinformación basado en modelos contrastivos
Autores: Zheng, Peng; Chen, Hao; Hu, Shu; Zhu, Bin; Hu, Jinrong; Lin, Ching-Sheng; Wu, Xi; Lyu, Siwei; Huang, Guo; Wang, Xin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje de pocas muestras para la detección de desinformación basado en modelos contrastivos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Desarrollo
Noticias falsas
Redes sociales
Métodos supervisados
Pares de texto-imagen
Aprendizaje contrastivo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Con el desarrollo de las redes sociales, la cantidad de noticias falsas ha aumentado significativamente y ha tenido un gran impacto tanto en individuos como en la sociedad. Las restricciones impuestas por los censores dificultan la presentación objetiva de noticias. La mayoría de los estudios utilizan métodos supervisados, dependiendo de una gran cantidad de datos etiquetados para la detección de noticias falsas, lo que dificulta la efectividad de la detección. Mientras tanto, el enfoque de estos estudios se centra en la detección de noticias falsas en una sola modalidad, ya sea texto o imágenes, pero las noticias falsas reales suelen estar más a menudo en forma de pares texto-imagen. En este documento, presentamos un modelo auto-supervisado fundamentado en el aprendizaje contrastivo. Este modelo facilita la extracción simultánea de características tanto para texto como para imágenes mediante el uso de un emparejamiento gráfico de producto punto. A través del aprendizaje contrastivo, aumenta la capacidad de extracción de características de la imagen, lo que conduce a una capacidad de extracción de características visuales robusta con requisitos reducidos de datos de entrenamiento. La efectividad del modelo fue evaluada frente a la línea base utilizando el conjunto de datos de noticias falsas COSMOS. Los experimentos revelan que, al detectar noticias falsas con pares texto-imagen no coincidentes, solo se utiliza aproximadamente el 3% de los datos para el entrenamiento. El modelo logra una precisión del 80%, equivalente al 95% del rendimiento del modelo original utilizando datos de tamaño completo para el entrenamiento. Especialmente, reemplazar la capa de codificación de texto mejora la estabilidad experimental, proporcionando una ventaja sustancial sobre el modelo original, específicamente en el conjunto de datos COSMOS.
Descripción
Con el desarrollo de las redes sociales, la cantidad de noticias falsas ha aumentado significativamente y ha tenido un gran impacto tanto en individuos como en la sociedad. Las restricciones impuestas por los censores dificultan la presentación objetiva de noticias. La mayoría de los estudios utilizan métodos supervisados, dependiendo de una gran cantidad de datos etiquetados para la detección de noticias falsas, lo que dificulta la efectividad de la detección. Mientras tanto, el enfoque de estos estudios se centra en la detección de noticias falsas en una sola modalidad, ya sea texto o imágenes, pero las noticias falsas reales suelen estar más a menudo en forma de pares texto-imagen. En este documento, presentamos un modelo auto-supervisado fundamentado en el aprendizaje contrastivo. Este modelo facilita la extracción simultánea de características tanto para texto como para imágenes mediante el uso de un emparejamiento gráfico de producto punto. A través del aprendizaje contrastivo, aumenta la capacidad de extracción de características de la imagen, lo que conduce a una capacidad de extracción de características visuales robusta con requisitos reducidos de datos de entrenamiento. La efectividad del modelo fue evaluada frente a la línea base utilizando el conjunto de datos de noticias falsas COSMOS. Los experimentos revelan que, al detectar noticias falsas con pares texto-imagen no coincidentes, solo se utiliza aproximadamente el 3% de los datos para el entrenamiento. El modelo logra una precisión del 80%, equivalente al 95% del rendimiento del modelo original utilizando datos de tamaño completo para el entrenamiento. Especialmente, reemplazar la capa de codificación de texto mejora la estabilidad experimental, proporcionando una ventaja sustancial sobre el modelo original, específicamente en el conjunto de datos COSMOS.