Detección de información falsa a través de la fusión de características multimodales y la predicción híbrida de múltiples clasificadores
Autores: Liang, Yi; Tohti, Turdi; Hamdulla, Askar
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Detección de información falsa a través de la fusión de características multimodales y la predicción híbrida de múltiples clasificadores
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Métodos de detección de información falsa existentes
Características de una sola modalidad
Fusión de características multimodales
Predicción híbrida de múltiples clasificadores
Representaciones codificadoras bidireccionales
Transformador S win
Autoencoder profundo
Características conjuntas
Multimodalidades
Información original
Distribuciones de probabilidad
Conjunto de datos de Weibo
Conjunto de datos de Twitter
Información multimodal
Precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
En los métodos existentes de detección de información falsa, la calidad de las características de una sola modalidad extraídas es baja, la información entre diferentes modalidades no puede ser completamente fusionada, y la información original se perderá cuando se fusionen las informaciones de diferentes modalidades. Este documento propone una detección de información falsa a través de la fusión de características multimodales y la predicción híbrida de múltiples clasificadores. En este método, primero, se utilizan representaciones de codificador bidireccional para transformadores para extraer las características del texto, y se utiliza S win-transformer para extraer las características de la imagen, luego, el autoencoder profundo entrenado se utiliza como un método de fusión temprana de características multimodales para fusionar las características del texto y las características visuales, y las características de baja dimensión se toman como las características conjuntas de las multimodalidades. Las características originales de cada modalidad se concatenan en las características conjuntas para reducir la pérdida de información original. Finalmente, las características del texto, las características de la imagen y las características conjuntas son procesadas por tres clasificadores para obtener tres distribuciones de probabilidad, y las tres distribuciones de probabilidad se suman proporcionalmente para obtener el resultado de predicción final. En comparación con el agrupamiento bilinear factorizado multimodal basado en atención, el modelo logra una mejora del 4.3% y 1.2% en precisión en el conjunto de datos de Weibo y el conjunto de datos de Twitter. Los resultados experimentales muestran que el modelo propuesto puede integrar efectivamente la información multimodal y mejorar la precisión de la detección de información falsa.
Descripción
En los métodos existentes de detección de información falsa, la calidad de las características de una sola modalidad extraídas es baja, la información entre diferentes modalidades no puede ser completamente fusionada, y la información original se perderá cuando se fusionen las informaciones de diferentes modalidades. Este documento propone una detección de información falsa a través de la fusión de características multimodales y la predicción híbrida de múltiples clasificadores. En este método, primero, se utilizan representaciones de codificador bidireccional para transformadores para extraer las características del texto, y se utiliza S win-transformer para extraer las características de la imagen, luego, el autoencoder profundo entrenado se utiliza como un método de fusión temprana de características multimodales para fusionar las características del texto y las características visuales, y las características de baja dimensión se toman como las características conjuntas de las multimodalidades. Las características originales de cada modalidad se concatenan en las características conjuntas para reducir la pérdida de información original. Finalmente, las características del texto, las características de la imagen y las características conjuntas son procesadas por tres clasificadores para obtener tres distribuciones de probabilidad, y las tres distribuciones de probabilidad se suman proporcionalmente para obtener el resultado de predicción final. En comparación con el agrupamiento bilinear factorizado multimodal basado en atención, el modelo logra una mejora del 4.3% y 1.2% en precisión en el conjunto de datos de Weibo y el conjunto de datos de Twitter. Los resultados experimentales muestran que el modelo propuesto puede integrar efectivamente la información multimodal y mejorar la precisión de la detección de información falsa.