ETICD-Net: Una Red Multimodal de Detección de Noticias Falsas a través de la Inyección de Emoción-Tema y Modelado de Consistencia
Autores: Shang, Wenqian; Yang, Jinru; Zhang, Linlin; Yi, Tong; Liu, Peng
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
ETICD-Net: Una Red Multimodal de Detección de Noticias Falsas a través de la Inyección de Emoción-Tema y Modelado de Consistencia
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desinformación
Multimodal
ETICD-Net
Inconsistencias semánticas
Consciente del sentimiento y el tema
Atención cruzada-modal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La difusión generalizada de desinformación multimodal, que combina texto inflamatorio con imágenes manipuladas, representa una grave amenaza para la sociedad. Los métodos de detección existentes suelen procesar características textuales y visuales de forma aislada o realizar una fusión simple, sin lograr captar las sofisticadas inconsistencias semánticas que se encuentran comúnmente en la información falsa. Para abordar esto, proponemos un nuevo marco: Red de Detección de Inyección de Emoción y Tema y Consistencia (ETICD-Net). Primero, un modelo de lenguaje grande (LLM) extrae señales estructuradas de sentimiento y guiadas por temas de textos de noticias para proporcionar pistas semánticas ricas. En segundo lugar, a diferencia de enfoques anteriores, esta señal guiada se inyecta en los procesos de extracción de características de ambas modalidades: mejora las características textuales de BERT y modula las características de imagen de ResNet, generando así representaciones de características conscientes del sentimiento y el tema. Además, este artículo introduce un módulo de fusión de consistencia jerárquica que evalúa explícitamente la coherencia semántica entre estas características mejoradas. Emplea mecanismos de atención cruzada, permitiendo que el texto consulte regiones de imagen relevantes para sus afirmaciones, y calcula métricas de disimilitud explícitas para cuantificar inconsistencias. Experimentos extensivos en los conjuntos de datos de referencia de Weibo y Twitter demuestran que ETICD-Net supera o iguala a los métodos de vanguardia, logrando una precisión y puntuaciones F1 del 90.6% y 91.5%, respectivamente.
Descripción
La difusión generalizada de desinformación multimodal, que combina texto inflamatorio con imágenes manipuladas, representa una grave amenaza para la sociedad. Los métodos de detección existentes suelen procesar características textuales y visuales de forma aislada o realizar una fusión simple, sin lograr captar las sofisticadas inconsistencias semánticas que se encuentran comúnmente en la información falsa. Para abordar esto, proponemos un nuevo marco: Red de Detección de Inyección de Emoción y Tema y Consistencia (ETICD-Net). Primero, un modelo de lenguaje grande (LLM) extrae señales estructuradas de sentimiento y guiadas por temas de textos de noticias para proporcionar pistas semánticas ricas. En segundo lugar, a diferencia de enfoques anteriores, esta señal guiada se inyecta en los procesos de extracción de características de ambas modalidades: mejora las características textuales de BERT y modula las características de imagen de ResNet, generando así representaciones de características conscientes del sentimiento y el tema. Además, este artículo introduce un módulo de fusión de consistencia jerárquica que evalúa explícitamente la coherencia semántica entre estas características mejoradas. Emplea mecanismos de atención cruzada, permitiendo que el texto consulte regiones de imagen relevantes para sus afirmaciones, y calcula métricas de disimilitud explícitas para cuantificar inconsistencias. Experimentos extensivos en los conjuntos de datos de referencia de Weibo y Twitter demuestran que ETICD-Net supera o iguala a los métodos de vanguardia, logrando una precisión y puntuaciones F1 del 90.6% y 91.5%, respectivamente.