logo móvil
Contáctanos

Aprendizaje bilineal con atención de características de doble cadena para la detección de rumores multimodal

Autores: Guo, Zheheng; Liu, Haonan; Zuo, Lijiao; Wen, Junhao

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Aprendizaje bilineal con atención de características de doble cadena para la detección de rumores multimodal


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Crecimiento
Redes sociales
Rumores
Multimodal
Detección
Marco de trabajo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
El rápido crecimiento de las redes sociales y plataformas de intercambio de información en línea facilita la propagación de rumores. La detección precisa de rumores para minimizar los esfuerzos de verificación manual sigue siendo un desafío de investigación crítico. Aunque la detección de rumores multimodal que aprovecha tanto datos de texto como visuales ha ganado cada vez más atención debido a la diversificación del contenido de las redes sociales, los enfoques existentes enfrentan las siguientes tres limitaciones clave: (1) priorizan las características léxicas del texto mientras descuidan las inconsistencias lógicas inherentes en las narrativas de rumores; (2) tratan las características textuales y visuales como modalidades independientes, sin modelar sus conexiones intrínsecas; y (3) pasan por alto las incongruencias semánticas entre texto e imágenes, que son comunes en el contenido de rumores. Este documento propone un marco de aprendizaje de características multimodales de doble cadena para la detección de rumores para abordar estos problemas. El marco extrae de manera exhaustiva características del contenido de rumores a través de los siguientes dos procesos paralelos: un módulo básico de extracción de características semánticas que captura la semántica textual y visual fundamental, y un módulo de aprendizaje de características de conexión lógica que modela tanto las relaciones lógicas internas dentro del texto como la alineación semántica entre texto e imágenes de forma cruzada. El marco logra la fusión multinivel de características de texto-imagen mediante la integración de mecanismos de alineación modal y atención cruzada modal. Experimentos extensos en los conjuntos de datos de Pheme y Weibo demuestran que el método propuesto funciona mejor que los enfoques de línea de base, confirmando su efectividad en la detección de rumores multimodales.

Otros recursos que podrían interesarte

Temas Virtualpro