Aprendizaje bilineal con atención de características de doble cadena para la detección de rumores multimodal
Autores: Guo, Zheheng; Liu, Haonan; Zuo, Lijiao; Wen, Junhao
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje bilineal con atención de características de doble cadena para la detección de rumores multimodal
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Crecimiento
Redes sociales
Rumores
Multimodal
Detección
Marco de trabajo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
El rápido crecimiento de las redes sociales y plataformas de intercambio de información en línea facilita la propagación de rumores. La detección precisa de rumores para minimizar los esfuerzos de verificación manual sigue siendo un desafío de investigación crítico. Aunque la detección de rumores multimodal que aprovecha tanto datos de texto como visuales ha ganado cada vez más atención debido a la diversificación del contenido de las redes sociales, los enfoques existentes enfrentan las siguientes tres limitaciones clave: (1) priorizan las características léxicas del texto mientras descuidan las inconsistencias lógicas inherentes en las narrativas de rumores; (2) tratan las características textuales y visuales como modalidades independientes, sin modelar sus conexiones intrínsecas; y (3) pasan por alto las incongruencias semánticas entre texto e imágenes, que son comunes en el contenido de rumores. Este documento propone un marco de aprendizaje de características multimodales de doble cadena para la detección de rumores para abordar estos problemas. El marco extrae de manera exhaustiva características del contenido de rumores a través de los siguientes dos procesos paralelos: un módulo básico de extracción de características semánticas que captura la semántica textual y visual fundamental, y un módulo de aprendizaje de características de conexión lógica que modela tanto las relaciones lógicas internas dentro del texto como la alineación semántica entre texto e imágenes de forma cruzada. El marco logra la fusión multinivel de características de texto-imagen mediante la integración de mecanismos de alineación modal y atención cruzada modal. Experimentos extensos en los conjuntos de datos de Pheme y Weibo demuestran que el método propuesto funciona mejor que los enfoques de línea de base, confirmando su efectividad en la detección de rumores multimodales.
Descripción
El rápido crecimiento de las redes sociales y plataformas de intercambio de información en línea facilita la propagación de rumores. La detección precisa de rumores para minimizar los esfuerzos de verificación manual sigue siendo un desafío de investigación crítico. Aunque la detección de rumores multimodal que aprovecha tanto datos de texto como visuales ha ganado cada vez más atención debido a la diversificación del contenido de las redes sociales, los enfoques existentes enfrentan las siguientes tres limitaciones clave: (1) priorizan las características léxicas del texto mientras descuidan las inconsistencias lógicas inherentes en las narrativas de rumores; (2) tratan las características textuales y visuales como modalidades independientes, sin modelar sus conexiones intrínsecas; y (3) pasan por alto las incongruencias semánticas entre texto e imágenes, que son comunes en el contenido de rumores. Este documento propone un marco de aprendizaje de características multimodales de doble cadena para la detección de rumores para abordar estos problemas. El marco extrae de manera exhaustiva características del contenido de rumores a través de los siguientes dos procesos paralelos: un módulo básico de extracción de características semánticas que captura la semántica textual y visual fundamental, y un módulo de aprendizaje de características de conexión lógica que modela tanto las relaciones lógicas internas dentro del texto como la alineación semántica entre texto e imágenes de forma cruzada. El marco logra la fusión multinivel de características de texto-imagen mediante la integración de mecanismos de alineación modal y atención cruzada modal. Experimentos extensos en los conjuntos de datos de Pheme y Weibo demuestran que el método propuesto funciona mejor que los enfoques de línea de base, confirmando su efectividad en la detección de rumores multimodales.