Augmentando la representación del contenido multimodal con transformadores para la detección de desinformación
Autores: Wang, Jenq-Haur; Norouzi, Mehdi; Tsai, Shu Ming
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Augmentando la representación del contenido multimodal con transformadores para la detección de desinformación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Información
Redes sociales
Desinformación
Contenido multimodal
Transformadores
Credibilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
El intercambio de información en las redes sociales se ha convertido en una práctica común para las personas de todo el mundo. Dado que es difícil verificar el contenido generado por el usuario en las redes sociales, se están difundiendo grandes cantidades de rumores y desinformación junto con información auténtica. Por un lado, la mayoría de las plataformas sociales identifican los rumores a través de la verificación manual de hechos, lo cual es muy ineficiente. Por otro lado, con una forma emergente de desinformación que contiene pares de imágenes y texto inconsistentes, sería beneficioso si pudiéramos comparar el significado del contenido multimodal dentro de la misma publicación para detectar la inconsistencia entre imagen y texto. En este documento, proponemos un enfoque novedoso para la detección de desinformación mediante la fusión de características multimodales con transformadores y la evaluación de la credibilidad con redes Bi-RNN basadas en autoatención. Primero, los subtítulos se derivan de las imágenes utilizando un módulo de descripción de imágenes para obtener sus descripciones semánticas. Estos se comparan con el texto circundante mediante el ajuste fino de los transformadores para verificar la consistencia en la semántica. Luego, para agregar aún más características de sentimiento a la representación del texto, ajustamos finamente un transformador separado para la clasificación del sentimiento del texto, donde la salida se concatena para aumentar los incrustados de texto. Finalmente, se utilizan Bi-GRUs multicelulares con autoatención para entrenar el modelo de evaluación de credibilidad para la detección de desinformación. A partir de los resultados experimentales en tweets, el mejor rendimiento con una precisión del 0,904 y una puntuación F1 de 0,921 se puede obtener al aplicar la fusión de características de incrustados aumentados con los resultados de clasificación de sentimiento. Esto muestra el potencial de la forma innovadora de aplicar transformadores en nuestro enfoque propuesto para la detección de desinformación. Se necesita una investigación adicional para validar el rendimiento en varios tipos de discrepancias multimodales.
Descripción
El intercambio de información en las redes sociales se ha convertido en una práctica común para las personas de todo el mundo. Dado que es difícil verificar el contenido generado por el usuario en las redes sociales, se están difundiendo grandes cantidades de rumores y desinformación junto con información auténtica. Por un lado, la mayoría de las plataformas sociales identifican los rumores a través de la verificación manual de hechos, lo cual es muy ineficiente. Por otro lado, con una forma emergente de desinformación que contiene pares de imágenes y texto inconsistentes, sería beneficioso si pudiéramos comparar el significado del contenido multimodal dentro de la misma publicación para detectar la inconsistencia entre imagen y texto. En este documento, proponemos un enfoque novedoso para la detección de desinformación mediante la fusión de características multimodales con transformadores y la evaluación de la credibilidad con redes Bi-RNN basadas en autoatención. Primero, los subtítulos se derivan de las imágenes utilizando un módulo de descripción de imágenes para obtener sus descripciones semánticas. Estos se comparan con el texto circundante mediante el ajuste fino de los transformadores para verificar la consistencia en la semántica. Luego, para agregar aún más características de sentimiento a la representación del texto, ajustamos finamente un transformador separado para la clasificación del sentimiento del texto, donde la salida se concatena para aumentar los incrustados de texto. Finalmente, se utilizan Bi-GRUs multicelulares con autoatención para entrenar el modelo de evaluación de credibilidad para la detección de desinformación. A partir de los resultados experimentales en tweets, el mejor rendimiento con una precisión del 0,904 y una puntuación F1 de 0,921 se puede obtener al aplicar la fusión de características de incrustados aumentados con los resultados de clasificación de sentimiento. Esto muestra el potencial de la forma innovadora de aplicar transformadores en nuestro enfoque propuesto para la detección de desinformación. Se necesita una investigación adicional para validar el rendimiento en varios tipos de discrepancias multimodales.