Un marco de mejora semántica para la detección de sarcasmo multimodal
Autores: Zhong, Weiyu; Zhang, Zhengxuan; Wu, Qiaofeng; Xue, Yun; Cai, Qianhua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un marco de mejora semántica para la detección de sarcasmo multimodal
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Sarcasmo
Información multimodal
Incongruencia
Semántica textual
Mejora semántica
Brecha semántica entre modalidades
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
El sarcasmo representa una forma de lenguaje donde existe una discrepancia entre los significados literales y la intención implícita. La detección de sarcasmo es un desafío con texto unimodal sin comprender claramente el contexto, sobre el cual se introduce información multimodal para beneficiar la detección. Sin embargo, los enfoques actuales solo se centran en modelar la incongruencia texto-imagen a nivel de token y utilizan la incongruencia como clave para la detección, ignorando la importancia de las características multimodales generales y la semántica textual durante el procesamiento. Además, la información semántica de otras muestras con un modo de expresión similar también facilita la detección de sarcasmo. En este trabajo, se propone un marco de mejora semántica para abordar la congruencia imagen-texto mediante la modelización de la información textual y visual a nivel de token multi-escala y multi-extensión. La eficacia de la semántica textual en la detección multimodal de sarcasmo es notable. Con el objetivo de cerrar la brecha semántica intermodal, se realiza una mejora semántica mediante una estrategia de aprendizaje contrastivo múltiple. Se realizaron experimentos en un conjunto de datos de referencia. Nuestro modelo supera al último valor de referencia en un 1,87% en términos del puntaje F1 y en un 1% en términos de precisión.
Descripción
El sarcasmo representa una forma de lenguaje donde existe una discrepancia entre los significados literales y la intención implícita. La detección de sarcasmo es un desafío con texto unimodal sin comprender claramente el contexto, sobre el cual se introduce información multimodal para beneficiar la detección. Sin embargo, los enfoques actuales solo se centran en modelar la incongruencia texto-imagen a nivel de token y utilizan la incongruencia como clave para la detección, ignorando la importancia de las características multimodales generales y la semántica textual durante el procesamiento. Además, la información semántica de otras muestras con un modo de expresión similar también facilita la detección de sarcasmo. En este trabajo, se propone un marco de mejora semántica para abordar la congruencia imagen-texto mediante la modelización de la información textual y visual a nivel de token multi-escala y multi-extensión. La eficacia de la semántica textual en la detección multimodal de sarcasmo es notable. Con el objetivo de cerrar la brecha semántica intermodal, se realiza una mejora semántica mediante una estrategia de aprendizaje contrastivo múltiple. Se realizaron experimentos en un conjunto de datos de referencia. Nuestro modelo supera al último valor de referencia en un 1,87% en términos del puntaje F1 y en un 1% en términos de precisión.