DecoupleCLIP: un nuevo modelo de desacoplamiento de cruce de modalidades para la descripción de pinturas
Autores: Zhang, Mingliang; Hou, Xia; Yan, Yujing; Sun, Meng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
DecoupleCLIP: un nuevo modelo de desacoplamiento de cruce de modalidades para la descripción de pinturas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Subtitulado de imágenes
Comprensión de imágenes
Semántica subjetiva
Pinturas
Análisis objetivo
Fusión multimodal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 52
Citaciones: Sin citaciones
La subtitulación de imágenes tiene como objetivo describir el contenido de una imagen, lo cual juega un papel crítico en la comprensión de imágenes. Los métodos existentes tienden a generar el texto para imágenes naturales más distintas. Estos modelos no pueden funcionar bien para pinturas que contienen un significado más abstracto debido a la limitación del análisis objetivo sin conocimientos relacionados. Para mitigar esto, proponemos un nuevo modelo de desacoplamiento de modalidades cruzadas para generar el análisis objetivo y subjetivo por separado. Concretamente, proponemos codificar tanto el significado subjetivo como el conocimiento implícito contenido en las pinturas. El punto clave de nuestro marco es la rama basada en CLIP desacoplada (DecoupleCLIP). Para la rama de subtítulos objetivos, utilizamos el modelo CLIP como extractor de características global y construimos un módulo de fusión de características para pistas globales. Basándonos en la estructura de la rama de subtítulos objetivos, agregamos un módulo de fusión multimodal llamado rama de concepción artística. De esta manera, los subtítulos objetivos pueden restringir el contenido de la concepción artística. Realizamos experimentos extensos para demostrar la capacidad superior de nuestro DecoupleCLIP sobre nuestro nuevo conjunto de datos. Nuestro modelo logra casi un 2% de mejora sobre otros modelos de comparación en CIDEr.
Descripción
La subtitulación de imágenes tiene como objetivo describir el contenido de una imagen, lo cual juega un papel crítico en la comprensión de imágenes. Los métodos existentes tienden a generar el texto para imágenes naturales más distintas. Estos modelos no pueden funcionar bien para pinturas que contienen un significado más abstracto debido a la limitación del análisis objetivo sin conocimientos relacionados. Para mitigar esto, proponemos un nuevo modelo de desacoplamiento de modalidades cruzadas para generar el análisis objetivo y subjetivo por separado. Concretamente, proponemos codificar tanto el significado subjetivo como el conocimiento implícito contenido en las pinturas. El punto clave de nuestro marco es la rama basada en CLIP desacoplada (DecoupleCLIP). Para la rama de subtítulos objetivos, utilizamos el modelo CLIP como extractor de características global y construimos un módulo de fusión de características para pistas globales. Basándonos en la estructura de la rama de subtítulos objetivos, agregamos un módulo de fusión multimodal llamado rama de concepción artística. De esta manera, los subtítulos objetivos pueden restringir el contenido de la concepción artística. Realizamos experimentos extensos para demostrar la capacidad superior de nuestro DecoupleCLIP sobre nuestro nuevo conjunto de datos. Nuestro modelo logra casi un 2% de mejora sobre otros modelos de comparación en CIDEr.