logo móvil
Contáctanos

DecoupleCLIP: un nuevo modelo de desacoplamiento de cruce de modalidades para la descripción de pinturas

Autores: Zhang, Mingliang; Hou, Xia; Yan, Yujing; Sun, Meng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

DecoupleCLIP: un nuevo modelo de desacoplamiento de cruce de modalidades para la descripción de pinturas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Subtitulado de imágenes
Comprensión de imágenes
Semántica subjetiva
Pinturas
Análisis objetivo
Fusión multimodal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 52

Citaciones: Sin citaciones


Descripción
La subtitulación de imágenes tiene como objetivo describir el contenido de una imagen, lo cual juega un papel crítico en la comprensión de imágenes. Los métodos existentes tienden a generar el texto para imágenes naturales más distintas. Estos modelos no pueden funcionar bien para pinturas que contienen un significado más abstracto debido a la limitación del análisis objetivo sin conocimientos relacionados. Para mitigar esto, proponemos un nuevo modelo de desacoplamiento de modalidades cruzadas para generar el análisis objetivo y subjetivo por separado. Concretamente, proponemos codificar tanto el significado subjetivo como el conocimiento implícito contenido en las pinturas. El punto clave de nuestro marco es la rama basada en CLIP desacoplada (DecoupleCLIP). Para la rama de subtítulos objetivos, utilizamos el modelo CLIP como extractor de características global y construimos un módulo de fusión de características para pistas globales. Basándonos en la estructura de la rama de subtítulos objetivos, agregamos un módulo de fusión multimodal llamado rama de concepción artística. De esta manera, los subtítulos objetivos pueden restringir el contenido de la concepción artística. Realizamos experimentos extensos para demostrar la capacidad superior de nuestro DecoupleCLIP sobre nuestro nuevo conjunto de datos. Nuestro modelo logra casi un 2% de mejora sobre otros modelos de comparación en CIDEr.

Otros recursos que podrían interesarte

Temas Virtualpro