DecoupleCLIP: un nuevo modelo de desacoplamiento de cruce de modalidades para la descripción de pinturas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

DecoupleCLIP: un nuevo modelo de desacoplamiento de cruce de modalidades para la descripción de pinturas

Autores: Zhang, Mingliang; Hou, Xia; Yan, Yujing; Sun, Meng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

DecoupleCLIP: un nuevo modelo de desacoplamiento de cruce de modalidades para la descripción de pinturas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Subtitulado de imágenes

Comprensión de imágenes

Semántica subjetiva

Pinturas

Análisis objetivo

Fusión multimodal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 52

Citaciones: Sin citaciones

La subtitulación de imágenes tiene como objetivo describir el contenido de una imagen, lo cual juega un papel crítico en la comprensión de imágenes. Los métodos existentes tienden a generar el texto para imágenes naturales más distintas. Estos modelos no pueden funcionar bien para pinturas que contienen un significado más abstracto debido a la limitación del análisis objetivo sin conocimientos relacionados. Para mitigar esto, proponemos un nuevo modelo de desacoplamiento de modalidades cruzadas para generar el análisis objetivo y subjetivo por separado. Concretamente, proponemos codificar tanto el significado subjetivo como el conocimiento implícito contenido en las pinturas. El punto clave de nuestro marco es la rama basada en CLIP desacoplada (DecoupleCLIP). Para la rama de subtítulos objetivos, utilizamos el modelo CLIP como extractor de características global y construimos un módulo de fusión de características para pistas globales. Basándonos en la estructura de la rama de subtítulos objetivos, agregamos un módulo de fusión multimodal llamado rama de concepción artística. De esta manera, los subtítulos objetivos pueden restringir el contenido de la concepción artística. Realizamos experimentos extensos para demostrar la capacidad superior de nuestro DecoupleCLIP sobre nuestro nuevo conjunto de datos. Nuestro modelo logra casi un 2% de mejora sobre otros modelos de comparación en CIDEr.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro