CoCM: aprendizaje cruzado condicional para modelos de visión y lenguaje

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

CoCM: aprendizaje cruzado condicional para modelos de visión y lenguaje

Autores: Yang, Juncheng; Xie, Shuai; Li, Shuxia; Cai, Zengyu; Li, Yijia; Zhu, Weiping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

CoCM: aprendizaje cruzado condicional para modelos de visión y lenguaje

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Ajuste de parámetros

Métodos de adaptador

Modelos de visión-lenguaje

Aprendizaje cruzado modal

CoCM

Modalidad de imagen

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

Los métodos de adaptación basados en ajuste de parámetros han logrado un éxito notable en los modelos de visión-lenguaje (VLMs). Sin embargo, enfrentan desafíos en escenarios con muestras de entrenamiento insuficientes o recursos limitados. Mientras que aprovechar técnicas de almacenamiento en caché y recuperación de la modalidad de imagen puede reducir los requisitos de recursos, estas aproximaciones a menudo pasan por alto la importancia de la modalidad textual y las señales cruzadas en los VLMs. Para abordar esto, proponemos un modelo de aprendizaje cruzado condicional, abreviado como CoCM. CoCM construye modelos de caché separados para ambas modalidades, texto e imagen, y embebe conocimiento textual condicionado a la información de la imagen. Ajusta dinámicamente la proporción de afinidad de fusión cruzada y desentraña medidas de similitud entre diferentes modalidades. Además, CoCM incorpora una pérdida de similitud de imagen intra-lote como término de regularización para identificar muestras difíciles y mejorar el rendimiento de clasificación detallado. CoCM supera a los métodos existentes en términos de precisión, capacidad de generalización y eficiencia, logrando una mejora de precisión del 0,28% sobre XMAdapter en 11 conjuntos de datos y demostrando un rendimiento de generalización del 44,79% en cuatro conjuntos de datos cruzados.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro