logo móvil
Contáctanos

CoCM: aprendizaje cruzado condicional para modelos de visión y lenguaje

Autores: Yang, Juncheng; Xie, Shuai; Li, Shuxia; Cai, Zengyu; Li, Yijia; Zhu, Weiping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

CoCM: aprendizaje cruzado condicional para modelos de visión y lenguaje


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Ajuste de parámetros
Métodos de adaptador
Modelos de visión-lenguaje
Aprendizaje cruzado modal
CoCM
Modalidad de imagen

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones


Descripción
Los métodos de adaptación basados en ajuste de parámetros han logrado un éxito notable en los modelos de visión-lenguaje (VLMs). Sin embargo, enfrentan desafíos en escenarios con muestras de entrenamiento insuficientes o recursos limitados. Mientras que aprovechar técnicas de almacenamiento en caché y recuperación de la modalidad de imagen puede reducir los requisitos de recursos, estas aproximaciones a menudo pasan por alto la importancia de la modalidad textual y las señales cruzadas en los VLMs. Para abordar esto, proponemos un modelo de aprendizaje cruzado condicional, abreviado como CoCM. CoCM construye modelos de caché separados para ambas modalidades, texto e imagen, y embebe conocimiento textual condicionado a la información de la imagen. Ajusta dinámicamente la proporción de afinidad de fusión cruzada y desentraña medidas de similitud entre diferentes modalidades. Además, CoCM incorpora una pérdida de similitud de imagen intra-lote como término de regularización para identificar muestras difíciles y mejorar el rendimiento de clasificación detallado. CoCM supera a los métodos existentes en términos de precisión, capacidad de generalización y eficiencia, logrando una mejora de precisión del 0,28% sobre XMAdapter en 11 conjuntos de datos y demostrando un rendimiento de generalización del 44,79% en cuatro conjuntos de datos cruzados.

Otros recursos que podrían interesarte

Temas Virtualpro