CoCM: aprendizaje cruzado condicional para modelos de visión y lenguaje
Autores: Yang, Juncheng; Xie, Shuai; Li, Shuxia; Cai, Zengyu; Li, Yijia; Zhu, Weiping
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
CoCM: aprendizaje cruzado condicional para modelos de visión y lenguaje
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Ajuste de parámetros
Métodos de adaptador
Modelos de visión-lenguaje
Aprendizaje cruzado modal
CoCM
Modalidad de imagen
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Los métodos de adaptación basados en ajuste de parámetros han logrado un éxito notable en los modelos de visión-lenguaje (VLMs). Sin embargo, enfrentan desafíos en escenarios con muestras de entrenamiento insuficientes o recursos limitados. Mientras que aprovechar técnicas de almacenamiento en caché y recuperación de la modalidad de imagen puede reducir los requisitos de recursos, estas aproximaciones a menudo pasan por alto la importancia de la modalidad textual y las señales cruzadas en los VLMs. Para abordar esto, proponemos un modelo de aprendizaje cruzado condicional, abreviado como CoCM. CoCM construye modelos de caché separados para ambas modalidades, texto e imagen, y embebe conocimiento textual condicionado a la información de la imagen. Ajusta dinámicamente la proporción de afinidad de fusión cruzada y desentraña medidas de similitud entre diferentes modalidades. Además, CoCM incorpora una pérdida de similitud de imagen intra-lote como término de regularización para identificar muestras difíciles y mejorar el rendimiento de clasificación detallado. CoCM supera a los métodos existentes en términos de precisión, capacidad de generalización y eficiencia, logrando una mejora de precisión del 0,28% sobre XMAdapter en 11 conjuntos de datos y demostrando un rendimiento de generalización del 44,79% en cuatro conjuntos de datos cruzados.
Descripción
Los métodos de adaptación basados en ajuste de parámetros han logrado un éxito notable en los modelos de visión-lenguaje (VLMs). Sin embargo, enfrentan desafíos en escenarios con muestras de entrenamiento insuficientes o recursos limitados. Mientras que aprovechar técnicas de almacenamiento en caché y recuperación de la modalidad de imagen puede reducir los requisitos de recursos, estas aproximaciones a menudo pasan por alto la importancia de la modalidad textual y las señales cruzadas en los VLMs. Para abordar esto, proponemos un modelo de aprendizaje cruzado condicional, abreviado como CoCM. CoCM construye modelos de caché separados para ambas modalidades, texto e imagen, y embebe conocimiento textual condicionado a la información de la imagen. Ajusta dinámicamente la proporción de afinidad de fusión cruzada y desentraña medidas de similitud entre diferentes modalidades. Además, CoCM incorpora una pérdida de similitud de imagen intra-lote como término de regularización para identificar muestras difíciles y mejorar el rendimiento de clasificación detallado. CoCM supera a los métodos existentes en términos de precisión, capacidad de generalización y eficiencia, logrando una mejora de precisión del 0,28% sobre XMAdapter en 11 conjuntos de datos y demostrando un rendimiento de generalización del 44,79% en cuatro conjuntos de datos cruzados.