Sobre la Isotropía de Embeddings Multimodales
Autores: Tyshchuk, Kirill; Karpikova, Polina; Spiridonov, Andrew; Prutianova, Anastasiia; Razzhigaev, Anton; Panchenko, Alexander
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Sobre la Isotropía de Embeddings Multimodales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Embeddings
Isotropía
Texto
Espacio vectorial
Embeddings multimodales
Modelo CLIP
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las incrustaciones, es decir, representaciones vectoriales de objetos, como textos, imágenes o gráficos, juegan un papel clave en las metodologías de aprendizaje profundo en la actualidad. Investigaciones previas han demostrado la importancia de analizar la isotropía de las incrustaciones textuales para codificadores de texto basados en transformadores, como el modelo BERT. Las incrustaciones de palabras anisotrópicas no utilizan todo el espacio, sino que se concentran en un cono estrecho en un espacio vectorial preentrenado, afectando negativamente el rendimiento de aplicaciones, como la similitud semántica textual. Transformar un espacio vectorial para optimizar la isotropía ha demostrado ser beneficioso para mejorar el rendimiento en tareas de procesamiento de texto. Este artículo es la primera investigación integral sobre la distribución de incrustaciones multimodales utilizando el ejemplo del modelo preentrenado CLIP de OpenAI. Nuestro objetivo fue profundizar en la comprensión del espacio de incrustaciones de incrustaciones multimodales, que anteriormente no se había explorado en este sentido, y estudiar el impacto en varias tareas finales. Nuestros esfuerzos iniciales se centraron en medir la alineación de las distribuciones de incrustaciones de imagen y texto, con énfasis en sus propiedades isotrópicas. Además, evaluamos varios enfoques sin gradientes para mejorar estas propiedades, estableciendo su eficiencia en la mejora de la isotropía/alineación de las incrustaciones y, en ciertos casos, la precisión de clasificación de cero disparos. Significativamente, nuestro análisis reveló que tanto los modelos CLIP como BERT producían incrustaciones situadas dentro de un cono inmediatamente después de la inicialización y antes del entrenamiento. Sin embargo, eran mayormente isotrópicas en el sentido local. Ampliamos nuestra investigación a la estructura de las incrustaciones de texto multilingües de CLIP, confirmando que las características observadas eran independientes del idioma. Al calcular la precisión de clasificación de pocos disparos y métricas de nubes de puntos, proporcionamos evidencia de una fuerte correlación entre las incrustaciones multilingües. La transformación de incrustaciones utilizando los métodos descritos en este artículo facilita la visualización de las incrustaciones. Al mismo tiempo, múltiples experimentos que realizamos mostraron que, en lo que respecta a las incrustaciones transformadas, el rendimiento en las tareas posteriores no disminuye sustancialmente (y a veces incluso mejora). Esto significa que se podría obtener un espacio de incrustaciones fácilmente visualizable, sin perder sustancialmente la calidad de las tareas posteriores.
Descripción
Las incrustaciones, es decir, representaciones vectoriales de objetos, como textos, imágenes o gráficos, juegan un papel clave en las metodologías de aprendizaje profundo en la actualidad. Investigaciones previas han demostrado la importancia de analizar la isotropía de las incrustaciones textuales para codificadores de texto basados en transformadores, como el modelo BERT. Las incrustaciones de palabras anisotrópicas no utilizan todo el espacio, sino que se concentran en un cono estrecho en un espacio vectorial preentrenado, afectando negativamente el rendimiento de aplicaciones, como la similitud semántica textual. Transformar un espacio vectorial para optimizar la isotropía ha demostrado ser beneficioso para mejorar el rendimiento en tareas de procesamiento de texto. Este artículo es la primera investigación integral sobre la distribución de incrustaciones multimodales utilizando el ejemplo del modelo preentrenado CLIP de OpenAI. Nuestro objetivo fue profundizar en la comprensión del espacio de incrustaciones de incrustaciones multimodales, que anteriormente no se había explorado en este sentido, y estudiar el impacto en varias tareas finales. Nuestros esfuerzos iniciales se centraron en medir la alineación de las distribuciones de incrustaciones de imagen y texto, con énfasis en sus propiedades isotrópicas. Además, evaluamos varios enfoques sin gradientes para mejorar estas propiedades, estableciendo su eficiencia en la mejora de la isotropía/alineación de las incrustaciones y, en ciertos casos, la precisión de clasificación de cero disparos. Significativamente, nuestro análisis reveló que tanto los modelos CLIP como BERT producían incrustaciones situadas dentro de un cono inmediatamente después de la inicialización y antes del entrenamiento. Sin embargo, eran mayormente isotrópicas en el sentido local. Ampliamos nuestra investigación a la estructura de las incrustaciones de texto multilingües de CLIP, confirmando que las características observadas eran independientes del idioma. Al calcular la precisión de clasificación de pocos disparos y métricas de nubes de puntos, proporcionamos evidencia de una fuerte correlación entre las incrustaciones multilingües. La transformación de incrustaciones utilizando los métodos descritos en este artículo facilita la visualización de las incrustaciones. Al mismo tiempo, múltiples experimentos que realizamos mostraron que, en lo que respecta a las incrustaciones transformadas, el rendimiento en las tareas posteriores no disminuye sustancialmente (y a veces incluso mejora). Esto significa que se podría obtener un espacio de incrustaciones fácilmente visualizable, sin perder sustancialmente la calidad de las tareas posteriores.