logo móvil
Contáctanos

Sobre la Isotropía de Embeddings Multimodales

Autores: Tyshchuk, Kirill; Karpikova, Polina; Spiridonov, Andrew; Prutianova, Anastasiia; Razzhigaev, Anton; Panchenko, Alexander

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Sobre la Isotropía de Embeddings Multimodales


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Embeddings
Isotropía
Texto
Espacio vectorial
Embeddings multimodales
Modelo CLIP

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las incrustaciones, es decir, representaciones vectoriales de objetos, como textos, imágenes o gráficos, juegan un papel clave en las metodologías de aprendizaje profundo en la actualidad. Investigaciones previas han demostrado la importancia de analizar la isotropía de las incrustaciones textuales para codificadores de texto basados en transformadores, como el modelo BERT. Las incrustaciones de palabras anisotrópicas no utilizan todo el espacio, sino que se concentran en un cono estrecho en un espacio vectorial preentrenado, afectando negativamente el rendimiento de aplicaciones, como la similitud semántica textual. Transformar un espacio vectorial para optimizar la isotropía ha demostrado ser beneficioso para mejorar el rendimiento en tareas de procesamiento de texto. Este artículo es la primera investigación integral sobre la distribución de incrustaciones multimodales utilizando el ejemplo del modelo preentrenado CLIP de OpenAI. Nuestro objetivo fue profundizar en la comprensión del espacio de incrustaciones de incrustaciones multimodales, que anteriormente no se había explorado en este sentido, y estudiar el impacto en varias tareas finales. Nuestros esfuerzos iniciales se centraron en medir la alineación de las distribuciones de incrustaciones de imagen y texto, con énfasis en sus propiedades isotrópicas. Además, evaluamos varios enfoques sin gradientes para mejorar estas propiedades, estableciendo su eficiencia en la mejora de la isotropía/alineación de las incrustaciones y, en ciertos casos, la precisión de clasificación de cero disparos. Significativamente, nuestro análisis reveló que tanto los modelos CLIP como BERT producían incrustaciones situadas dentro de un cono inmediatamente después de la inicialización y antes del entrenamiento. Sin embargo, eran mayormente isotrópicas en el sentido local. Ampliamos nuestra investigación a la estructura de las incrustaciones de texto multilingües de CLIP, confirmando que las características observadas eran independientes del idioma. Al calcular la precisión de clasificación de pocos disparos y métricas de nubes de puntos, proporcionamos evidencia de una fuerte correlación entre las incrustaciones multilingües. La transformación de incrustaciones utilizando los métodos descritos en este artículo facilita la visualización de las incrustaciones. Al mismo tiempo, múltiples experimentos que realizamos mostraron que, en lo que respecta a las incrustaciones transformadas, el rendimiento en las tareas posteriores no disminuye sustancialmente (y a veces incluso mejora). Esto significa que se podría obtener un espacio de incrustaciones fácilmente visualizable, sin perder sustancialmente la calidad de las tareas posteriores.

Otros recursos que podrían interesarte

Temas Virtualpro