Aprendizaje de Hash de Destilación Basado en Transformadores para la Recuperación de Imágenes
Autores: Lv, Yuanhai; Wang, Chongyan; Yuan, Wanteng; Qian, Xiaohao; Yang, Wujun; Zhao, Wanqing
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje de Hash de Destilación Basado en Transformadores para la Recuperación de Imágenes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transformador
Aprendizaje profundo
Reconocimiento de imágenes
Mecanismo de autoatención
Recuperación de imágenes
Destilación de conocimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
En los últimos años, Transformer se ha convertido en una arquitectura muy popular en el aprendizaje profundo y también ha logrado el mismo rendimiento de vanguardia que las redes neuronales convolucionales en múltiples líneas base de reconocimiento de imágenes. Transformer puede obtener campos perceptuales globales a través de un mecanismo de autoatención y puede mejorar los pesos de características discriminables únicas para tareas de recuperación de imágenes para mejorar la calidad de la recuperación. Sin embargo, Transformer es intensivo en términos computacionales y encuentra difícil satisfacer los requisitos de tiempo real cuando se utiliza para tareas de recuperación. En este documento, proponemos un marco de aprendizaje de hash de imágenes basado en Transformer y comprimimos el marco construido para realizar una recuperación eficiente de imágenes utilizando destilación de conocimiento. Al combinar el mecanismo de autoatención del modelo Transformer, se permite que el código hash de la imagen sea global y único. Al mismo tiempo, esta ventaja se inculca en el modelo ligero eficiente mediante destilación de conocimiento, reduciendo así la complejidad computacional y teniendo la ventaja de un mecanismo de atención en el Transformer. Los resultados experimentales en el conjunto de datos MIRFlickr-25K y el conjunto de datos NUS-WIDE muestran que nuestro enfoque puede mejorar efectivamente la precisión y eficiencia de la recuperación de imágenes.
Descripción
En los últimos años, Transformer se ha convertido en una arquitectura muy popular en el aprendizaje profundo y también ha logrado el mismo rendimiento de vanguardia que las redes neuronales convolucionales en múltiples líneas base de reconocimiento de imágenes. Transformer puede obtener campos perceptuales globales a través de un mecanismo de autoatención y puede mejorar los pesos de características discriminables únicas para tareas de recuperación de imágenes para mejorar la calidad de la recuperación. Sin embargo, Transformer es intensivo en términos computacionales y encuentra difícil satisfacer los requisitos de tiempo real cuando se utiliza para tareas de recuperación. En este documento, proponemos un marco de aprendizaje de hash de imágenes basado en Transformer y comprimimos el marco construido para realizar una recuperación eficiente de imágenes utilizando destilación de conocimiento. Al combinar el mecanismo de autoatención del modelo Transformer, se permite que el código hash de la imagen sea global y único. Al mismo tiempo, esta ventaja se inculca en el modelo ligero eficiente mediante destilación de conocimiento, reduciendo así la complejidad computacional y teniendo la ventaja de un mecanismo de atención en el Transformer. Los resultados experimentales en el conjunto de datos MIRFlickr-25K y el conjunto de datos NUS-WIDE muestran que nuestro enfoque puede mejorar efectivamente la precisión y eficiencia de la recuperación de imágenes.