Hash profundo con atención dual mejorada para la recuperación de imágenes
Autores: Yang, Wenjing; Wang, Liejun; Cheng, Shuli; Li, Yongming; Du, Anyu
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Hash profundo con atención dual mejorada para la recuperación de imágenes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje profundo
Hash
Recuperación de imágenes
Red neuronal convolucional
Información contextual
Error de cuantización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Recientemente, el aprendizaje profundo para hash se ha aplicado extensamente a la recuperación de imágenes, debido a su bajo costo de almacenamiento y rápida velocidad de consulta. Sin embargo, existe un defecto de insuficiencia e imbalanza cuando los métodos de hashing existentes utilizan la red neuronal convolucional (CNN) para extraer características semánticas de la imagen y las características extraídas no incluyen información contextual y carecen de relevancia entre las características. Además, el proceso del código hash de relajación puede llevar a un error de cuantización inevitable. Para resolver estos problemas, este artículo propone un hash profundo con atención dual mejorada para la recuperación de imágenes (DHIDA), que principalmente tiene los siguientes contenidos: (1) este artículo introduce el mecanismo de atención dual mejorada (IDA) basado en el módulo preentrenado ResNet18 para extraer la información de características de la imagen, que consiste en el módulo de atención de posición y el módulo de atención de canal; (2) al calcular la matriz de atención espacial y la matriz de atención de canal, se integran el valor promedio y el valor máximo de la columna de la matriz del mapa de características para promover la capacidad de representación de características y aprovechar completamente las características de cada posición; y (3) para reducir el error de cuantización, este estudio diseña una nueva función por tramos para guiar directamente el código binario discreto. Los experimentos en CIFAR-10, NUS-WIDE e ImageNet-100 muestran que el algoritmo DHIDA logra un mejor rendimiento.
Descripción
Recientemente, el aprendizaje profundo para hash se ha aplicado extensamente a la recuperación de imágenes, debido a su bajo costo de almacenamiento y rápida velocidad de consulta. Sin embargo, existe un defecto de insuficiencia e imbalanza cuando los métodos de hashing existentes utilizan la red neuronal convolucional (CNN) para extraer características semánticas de la imagen y las características extraídas no incluyen información contextual y carecen de relevancia entre las características. Además, el proceso del código hash de relajación puede llevar a un error de cuantización inevitable. Para resolver estos problemas, este artículo propone un hash profundo con atención dual mejorada para la recuperación de imágenes (DHIDA), que principalmente tiene los siguientes contenidos: (1) este artículo introduce el mecanismo de atención dual mejorada (IDA) basado en el módulo preentrenado ResNet18 para extraer la información de características de la imagen, que consiste en el módulo de atención de posición y el módulo de atención de canal; (2) al calcular la matriz de atención espacial y la matriz de atención de canal, se integran el valor promedio y el valor máximo de la columna de la matriz del mapa de características para promover la capacidad de representación de características y aprovechar completamente las características de cada posición; y (3) para reducir el error de cuantización, este estudio diseña una nueva función por tramos para guiar directamente el código binario discreto. Los experimentos en CIFAR-10, NUS-WIDE e ImageNet-100 muestran que el algoritmo DHIDA logra un mejor rendimiento.