Un método robusto de aprendizaje generalizado de cero con prototipo de atributo y mecanismo de atención discriminativa
Autores: Liu, Xiaodong; Luo, Weixing; Du, Jiale; Wang, Xinshuo; Dang, Yuhao; Liu, Yang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método robusto de aprendizaje generalizado de cero con prototipo de atributo y mecanismo de atención discriminativa
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Campo
Aprendizaje generalizado de cero disparos
CBAM
Módulo de atención de bloque convolucional
ResNet101
Incrustación visual-semántica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
En el campo del Aprendizaje Generalizado de Cero Disparos (GZSL), el desafío radica en aprender información basada en atributos de las clases vistas y transmitir eficazmente este conocimiento para reconocer tanto las categorías vistas como las no vistas durante el proceso de entrenamiento. Este artículo propone un enfoque innovador para mejorar la capacidad de generalización y eficiencia de los modelos GZSL mediante la integración de un Módulo de Atención en Bloque Convolucional (CBAM). El CBAM combina información a nivel de canal y a nivel espacial para enfatizar características clave, mejorando así las capacidades discriminatorias y de localización del modelo. Además, el método emplea una estructura ResNet101 para la extracción sistemática de características de imagen, aprendizaje contrastivo mejorado y un generador de mapas de similitud con prototipos de atributos. Este marco integral tiene como objetivo lograr un incrustado visual-semántico robusto para tareas de clasificación. El método propuesto demuestra mejoras significativas en las métricas de rendimiento en conjuntos de datos de referencia, mostrando su potencial en el avance de las aplicaciones de GZSL.
Descripción
En el campo del Aprendizaje Generalizado de Cero Disparos (GZSL), el desafío radica en aprender información basada en atributos de las clases vistas y transmitir eficazmente este conocimiento para reconocer tanto las categorías vistas como las no vistas durante el proceso de entrenamiento. Este artículo propone un enfoque innovador para mejorar la capacidad de generalización y eficiencia de los modelos GZSL mediante la integración de un Módulo de Atención en Bloque Convolucional (CBAM). El CBAM combina información a nivel de canal y a nivel espacial para enfatizar características clave, mejorando así las capacidades discriminatorias y de localización del modelo. Además, el método emplea una estructura ResNet101 para la extracción sistemática de características de imagen, aprendizaje contrastivo mejorado y un generador de mapas de similitud con prototipos de atributos. Este marco integral tiene como objetivo lograr un incrustado visual-semántico robusto para tareas de clasificación. El método propuesto demuestra mejoras significativas en las métricas de rendimiento en conjuntos de datos de referencia, mostrando su potencial en el avance de las aplicaciones de GZSL.