Glmafuse: un marco de fusión de imágenes visible e infrarrojas de doble flujo que integra características locales y globales con atención a múltiples escalas
Autores: Li, Fu; Gu, Yanghai; Zhao, Ming; Chen, Deji; Wang, Quan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Glmafuse: un marco de fusión de imágenes visible e infrarrojas de doble flujo que integra características locales y globales con atención a múltiples escalas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Infrarrojo
Luz visible
Técnicas de fusión basadas en CNN
Modelos basados en Transformer
Mecanismo de atención multi-escala
GLMAFuse
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Integrar imágenes infrarrojas y de luz visible facilita una comprensión más completa de las escenas al amalgamar datos de sensores duales derivados de entornos idénticos. Las técnicas de fusión basadas en CNN tradicionales están predominantemente limitadas a la atención de características locales debido a sus campos receptivos inherentemente limitados. Por el contrario, los modelos basados en Transformer tienden a priorizar la información global, lo que puede llevar a una deficiencia en la diversidad de características y la retención de detalles. Además, los métodos que dependen de la extracción de características a una sola escala son inadecuados para capturar información extensa de la escena. Para abordar estas limitaciones, este estudio presenta GLMAFuse, una innovadora red codificador-decodificador de doble flujo, que utiliza un mecanismo de atención multi-escala para integrar armónicamente características globales y locales. Este marco está diseñado para maximizar la extracción de características multi-escala de las imágenes fuente mientras sintetiza eficazmente información local y global en todas las capas. Introducimos el módulo de incrustación global y local (GALE) para capturar y fusionar hábilmente atributos estructurales globales y detalles localizados de imágenes infrarrojas y visibles a través de una arquitectura de doble rama paralela. Además, el módulo de fusión de atención multi-escala (MSAF) está diseñado para optimizar los pesos de atención a nivel de canal, facilitando una sinergia mejorada entre detalles de bordes de alta frecuencia y fondos globales. Esto promueve una interacción efectiva y fusión de características duales modales. Evaluaciones extensas utilizando conjuntos de datos estándar demuestran que GLMAFuse supera a los métodos líderes existentes tanto en evaluaciones cualitativas como cuantitativas, destacando su capacidad superior en la fusión de imágenes infrarrojas y visibles. En los conjuntos de datos TNO y MSRS, nuestro método logra un rendimiento sobresaliente en múltiples métricas, incluyendo EN (7.15, 6.75), SD (46.72, 47.55), SF (12.79, 12.56), MI (2.21, 3.22), SCD (1.75, 1.80), VIF (0.79, 1.08), Qbaf (0.58, 0.71) y SSIM (0.99, 1.00). Estos resultados subrayan su excepcional eficacia en la fusión de imágenes infrarrojas y visibles.
Descripción
Integrar imágenes infrarrojas y de luz visible facilita una comprensión más completa de las escenas al amalgamar datos de sensores duales derivados de entornos idénticos. Las técnicas de fusión basadas en CNN tradicionales están predominantemente limitadas a la atención de características locales debido a sus campos receptivos inherentemente limitados. Por el contrario, los modelos basados en Transformer tienden a priorizar la información global, lo que puede llevar a una deficiencia en la diversidad de características y la retención de detalles. Además, los métodos que dependen de la extracción de características a una sola escala son inadecuados para capturar información extensa de la escena. Para abordar estas limitaciones, este estudio presenta GLMAFuse, una innovadora red codificador-decodificador de doble flujo, que utiliza un mecanismo de atención multi-escala para integrar armónicamente características globales y locales. Este marco está diseñado para maximizar la extracción de características multi-escala de las imágenes fuente mientras sintetiza eficazmente información local y global en todas las capas. Introducimos el módulo de incrustación global y local (GALE) para capturar y fusionar hábilmente atributos estructurales globales y detalles localizados de imágenes infrarrojas y visibles a través de una arquitectura de doble rama paralela. Además, el módulo de fusión de atención multi-escala (MSAF) está diseñado para optimizar los pesos de atención a nivel de canal, facilitando una sinergia mejorada entre detalles de bordes de alta frecuencia y fondos globales. Esto promueve una interacción efectiva y fusión de características duales modales. Evaluaciones extensas utilizando conjuntos de datos estándar demuestran que GLMAFuse supera a los métodos líderes existentes tanto en evaluaciones cualitativas como cuantitativas, destacando su capacidad superior en la fusión de imágenes infrarrojas y visibles. En los conjuntos de datos TNO y MSRS, nuestro método logra un rendimiento sobresaliente en múltiples métricas, incluyendo EN (7.15, 6.75), SD (46.72, 47.55), SF (12.79, 12.56), MI (2.21, 3.22), SCD (1.75, 1.80), VIF (0.79, 1.08), Qbaf (0.58, 0.71) y SSIM (0.99, 1.00). Estos resultados subrayan su excepcional eficacia en la fusión de imágenes infrarrojas y visibles.