La clasificación de imágenes hiperespectrales utilizando un transformador ligero de múltiples escalas
Autores: Gu, Quan; Luan, Hongkang; Huang, Kaixuan; Sun, Yubao
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
La clasificación de imágenes hiperespectrales utilizando un transformador ligero de múltiples escalas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Imágenes hiperespectrales
Redes neuronales convolucionales
Módulos de atención
Transformador de Visión
Dependencia espectral-espacial
Transformador ligero de dominio de frecuencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 53
Citaciones: Sin citaciones
La característica distintiva de las imágenes hiperespectrales (HSIs) es su gran cantidad de bandas espectrales, lo que nos permite identificar categorías de objetos terrestres capturando discrepancias en la información espectral. Las redes neuronales convolucionales (CNN) con módulos de atención mejoran efectivamente la precisión de clasificación de HSI. Sin embargo, las CNN no tienen éxito en capturar dependencias espectrales-espaciales a larga distancia. En los últimos años, el Transformador de Visión (VIT) ha recibido amplia atención debido a su excelente rendimiento en la adquisición de características a larga distancia. Sin embargo, requiere calcular la correlación par a par entre incrustaciones de tokens y tiene una complejidad cuadrática del número de tokens, lo que conlleva un aumento en la complejidad computacional de la red. Para hacer frente a este problema, este documento propone una red de atención espectral-espacial a escala múltiple con Transformador ligero en el dominio de frecuencia (MSA-LWFormer) para la clasificación de HSI. Este método integra sinérgicamente CNN, mecanismos de atención y Transformador en el módulo de extracción de características espectrales-espaciales y el módulo de clasificación fusionado en el dominio de frecuencia. Específicamente, el módulo de extracción de características espectrales-espaciales utiliza una CNN 2D a escala múltiple con atención espectral a escala múltiple (MS-SA) para extraer las características espectrales-espaciales superficiales y capturar la dependencia espectral a larga distancia. Además, el módulo de clasificación fusionado en el dominio de frecuencia diseña un Transformador ligero en el dominio de frecuencia que emplea la Transformada Rápida de Fourier (FFT) para convertir características del dominio espacial al dominio de frecuencia, extrayendo efectivamente información global y reduciendo significativamente la complejidad temporal de la red. Experimentos en tres conjuntos de datos hiperespectrales clásicos muestran que MSA-LWFormer tiene un excelente rendimiento.
Descripción
La característica distintiva de las imágenes hiperespectrales (HSIs) es su gran cantidad de bandas espectrales, lo que nos permite identificar categorías de objetos terrestres capturando discrepancias en la información espectral. Las redes neuronales convolucionales (CNN) con módulos de atención mejoran efectivamente la precisión de clasificación de HSI. Sin embargo, las CNN no tienen éxito en capturar dependencias espectrales-espaciales a larga distancia. En los últimos años, el Transformador de Visión (VIT) ha recibido amplia atención debido a su excelente rendimiento en la adquisición de características a larga distancia. Sin embargo, requiere calcular la correlación par a par entre incrustaciones de tokens y tiene una complejidad cuadrática del número de tokens, lo que conlleva un aumento en la complejidad computacional de la red. Para hacer frente a este problema, este documento propone una red de atención espectral-espacial a escala múltiple con Transformador ligero en el dominio de frecuencia (MSA-LWFormer) para la clasificación de HSI. Este método integra sinérgicamente CNN, mecanismos de atención y Transformador en el módulo de extracción de características espectrales-espaciales y el módulo de clasificación fusionado en el dominio de frecuencia. Específicamente, el módulo de extracción de características espectrales-espaciales utiliza una CNN 2D a escala múltiple con atención espectral a escala múltiple (MS-SA) para extraer las características espectrales-espaciales superficiales y capturar la dependencia espectral a larga distancia. Además, el módulo de clasificación fusionado en el dominio de frecuencia diseña un Transformador ligero en el dominio de frecuencia que emplea la Transformada Rápida de Fourier (FFT) para convertir características del dominio espacial al dominio de frecuencia, extrayendo efectivamente información global y reduciendo significativamente la complejidad temporal de la red. Experimentos en tres conjuntos de datos hiperespectrales clásicos muestran que MSA-LWFormer tiene un excelente rendimiento.