logo móvil
Contáctanos

La clasificación de imágenes hiperespectrales utilizando un transformador ligero de múltiples escalas

Autores: Gu, Quan; Luan, Hongkang; Huang, Kaixuan; Sun, Yubao

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

La clasificación de imágenes hiperespectrales utilizando un transformador ligero de múltiples escalas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Imágenes hiperespectrales
Redes neuronales convolucionales
Módulos de atención
Transformador de Visión
Dependencia espectral-espacial
Transformador ligero de dominio de frecuencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 53

Citaciones: Sin citaciones


Descripción
La característica distintiva de las imágenes hiperespectrales (HSIs) es su gran cantidad de bandas espectrales, lo que nos permite identificar categorías de objetos terrestres capturando discrepancias en la información espectral. Las redes neuronales convolucionales (CNN) con módulos de atención mejoran efectivamente la precisión de clasificación de HSI. Sin embargo, las CNN no tienen éxito en capturar dependencias espectrales-espaciales a larga distancia. En los últimos años, el Transformador de Visión (VIT) ha recibido amplia atención debido a su excelente rendimiento en la adquisición de características a larga distancia. Sin embargo, requiere calcular la correlación par a par entre incrustaciones de tokens y tiene una complejidad cuadrática del número de tokens, lo que conlleva un aumento en la complejidad computacional de la red. Para hacer frente a este problema, este documento propone una red de atención espectral-espacial a escala múltiple con Transformador ligero en el dominio de frecuencia (MSA-LWFormer) para la clasificación de HSI. Este método integra sinérgicamente CNN, mecanismos de atención y Transformador en el módulo de extracción de características espectrales-espaciales y el módulo de clasificación fusionado en el dominio de frecuencia. Específicamente, el módulo de extracción de características espectrales-espaciales utiliza una CNN 2D a escala múltiple con atención espectral a escala múltiple (MS-SA) para extraer las características espectrales-espaciales superficiales y capturar la dependencia espectral a larga distancia. Además, el módulo de clasificación fusionado en el dominio de frecuencia diseña un Transformador ligero en el dominio de frecuencia que emplea la Transformada Rápida de Fourier (FFT) para convertir características del dominio espacial al dominio de frecuencia, extrayendo efectivamente información global y reduciendo significativamente la complejidad temporal de la red. Experimentos en tres conjuntos de datos hiperespectrales clásicos muestran que MSA-LWFormer tiene un excelente rendimiento.

Otros recursos que podrían interesarte

Temas Virtualpro