Clasificación de imágenes de pocas muestras basada en Swin Transformer + CSAM + EMD
Autores: Sun, Huadong; Zhang, Pengyi; Zhang, Xu; Han, Xiaowei
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Clasificación de imágenes de pocas muestras basada en Swin Transformer + CSAM + EMD
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Clasificación de imágenes de pocas muestras
Swin Transformer
CSAM
Distancia del Transportista de la Tierra
Extracción de características
Redes neuronales convolucionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 59
Citaciones: Sin citaciones
En la clasificación de imágenes de pocas muestras (FSIC), el módulo de extracción de características de las redes neuronales convolucionales tradicionales suele estar limitado por la naturaleza local del núcleo convolucional. Como resultado, se vuelve desafiante manejar la información global y las dependencias a larga distancia de manera efectiva. Para abordar este problema, se propone en este artículo un innovador método FSIC, que es la integración del Transformador Swin y la tecnología CSAM y Distancia del Transportista de Tierra (EMD) (STCE). Utilizamos la red del Transformador Swin para la extracción de características de la imagen, y realizamos un pesaje de características del mecanismo de atención CSAM en el mapa de características de salida, mientras adoptamos el algoritmo EMD para generar el flujo de coincidencia óptimo entre las unidades estructurales, minimizando el costo de coincidencia. Este enfoque permite una representación más precisa de la distancia de clasificación entre imágenes. Hemos realizado numerosos experimentos para validar la efectividad de nuestro algoritmo. En tres conjuntos de datos de pocas muestras comúnmente utilizados, a saber, mini-ImageNet, tiered-ImageNet y FC100, la precisión de una muestra y cinco muestras ha alcanzado el estado del arte (SOTA) en el FSIC; mini-ImageNet alcanza una precisión del 98.65 +/- 0.1% para tareas de una muestra y del 99.6 +/- 0.2% para tareas de cinco muestras, mientras que tiered ImageNet tiene una precisión del 91.6 +/- 0.1% para tareas de una muestra y del 96.55 +/- 0.27% para tareas de cinco muestras. Para FC100, la precisión es del 64.1 +/- 0.3% para tareas de una muestra y del 79.8 +/- 0.69% para tareas de cinco muestras. En dos conjuntos de datos de pocas muestras comúnmente utilizados, a saber, CUB, CIFAR-FS, CUB alcanza una precisión del 83.1 +/- 0.4% para una muestra y del 92.88 +/- 0.4% para tareas de cinco muestras, mientras que CIFAR-FS alcanza una precisión del 86.95 +/- 0.2% para tareas de una muestra y del 94 +/- 0.4% para tareas de cinco muestras.
Descripción
En la clasificación de imágenes de pocas muestras (FSIC), el módulo de extracción de características de las redes neuronales convolucionales tradicionales suele estar limitado por la naturaleza local del núcleo convolucional. Como resultado, se vuelve desafiante manejar la información global y las dependencias a larga distancia de manera efectiva. Para abordar este problema, se propone en este artículo un innovador método FSIC, que es la integración del Transformador Swin y la tecnología CSAM y Distancia del Transportista de Tierra (EMD) (STCE). Utilizamos la red del Transformador Swin para la extracción de características de la imagen, y realizamos un pesaje de características del mecanismo de atención CSAM en el mapa de características de salida, mientras adoptamos el algoritmo EMD para generar el flujo de coincidencia óptimo entre las unidades estructurales, minimizando el costo de coincidencia. Este enfoque permite una representación más precisa de la distancia de clasificación entre imágenes. Hemos realizado numerosos experimentos para validar la efectividad de nuestro algoritmo. En tres conjuntos de datos de pocas muestras comúnmente utilizados, a saber, mini-ImageNet, tiered-ImageNet y FC100, la precisión de una muestra y cinco muestras ha alcanzado el estado del arte (SOTA) en el FSIC; mini-ImageNet alcanza una precisión del 98.65 +/- 0.1% para tareas de una muestra y del 99.6 +/- 0.2% para tareas de cinco muestras, mientras que tiered ImageNet tiene una precisión del 91.6 +/- 0.1% para tareas de una muestra y del 96.55 +/- 0.27% para tareas de cinco muestras. Para FC100, la precisión es del 64.1 +/- 0.3% para tareas de una muestra y del 79.8 +/- 0.69% para tareas de cinco muestras. En dos conjuntos de datos de pocas muestras comúnmente utilizados, a saber, CUB, CIFAR-FS, CUB alcanza una precisión del 83.1 +/- 0.4% para una muestra y del 92.88 +/- 0.4% para tareas de cinco muestras, mientras que CIFAR-FS alcanza una precisión del 86.95 +/- 0.2% para tareas de una muestra y del 94 +/- 0.4% para tareas de cinco muestras.