Clasificación de imágenes de pocas muestras basada en Swin Transformer + CSAM + EMD

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Clasificación de imágenes de pocas muestras basada en Swin Transformer + CSAM + EMD

Autores: Sun, Huadong; Zhang, Pengyi; Zhang, Xu; Han, Xiaowei

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Clasificación de imágenes de pocas muestras basada en Swin Transformer + CSAM + EMD

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Clasificación de imágenes de pocas muestras

Swin Transformer

CSAM

Distancia del Transportista de la Tierra

Extracción de características

Redes neuronales convolucionales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 59

Citaciones: Sin citaciones

En la clasificación de imágenes de pocas muestras (FSIC), el módulo de extracción de características de las redes neuronales convolucionales tradicionales suele estar limitado por la naturaleza local del núcleo convolucional. Como resultado, se vuelve desafiante manejar la información global y las dependencias a larga distancia de manera efectiva. Para abordar este problema, se propone en este artículo un innovador método FSIC, que es la integración del Transformador Swin y la tecnología CSAM y Distancia del Transportista de Tierra (EMD) (STCE). Utilizamos la red del Transformador Swin para la extracción de características de la imagen, y realizamos un pesaje de características del mecanismo de atención CSAM en el mapa de características de salida, mientras adoptamos el algoritmo EMD para generar el flujo de coincidencia óptimo entre las unidades estructurales, minimizando el costo de coincidencia. Este enfoque permite una representación más precisa de la distancia de clasificación entre imágenes. Hemos realizado numerosos experimentos para validar la efectividad de nuestro algoritmo. En tres conjuntos de datos de pocas muestras comúnmente utilizados, a saber, mini-ImageNet, tiered-ImageNet y FC100, la precisión de una muestra y cinco muestras ha alcanzado el estado del arte (SOTA) en el FSIC; mini-ImageNet alcanza una precisión del 98.65 +/- 0.1% para tareas de una muestra y del 99.6 +/- 0.2% para tareas de cinco muestras, mientras que tiered ImageNet tiene una precisión del 91.6 +/- 0.1% para tareas de una muestra y del 96.55 +/- 0.27% para tareas de cinco muestras. Para FC100, la precisión es del 64.1 +/- 0.3% para tareas de una muestra y del 79.8 +/- 0.69% para tareas de cinco muestras. En dos conjuntos de datos de pocas muestras comúnmente utilizados, a saber, CUB, CIFAR-FS, CUB alcanza una precisión del 83.1 +/- 0.4% para una muestra y del 92.88 +/- 0.4% para tareas de cinco muestras, mientras que CIFAR-FS alcanza una precisión del 86.95 +/- 0.2% para tareas de una muestra y del 94 +/- 0.4% para tareas de cinco muestras.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro