Fsca: aprendizaje de pocas muestras a través de la adaptación de incrustaciones con atención de múltiples cabezas en las esquinas
Autores: Xu, Rui; Huang, Jitao; Li, Yuqi; Dong, Dianxin; Liu, Shuang; Tian, Zijing; Ou, Zhonghong; Song, Meina
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Fsca: aprendizaje de pocas muestras a través de la adaptación de incrustaciones con atención de múltiples cabezas en las esquinas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Visión por computadora
Aprendizaje de pocas muestras
Aumento de características
Atención multi-cabeza en esquina
Espacio de representación
Marco de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
La demanda de aplicaciones de visión por computadora ha estado creciendo en los últimos años. Sin embargo, la mayoría de las tareas en escenarios del mundo real se encuentran en un estado de pequeñas cantidades de datos, y la discriminabilidad de las características resulta en un bajo rendimiento en entornos de poca cantidad de datos. Con el fin de obtener características discriminativas en clases desconocidas de manera más robusta, primero proponemos un esquema de aumento de características de poca cantidad de datos simple y efectivo llamado atención multi-cabeza de esquina (CMA). El módulo CMA tiene como objetivo proyectar características de esquina a través de atención multi-cabeza en un espacio de características específico de la tarea a través de la detección de esquinas sin sacrificar la capacidad de generalización del modelo de poca cantidad de datos. Luego construimos un espacio de representación para la clasificación de poca cantidad de datos mediante la incrustación adaptativa del esqueleto (EA). Finalmente, propusimos un marco de clasificación de poca cantidad de datos, denominado FSCA (Adaptación de Incrustación de Poca Cantidad de Datos con Atención Multi-Cabeza de Esquina). Su módulo CMA tiene un bajo acoplamiento, admite plug-and-play y puede integrarse fácilmente en varios modelos. Para verificar la efectividad del esquema propuesto, realizamos experimentos en tres conjuntos de datos de clasificación de poca cantidad de datos, CUB-200-2011, miniImageNet y tieredImageNet, y realizamos un análisis visual de agrupación t-SNE. Los resultados experimentales muestran que logra mejoras continuas sobre los métodos de vanguardia en tres ampliamente utilizados bancos de pruebas de clasificación de poca cantidad de datos. Específicamente, en los datos de miniImageNet, el rendimiento de FSCA bajo las configuraciones de cinco vías, una toma y cinco tomas mejoró en promedio un 1.6-4.5% y un 2.2-5.4%, respectivamente.
Descripción
La demanda de aplicaciones de visión por computadora ha estado creciendo en los últimos años. Sin embargo, la mayoría de las tareas en escenarios del mundo real se encuentran en un estado de pequeñas cantidades de datos, y la discriminabilidad de las características resulta en un bajo rendimiento en entornos de poca cantidad de datos. Con el fin de obtener características discriminativas en clases desconocidas de manera más robusta, primero proponemos un esquema de aumento de características de poca cantidad de datos simple y efectivo llamado atención multi-cabeza de esquina (CMA). El módulo CMA tiene como objetivo proyectar características de esquina a través de atención multi-cabeza en un espacio de características específico de la tarea a través de la detección de esquinas sin sacrificar la capacidad de generalización del modelo de poca cantidad de datos. Luego construimos un espacio de representación para la clasificación de poca cantidad de datos mediante la incrustación adaptativa del esqueleto (EA). Finalmente, propusimos un marco de clasificación de poca cantidad de datos, denominado FSCA (Adaptación de Incrustación de Poca Cantidad de Datos con Atención Multi-Cabeza de Esquina). Su módulo CMA tiene un bajo acoplamiento, admite plug-and-play y puede integrarse fácilmente en varios modelos. Para verificar la efectividad del esquema propuesto, realizamos experimentos en tres conjuntos de datos de clasificación de poca cantidad de datos, CUB-200-2011, miniImageNet y tieredImageNet, y realizamos un análisis visual de agrupación t-SNE. Los resultados experimentales muestran que logra mejoras continuas sobre los métodos de vanguardia en tres ampliamente utilizados bancos de pruebas de clasificación de poca cantidad de datos. Específicamente, en los datos de miniImageNet, el rendimiento de FSCA bajo las configuraciones de cinco vías, una toma y cinco tomas mejoró en promedio un 1.6-4.5% y un 2.2-5.4%, respectivamente.