Pcnet: aprovechando la complementariedad del prototipo para mejorar la afinidad del prototipo para la segmentación de pocas tomas
Autores: Wang, Jing-Yu; Liu, Shang-Kun; Guo, Shi-Cheng; Jiang, Cheng-Yu; Zheng, Wei-Min
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Pcnet: aprovechando la complementariedad del prototipo para mejorar la afinidad del prototipo para la segmentación de pocas tomas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Conjuntos de datos a gran escala
Segmentación semántica de pocas tomas
Marco de metaaprendizaje
Brecha intraclase
Características de complementariedad de prototipos
Segmentación semántica de pequeñas muestras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Con la llegada de conjuntos de datos a gran escala, se han logrado avances significativos en la segmentación semántica de imágenes. Sin embargo, la anotación de estos conjuntos de datos requiere recursos humanos y financieros sustanciales. Por lo tanto, el enfoque de la investigación se ha desplazado hacia la segmentación semántica de pocas muestras, que aprovecha un pequeño número de muestras etiquetadas para segmentar eficazmente categorías desconocidas. Los métodos principales actuales consisten en utilizar el marco de meta-aprendizaje para lograr la generalización del modelo, y los principales desafíos son los siguientes. (1) El modelo entrenado estará sesgado hacia la clase vista, por lo que el modelo activará erróneamente la clase vista al segmentar la clase no vista, lo que dificulta lograr el efecto agnóstico de clase idealizado. (2) Cuando el tamaño de la muestra es limitado, existe una brecha intraclase entre las imágenes de soporte proporcionadas y las imágenes de consulta, lo que afecta significativamente la capacidad de generalización del modelo. Para resolver los dos problemas anteriores, proponemos una red con características de complementariedad de prototipos (PCNet). Específicamente, primero generamos un prototipo de consulta de auto-soporte basado en la imagen de consulta. A través de la auto-destilación, el prototipo de consulta y el prototipo de soporte realizan un aprendizaje complementario de características, lo que reduce efectivamente la influencia de la brecha intraclase en la generalización del modelo. Se introduce un modelo estándar de segmentación semántica para segmentar las clases vistas durante el proceso de entrenamiento para lograr un escudo preciso de clases irrelevantes. Después, utilizamos el mapa de predicción aproximado para extraer su prototipo de fondo y proteger el fondo en la imagen de consulta mediante el prototipo de fondo. De esta manera, obtenemos resultados de segmentación más precisos y detallados. El método propuesto muestra superioridad en experimentos extensos realizados en los conjuntos de datos PASCAL y COCO. Logramos nuevos resultados de vanguardia en la tarea de segmentación semántica de pocas muestras, con un mIoU del 71.27% y 51.71% en el escenario de 5 muestras, respectivamente. Experimentos de ablación exhaustivos y estudios de visualización muestran que el método propuesto tiene un efecto significativo en la segmentación semántica de muestras pequeñas.
Descripción
Con la llegada de conjuntos de datos a gran escala, se han logrado avances significativos en la segmentación semántica de imágenes. Sin embargo, la anotación de estos conjuntos de datos requiere recursos humanos y financieros sustanciales. Por lo tanto, el enfoque de la investigación se ha desplazado hacia la segmentación semántica de pocas muestras, que aprovecha un pequeño número de muestras etiquetadas para segmentar eficazmente categorías desconocidas. Los métodos principales actuales consisten en utilizar el marco de meta-aprendizaje para lograr la generalización del modelo, y los principales desafíos son los siguientes. (1) El modelo entrenado estará sesgado hacia la clase vista, por lo que el modelo activará erróneamente la clase vista al segmentar la clase no vista, lo que dificulta lograr el efecto agnóstico de clase idealizado. (2) Cuando el tamaño de la muestra es limitado, existe una brecha intraclase entre las imágenes de soporte proporcionadas y las imágenes de consulta, lo que afecta significativamente la capacidad de generalización del modelo. Para resolver los dos problemas anteriores, proponemos una red con características de complementariedad de prototipos (PCNet). Específicamente, primero generamos un prototipo de consulta de auto-soporte basado en la imagen de consulta. A través de la auto-destilación, el prototipo de consulta y el prototipo de soporte realizan un aprendizaje complementario de características, lo que reduce efectivamente la influencia de la brecha intraclase en la generalización del modelo. Se introduce un modelo estándar de segmentación semántica para segmentar las clases vistas durante el proceso de entrenamiento para lograr un escudo preciso de clases irrelevantes. Después, utilizamos el mapa de predicción aproximado para extraer su prototipo de fondo y proteger el fondo en la imagen de consulta mediante el prototipo de fondo. De esta manera, obtenemos resultados de segmentación más precisos y detallados. El método propuesto muestra superioridad en experimentos extensos realizados en los conjuntos de datos PASCAL y COCO. Logramos nuevos resultados de vanguardia en la tarea de segmentación semántica de pocas muestras, con un mIoU del 71.27% y 51.71% en el escenario de 5 muestras, respectivamente. Experimentos de ablación exhaustivos y estudios de visualización muestran que el método propuesto tiene un efecto significativo en la segmentación semántica de muestras pequeñas.