RCKD: destilación de conocimiento basada en respuestas entre tareas para el análisis de imágenes patológicas
Autores: Kim, Hyunil; Kwak, Tae-Yeong; Chang, Hyeyoon; Kim, Sun Woo; Kim, Injung
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
RCKD: destilación de conocimiento basada en respuestas entre tareas para el análisis de imágenes patológicas
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Aprendizaje por transferencia
Análisis de imágenes patológicas
Destilación de Conocimiento Cruzado basado en Respuestas entre tareas
Segmentación de núcleos
Clasificación de subtipos de cáncer de órganos
Red Neuronal Convolucional con Atención Espacial por Transformadores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Proponemos un marco novedoso de aprendizaje por transferencia para el análisis de imágenes patológicas, la Destilación de Conocimiento basada en Respuestas entre tareas (RCKD), que mejora el rendimiento del modelo al preentrenarlo en un gran conjunto de datos no etiquetados guiado por un modelo docente de alto rendimiento. RCKD primero preentrena un modelo estudiantil para predecir los resultados de segmentación de núcleos del modelo docente para imágenes patológicas no etiquetadas, y luego ajusta finamente el modelo preentrenado para las tareas posteriores, como la clasificación de subtipos de cáncer de órganos y la segmentación de regiones de cáncer, utilizando conjuntos de datos objetivo relativamente pequeños. A diferencia de la destilación de conocimiento convencional, RCKD no requiere que las tareas objetivo de los modelos docente y estudiantil sean las mismas. Además, a diferencia del aprendizaje por transferencia convencional, RCKD puede transferir conocimiento entre modelos con arquitecturas diferentes. Además, proponemos una arquitectura ligera, la Red Neuronal Convolucional con Atención Espacial por Transformadores (CSAT), para procesar imágenes patológicas de alta resolución con memoria y cómputo limitados. CSAT exhibió una precisión top-1 del 78.6% en ImageNet con solo 3M parámetros y 1.08 G operaciones de multiplicación-acumulación (MAC). Cuando es preentrenado por RCKD, CSAT mostró precisión promedio en clasificación y segmentación de 94.2% y 0.673 mIoU en seis conjuntos de datos de imágenes patológicas, lo cual es un 4% y 0.043 mIoU más alto que EfficientNet-B0, y un 7.4% y 0.006 mIoU más alto que ConvNextV2-Atto preentrenado en ImageNet, respectivamente.
Descripción
Proponemos un marco novedoso de aprendizaje por transferencia para el análisis de imágenes patológicas, la Destilación de Conocimiento basada en Respuestas entre tareas (RCKD), que mejora el rendimiento del modelo al preentrenarlo en un gran conjunto de datos no etiquetados guiado por un modelo docente de alto rendimiento. RCKD primero preentrena un modelo estudiantil para predecir los resultados de segmentación de núcleos del modelo docente para imágenes patológicas no etiquetadas, y luego ajusta finamente el modelo preentrenado para las tareas posteriores, como la clasificación de subtipos de cáncer de órganos y la segmentación de regiones de cáncer, utilizando conjuntos de datos objetivo relativamente pequeños. A diferencia de la destilación de conocimiento convencional, RCKD no requiere que las tareas objetivo de los modelos docente y estudiantil sean las mismas. Además, a diferencia del aprendizaje por transferencia convencional, RCKD puede transferir conocimiento entre modelos con arquitecturas diferentes. Además, proponemos una arquitectura ligera, la Red Neuronal Convolucional con Atención Espacial por Transformadores (CSAT), para procesar imágenes patológicas de alta resolución con memoria y cómputo limitados. CSAT exhibió una precisión top-1 del 78.6% en ImageNet con solo 3M parámetros y 1.08 G operaciones de multiplicación-acumulación (MAC). Cuando es preentrenado por RCKD, CSAT mostró precisión promedio en clasificación y segmentación de 94.2% y 0.673 mIoU en seis conjuntos de datos de imágenes patológicas, lo cual es un 4% y 0.043 mIoU más alto que EfficientNet-B0, y un 7.4% y 0.006 mIoU más alto que ConvNextV2-Atto preentrenado en ImageNet, respectivamente.