Multiloss joint gradient control knowledge distillation para clasificación de imágenes
Autores: He, Wei; Pan, Jianchen; Zhang, Jianyu; Zhou, Xichuan; Liu, Jialong; Huang, Xiaoyu; Lin, Yingcheng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Multiloss joint gradient control knowledge distillation para clasificación de imágenes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Destilación de conocimiento
Redes neuronales
Control de Gradiente Conjunto Multiloss Knowledge Distillation
Destilación de características
Destilación de logit
Capacidad de generalización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Las técnicas de destilación de conocimiento (KD) tienen como objetivo transferir conocimiento de redes neuronales complejas de profesor a redes de estudiante más simples. En este estudio, proponemos un nuevo método de destilación de conocimiento llamado Destilación de Conocimiento de Control de Gradiente Conjunto de Multi-pérdida (MJKD), que funciona combinando de manera efectiva métodos de destilación de conocimiento basados en características y logit con control de gradiente. El método de destilación de conocimiento propuesto considera discretamente los gradientes de la pérdida de tarea (pérdida de entropía cruzada), la pérdida de destilación de características y la pérdida de destilación de logit. Los resultados experimentales sugieren que los logit pueden contener más información y, por lo tanto, deben asignarse un mayor peso durante el proceso de actualización de gradientes en este trabajo. Los hallazgos empíricos en los conjuntos de datos CIFAR-100 y Tiny-ImageNet indican que MJKD generalmente supera a los métodos tradicionales de destilación de conocimiento, mejorando significativamente la capacidad de generalización y la precisión de clasificación de las redes de estudiantes. Por ejemplo, MJKD logra una precisión del 63.53% en Tiny-ImageNet para el par ResNet18 MobileNetV2. Además, presentamos visualizaciones y análisis para explorar sus posibles mecanismos de funcionamiento.
Descripción
Las técnicas de destilación de conocimiento (KD) tienen como objetivo transferir conocimiento de redes neuronales complejas de profesor a redes de estudiante más simples. En este estudio, proponemos un nuevo método de destilación de conocimiento llamado Destilación de Conocimiento de Control de Gradiente Conjunto de Multi-pérdida (MJKD), que funciona combinando de manera efectiva métodos de destilación de conocimiento basados en características y logit con control de gradiente. El método de destilación de conocimiento propuesto considera discretamente los gradientes de la pérdida de tarea (pérdida de entropía cruzada), la pérdida de destilación de características y la pérdida de destilación de logit. Los resultados experimentales sugieren que los logit pueden contener más información y, por lo tanto, deben asignarse un mayor peso durante el proceso de actualización de gradientes en este trabajo. Los hallazgos empíricos en los conjuntos de datos CIFAR-100 y Tiny-ImageNet indican que MJKD generalmente supera a los métodos tradicionales de destilación de conocimiento, mejorando significativamente la capacidad de generalización y la precisión de clasificación de las redes de estudiantes. Por ejemplo, MJKD logra una precisión del 63.53% en Tiny-ImageNet para el par ResNet18 MobileNetV2. Además, presentamos visualizaciones y análisis para explorar sus posibles mecanismos de funcionamiento.