logo móvil
Contáctanos

Multiloss joint gradient control knowledge distillation para clasificación de imágenes

Autores: He, Wei; Pan, Jianchen; Zhang, Jianyu; Zhou, Xichuan; Liu, Jialong; Huang, Xiaoyu; Lin, Yingcheng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Multiloss joint gradient control knowledge distillation para clasificación de imágenes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Destilación de conocimiento
Redes neuronales
Control de Gradiente Conjunto Multiloss Knowledge Distillation
Destilación de características
Destilación de logit
Capacidad de generalización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
Las técnicas de destilación de conocimiento (KD) tienen como objetivo transferir conocimiento de redes neuronales complejas de profesor a redes de estudiante más simples. En este estudio, proponemos un nuevo método de destilación de conocimiento llamado Destilación de Conocimiento de Control de Gradiente Conjunto de Multi-pérdida (MJKD), que funciona combinando de manera efectiva métodos de destilación de conocimiento basados en características y logit con control de gradiente. El método de destilación de conocimiento propuesto considera discretamente los gradientes de la pérdida de tarea (pérdida de entropía cruzada), la pérdida de destilación de características y la pérdida de destilación de logit. Los resultados experimentales sugieren que los logit pueden contener más información y, por lo tanto, deben asignarse un mayor peso durante el proceso de actualización de gradientes en este trabajo. Los hallazgos empíricos en los conjuntos de datos CIFAR-100 y Tiny-ImageNet indican que MJKD generalmente supera a los métodos tradicionales de destilación de conocimiento, mejorando significativamente la capacidad de generalización y la precisión de clasificación de las redes de estudiantes. Por ejemplo, MJKD logra una precisión del 63.53% en Tiny-ImageNet para el par ResNet18 MobileNetV2. Además, presentamos visualizaciones y análisis para explorar sus posibles mecanismos de funcionamiento.

Otros recursos que podrían interesarte

Temas Virtualpro