Bi-level distilación ortogonal multi-maestro
Autores: Gong, Shuyue; Wen, Weigang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Bi-level distilación ortogonal multi-maestro
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Destilación de conocimiento multi-profesor
BOMD
Optimización bi-nivel
Proyecciones ortogonales
Pérdida de alineación de características
Conjuntos de datos de referencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
La técnica de destilación de conocimiento de múltiples profesores es una técnica poderosa que aprovecha diversas fuentes de información de varios profesores pre-entrenados para mejorar el rendimiento del modelo del estudiante. Sin embargo, los métodos existentes a menudo pasan por alto el desafío de transferir conocimiento de manera efectiva a modelos de estudiantes más débiles. Para abordar esta limitación, proponemos BOMD (Optimización de dos niveles para Destilación de Múltiples Profesores), un enfoque novedoso que combina la optimización de dos niveles con múltiples proyecciones ortogonales. Nuestro método emplea proyecciones ortogonales para alinear las representaciones de características de los profesores con el espacio de características del estudiante mientras se preservan las propiedades estructurales. Esta alineación se refuerza además a través de una pérdida de alineación de características dedicada. Además, utilizamos la optimización de dos niveles para aprender factores de ponderación óptimos para combinar conocimiento de profesores heterogéneos, tratando los pesos como variables de nivel superior y los parámetros del estudiante como variables de nivel inferior. Experimentos extensos en múltiples conjuntos de datos de referencia demuestran la efectividad y flexibilidad de BOMD. Nuestro método logra un rendimiento de vanguardia en el conjunto de datos de referencia CIFAR-100 para la destilación de conocimiento de múltiples profesores en diversos escenarios, superando consistentemente a enfoques existentes. BOMD muestra mejoras significativas tanto para ensambles de profesores homogéneos como heterogéneos, incluso al destilar a modelos de estudiantes compactos.
Descripción
La técnica de destilación de conocimiento de múltiples profesores es una técnica poderosa que aprovecha diversas fuentes de información de varios profesores pre-entrenados para mejorar el rendimiento del modelo del estudiante. Sin embargo, los métodos existentes a menudo pasan por alto el desafío de transferir conocimiento de manera efectiva a modelos de estudiantes más débiles. Para abordar esta limitación, proponemos BOMD (Optimización de dos niveles para Destilación de Múltiples Profesores), un enfoque novedoso que combina la optimización de dos niveles con múltiples proyecciones ortogonales. Nuestro método emplea proyecciones ortogonales para alinear las representaciones de características de los profesores con el espacio de características del estudiante mientras se preservan las propiedades estructurales. Esta alineación se refuerza además a través de una pérdida de alineación de características dedicada. Además, utilizamos la optimización de dos niveles para aprender factores de ponderación óptimos para combinar conocimiento de profesores heterogéneos, tratando los pesos como variables de nivel superior y los parámetros del estudiante como variables de nivel inferior. Experimentos extensos en múltiples conjuntos de datos de referencia demuestran la efectividad y flexibilidad de BOMD. Nuestro método logra un rendimiento de vanguardia en el conjunto de datos de referencia CIFAR-100 para la destilación de conocimiento de múltiples profesores en diversos escenarios, superando consistentemente a enfoques existentes. BOMD muestra mejoras significativas tanto para ensambles de profesores homogéneos como heterogéneos, incluso al destilar a modelos de estudiantes compactos.