Eficaz destilación del conocimiento en línea a través de la combinación de modelos basados en atención
Autores: Borza, Diana-Laura; Darabant, Adrian Sergiu; Ileni, Tudor Alexandru; Marinescu, Alexandru-Ion
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Eficaz destilación del conocimiento en línea a través de la combinación de modelos basados en atención
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelos de aprendizaje profundo
Implementación en dispositivos edge
Destilación de conocimiento
Red estudiante ligera
Mecanismo de atención
Conjunto de modelos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Los modelos de aprendizaje profundo a gran escala han logrado resultados impresionantes en una variedad de tareas; sin embargo, su implementación en dispositivos móviles o de borde sigue siendo un desafío debido a la memoria limitada disponible y la capacidad computacional. La destilación de conocimiento es una técnica efectiva de compresión de modelos, que puede mejorar el rendimiento de una red estudiantil liviana transfiriendo el conocimiento de un modelo más complejo o un conjunto de modelos. Debido a su tamaño reducido, este modelo liviano es más adecuado para su implementación en dispositivos de borde. En este documento, presentamos un marco de destilación de conocimiento en línea, que se basa en un mecanismo de atención original para combinar de manera efectiva las predicciones de un grupo de redes estudiantiles livianas en un conjunto potente, y utilizar esto como una señal de destilación. La estrategia de agregación propuesta utiliza las predicciones de los estudiantes individuales, así como datos de verdad terreno para determinar un conjunto de pesos necesarios para combinar estas predicciones. Este mecanismo se utiliza únicamente durante el entrenamiento del sistema. Al probar o en el momento de la inferencia, se extrae y utiliza un solo estudiante liviano. Los extensos experimentos que realizamos en varios benchmarks de clasificación de imágenes, tanto entrenando modelos desde cero (en conjuntos de datos CIFAR-10, CIFAR-100 y Tiny ImageNet) como utilizando transfer learning (en conjuntos de datos Oxford Pets y Oxford Flowers), mostraron que el marco propuesto siempre conduce a una mejora en la precisión de los estudiantes destilados de conocimiento y demuestra la efectividad de la solución propuesta. Además, en el caso de la arquitectura ResNet, observamos que el modelo destilado de conocimiento logra una precisión mayor que un modelo ResNet más profundo entrenado individualmente.
Descripción
Los modelos de aprendizaje profundo a gran escala han logrado resultados impresionantes en una variedad de tareas; sin embargo, su implementación en dispositivos móviles o de borde sigue siendo un desafío debido a la memoria limitada disponible y la capacidad computacional. La destilación de conocimiento es una técnica efectiva de compresión de modelos, que puede mejorar el rendimiento de una red estudiantil liviana transfiriendo el conocimiento de un modelo más complejo o un conjunto de modelos. Debido a su tamaño reducido, este modelo liviano es más adecuado para su implementación en dispositivos de borde. En este documento, presentamos un marco de destilación de conocimiento en línea, que se basa en un mecanismo de atención original para combinar de manera efectiva las predicciones de un grupo de redes estudiantiles livianas en un conjunto potente, y utilizar esto como una señal de destilación. La estrategia de agregación propuesta utiliza las predicciones de los estudiantes individuales, así como datos de verdad terreno para determinar un conjunto de pesos necesarios para combinar estas predicciones. Este mecanismo se utiliza únicamente durante el entrenamiento del sistema. Al probar o en el momento de la inferencia, se extrae y utiliza un solo estudiante liviano. Los extensos experimentos que realizamos en varios benchmarks de clasificación de imágenes, tanto entrenando modelos desde cero (en conjuntos de datos CIFAR-10, CIFAR-100 y Tiny ImageNet) como utilizando transfer learning (en conjuntos de datos Oxford Pets y Oxford Flowers), mostraron que el marco propuesto siempre conduce a una mejora en la precisión de los estudiantes destilados de conocimiento y demuestra la efectividad de la solución propuesta. Además, en el caso de la arquitectura ResNet, observamos que el modelo destilado de conocimiento logra una precisión mayor que un modelo ResNet más profundo entrenado individualmente.