logo móvil
Contáctanos

Eficaz destilación del conocimiento en línea a través de la combinación de modelos basados en atención

Autores: Borza, Diana-Laura; Darabant, Adrian Sergiu; Ileni, Tudor Alexandru; Marinescu, Alexandru-Ion

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Eficaz destilación del conocimiento en línea a través de la combinación de modelos basados en atención


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelos de aprendizaje profundo
Implementación en dispositivos edge
Destilación de conocimiento
Red estudiante ligera
Mecanismo de atención
Conjunto de modelos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Los modelos de aprendizaje profundo a gran escala han logrado resultados impresionantes en una variedad de tareas; sin embargo, su implementación en dispositivos móviles o de borde sigue siendo un desafío debido a la memoria limitada disponible y la capacidad computacional. La destilación de conocimiento es una técnica efectiva de compresión de modelos, que puede mejorar el rendimiento de una red estudiantil liviana transfiriendo el conocimiento de un modelo más complejo o un conjunto de modelos. Debido a su tamaño reducido, este modelo liviano es más adecuado para su implementación en dispositivos de borde. En este documento, presentamos un marco de destilación de conocimiento en línea, que se basa en un mecanismo de atención original para combinar de manera efectiva las predicciones de un grupo de redes estudiantiles livianas en un conjunto potente, y utilizar esto como una señal de destilación. La estrategia de agregación propuesta utiliza las predicciones de los estudiantes individuales, así como datos de verdad terreno para determinar un conjunto de pesos necesarios para combinar estas predicciones. Este mecanismo se utiliza únicamente durante el entrenamiento del sistema. Al probar o en el momento de la inferencia, se extrae y utiliza un solo estudiante liviano. Los extensos experimentos que realizamos en varios benchmarks de clasificación de imágenes, tanto entrenando modelos desde cero (en conjuntos de datos CIFAR-10, CIFAR-100 y Tiny ImageNet) como utilizando transfer learning (en conjuntos de datos Oxford Pets y Oxford Flowers), mostraron que el marco propuesto siempre conduce a una mejora en la precisión de los estudiantes destilados de conocimiento y demuestra la efectividad de la solución propuesta. Además, en el caso de la arquitectura ResNet, observamos que el modelo destilado de conocimiento logra una precisión mayor que un modelo ResNet más profundo entrenado individualmente.

Otros recursos que podrían interesarte

Temas Virtualpro