Eficaz destilación del conocimiento en línea a través de la combinación de modelos basados en atención

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Eficaz destilación del conocimiento en línea a través de la combinación de modelos basados en atención

Autores: Borza, Diana-Laura; Darabant, Adrian Sergiu; Ileni, Tudor Alexandru; Marinescu, Alexandru-Ion

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Eficaz destilación del conocimiento en línea a través de la combinación de modelos basados en atención

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelos de aprendizaje profundo

Implementación en dispositivos edge

Destilación de conocimiento

Red estudiante ligera

Mecanismo de atención

Conjunto de modelos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

Los modelos de aprendizaje profundo a gran escala han logrado resultados impresionantes en una variedad de tareas; sin embargo, su implementación en dispositivos móviles o de borde sigue siendo un desafío debido a la memoria limitada disponible y la capacidad computacional. La destilación de conocimiento es una técnica efectiva de compresión de modelos, que puede mejorar el rendimiento de una red estudiantil liviana transfiriendo el conocimiento de un modelo más complejo o un conjunto de modelos. Debido a su tamaño reducido, este modelo liviano es más adecuado para su implementación en dispositivos de borde. En este documento, presentamos un marco de destilación de conocimiento en línea, que se basa en un mecanismo de atención original para combinar de manera efectiva las predicciones de un grupo de redes estudiantiles livianas en un conjunto potente, y utilizar esto como una señal de destilación. La estrategia de agregación propuesta utiliza las predicciones de los estudiantes individuales, así como datos de verdad terreno para determinar un conjunto de pesos necesarios para combinar estas predicciones. Este mecanismo se utiliza únicamente durante el entrenamiento del sistema. Al probar o en el momento de la inferencia, se extrae y utiliza un solo estudiante liviano. Los extensos experimentos que realizamos en varios benchmarks de clasificación de imágenes, tanto entrenando modelos desde cero (en conjuntos de datos CIFAR-10, CIFAR-100 y Tiny ImageNet) como utilizando transfer learning (en conjuntos de datos Oxford Pets y Oxford Flowers), mostraron que el marco propuesto siempre conduce a una mejora en la precisión de los estudiantes destilados de conocimiento y demuestra la efectividad de la solución propuesta. Además, en el caso de la arquitectura ResNet, observamos que el modelo destilado de conocimiento logra una precisión mayor que un modelo ResNet más profundo entrenado individualmente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro