Amed: cuantificación automática de precisión mixta para dispositivos periféricos
Autores: Kimhi, Moshe; Rozen, Tal; Mendelson, Avi; Baskin, Chaim
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Amed: cuantificación automática de precisión mixta para dispositivos periféricos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Redes neuronales
Cuantización
Precisión
Hardware
Rendimiento
Eficiencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Las redes neuronales cuantizadas son conocidas por reducir la latencia, el consumo de energía y el tamaño del modelo sin causar un daño significativo al rendimiento. Esto las hace altamente adecuadas para sistemas con recursos limitados y baja capacidad de energía. La cuantización de precisión mixta ofrece una mejor utilización de hardware personalizado que admite operaciones aritméticas a diferentes anchos de bits. Los métodos de cuantización tienen como objetivo minimizar la pérdida de compresión dada una reducción deseada u optimizar una variable dependiente para una propiedad especificada del modelo (como FLOPs o tamaño del modelo); ambos hacen que el rendimiento sea ineficiente cuando se implementan en hardware específico, pero, lo que es más importante, los métodos de cuantización asumen que la pérdida del conjunto de datos mantiene un mínimo global para un modelo cuantizado que se ajusta al mínimo global del homólogo de precisión completa. Desafiando esta suposición, argumentamos que el mínimo óptimo cambia a medida que cambia la precisión, y, por lo tanto, es mejor considerar la cuantización como un proceso aleatorio, sentando las bases para un enfoque diferente para cuantizar redes neuronales, que, durante el procedimiento de entrenamiento, cuantiza el modelo a una precisión diferente, considera la asignación de bits como un Proceso de Decisión de Markov, y luego encuentra una asignación óptima de ancho de bits para medir comportamientos especificados en un dispositivo específico a través de señales directas de la arquitectura de hardware particular. Al hacerlo, evitamos la suposición básica de que la pérdida se comporta de la misma manera para un modelo cuantizado. La Cuantización Automática de Precisión Mixta para Dispositivos en el Borde (conocida como AMED) demuestra su superioridad sobre los esquemas de vanguardia actuales en términos del equilibrio entre la precisión de la red neuronal y la eficiencia del hardware, respaldado por una evaluación exhaustiva.
Descripción
Las redes neuronales cuantizadas son conocidas por reducir la latencia, el consumo de energía y el tamaño del modelo sin causar un daño significativo al rendimiento. Esto las hace altamente adecuadas para sistemas con recursos limitados y baja capacidad de energía. La cuantización de precisión mixta ofrece una mejor utilización de hardware personalizado que admite operaciones aritméticas a diferentes anchos de bits. Los métodos de cuantización tienen como objetivo minimizar la pérdida de compresión dada una reducción deseada u optimizar una variable dependiente para una propiedad especificada del modelo (como FLOPs o tamaño del modelo); ambos hacen que el rendimiento sea ineficiente cuando se implementan en hardware específico, pero, lo que es más importante, los métodos de cuantización asumen que la pérdida del conjunto de datos mantiene un mínimo global para un modelo cuantizado que se ajusta al mínimo global del homólogo de precisión completa. Desafiando esta suposición, argumentamos que el mínimo óptimo cambia a medida que cambia la precisión, y, por lo tanto, es mejor considerar la cuantización como un proceso aleatorio, sentando las bases para un enfoque diferente para cuantizar redes neuronales, que, durante el procedimiento de entrenamiento, cuantiza el modelo a una precisión diferente, considera la asignación de bits como un Proceso de Decisión de Markov, y luego encuentra una asignación óptima de ancho de bits para medir comportamientos especificados en un dispositivo específico a través de señales directas de la arquitectura de hardware particular. Al hacerlo, evitamos la suposición básica de que la pérdida se comporta de la misma manera para un modelo cuantizado. La Cuantización Automática de Precisión Mixta para Dispositivos en el Borde (conocida como AMED) demuestra su superioridad sobre los esquemas de vanguardia actuales en términos del equilibrio entre la precisión de la red neuronal y la eficiencia del hardware, respaldado por una evaluación exhaustiva.