Flexible quantización para redes neuronales convolucionales eficientes
Autores: Zacchigna, Federico Giordano; Lew, Sergio; Lutenberg, Ariel
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Flexible quantización para redes neuronales convolucionales eficientes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Cuantificación eficiente
Redes neuronales convolucionales
Cuantificación no uniforme uniforme
Niveles de compresión
Hardware de punto fijo
Metodología de cuantificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Este trabajo se centra en la cuantización eficiente de redes neuronales convolucionales (CNN). Específicamente, presentamos un método llamado cuantización no uniforme uniforme (NUUQ), una metodología de cuantización novedosa que combina los beneficios de la cuantización no uniforme, como altos niveles de compresión, con las ventajas de la cuantización uniforme, que permite una implementación eficiente en hardware de punto fijo. NUUQ se basa en desacoplar los niveles de cuantización del número de bits. Este desacoplamiento permite un equilibrio entre la complejidad espacial y temporal de la implementación, que se puede aprovechar para reducir aún más la complejidad espacial de la CNN, sin una pérdida significativa de rendimiento. Además, exploramos diferentes configuraciones de cuantización y abordamos casos de uso típicos. El algoritmo NUUQ demuestra la capacidad de lograr niveles de compresión equivalentes a 2 bits sin pérdida de precisión e incluso niveles equivalentes a 1.58 bits, pero con una pérdida de rendimiento de solo el 0.6%.
Descripción
Este trabajo se centra en la cuantización eficiente de redes neuronales convolucionales (CNN). Específicamente, presentamos un método llamado cuantización no uniforme uniforme (NUUQ), una metodología de cuantización novedosa que combina los beneficios de la cuantización no uniforme, como altos niveles de compresión, con las ventajas de la cuantización uniforme, que permite una implementación eficiente en hardware de punto fijo. NUUQ se basa en desacoplar los niveles de cuantización del número de bits. Este desacoplamiento permite un equilibrio entre la complejidad espacial y temporal de la implementación, que se puede aprovechar para reducir aún más la complejidad espacial de la CNN, sin una pérdida significativa de rendimiento. Además, exploramos diferentes configuraciones de cuantización y abordamos casos de uso típicos. El algoritmo NUUQ demuestra la capacidad de lograr niveles de compresión equivalentes a 2 bits sin pérdida de precisión e incluso niveles equivalentes a 1.58 bits, pero con una pérdida de rendimiento de solo el 0.6%.