Ajuste de peso de bits para construir clasificadores de imágenes eficientes que combinen cuantificación uniforme y no uniforme
Autores: Zhou, Xichuan; Duan, Yunmo; Ding, Rui; Wang, Qianchuan; Wang, Qi; Qin, Jian; Liu, Haijun
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Ajuste de peso de bits para construir clasificadores de imágenes eficientes que combinen cuantificación uniforme y no uniforme
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Cuantización de red
Inferencia de modelo
Consumo de memoria
Modelos profundos
Tareas de visión en tiempo real
Plataformas de borde
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La cuantización de red, que se esfuerza por reducir la precisión de los parámetros y/o características del modelo, es una de las formas más eficientes de acelerar la inferencia del modelo y reducir el consumo de memoria, especialmente para modelos profundos al realizar una variedad de tareas de visión en tiempo real en plataformas periféricas con recursos limitados. Los enfoques de cuantización existentes funcionan bien al utilizar anchos de bits relativamente altos pero sufren una disminución en la precisión en ultra baja precisión. En este documento, proponemos un módulo de ajuste de peso de bits (BWA) para unir la cuantización uniforme y no uniforme, cuantizando con éxito el modelo a anchos de bits ultra bajos sin provocar una degradación notable en el rendimiento. Dados datos cuantificados uniformemente, el módulo BWA transforma adaptativamente estos datos en datos cuantificados no uniformemente simplemente introduciendo factores de escala entrenables. Con el módulo BWA, combinamos la cuantización uniforme y no uniforme en una sola red, permitiendo que las redes de baja precisión se beneficien tanto de la amabilidad del hardware de la cuantización uniforme como del alto rendimiento de la cuantización no uniforme. Optimizamos el módulo BWA propuesto minimizando directamente la pérdida de clasificación a través de un entrenamiento de extremo a extremo. Numerosos experimentos en los conjuntos de datos de ImageNet y CIFAR-10 revelan que el enfoque propuesto supera a los enfoques de vanguardia en varios ajustes de ancho de bits y puede incluso producir modelos cuantificados de baja precisión que son competitivos con sus contrapartes de precisión completa.
Descripción
La cuantización de red, que se esfuerza por reducir la precisión de los parámetros y/o características del modelo, es una de las formas más eficientes de acelerar la inferencia del modelo y reducir el consumo de memoria, especialmente para modelos profundos al realizar una variedad de tareas de visión en tiempo real en plataformas periféricas con recursos limitados. Los enfoques de cuantización existentes funcionan bien al utilizar anchos de bits relativamente altos pero sufren una disminución en la precisión en ultra baja precisión. En este documento, proponemos un módulo de ajuste de peso de bits (BWA) para unir la cuantización uniforme y no uniforme, cuantizando con éxito el modelo a anchos de bits ultra bajos sin provocar una degradación notable en el rendimiento. Dados datos cuantificados uniformemente, el módulo BWA transforma adaptativamente estos datos en datos cuantificados no uniformemente simplemente introduciendo factores de escala entrenables. Con el módulo BWA, combinamos la cuantización uniforme y no uniforme en una sola red, permitiendo que las redes de baja precisión se beneficien tanto de la amabilidad del hardware de la cuantización uniforme como del alto rendimiento de la cuantización no uniforme. Optimizamos el módulo BWA propuesto minimizando directamente la pérdida de clasificación a través de un entrenamiento de extremo a extremo. Numerosos experimentos en los conjuntos de datos de ImageNet y CIFAR-10 revelan que el enfoque propuesto supera a los enfoques de vanguardia en varios ajustes de ancho de bits y puede incluso producir modelos cuantificados de baja precisión que son competitivos con sus contrapartes de precisión completa.