logo móvil
Contáctanos

Optimización de la cuantización lineal para la compresión general y efectiva de redes de baja precisión de bits

Autores: Yang, Wenxin; Zhi, Xiaoli; Tong, Weiqin

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Optimización de la cuantización lineal para la compresión general y efectiva de redes de baja precisión de bits


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Redes neuronales
Método de cuantización
Pesos
Poda
Pérdida de precisión
Ancho de bits

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
Los dispositivos actuales para redes neuronales como FPGA, CPLD y ASIC pueden admitir computación de baja cantidad de bits para mejorar la latencia de ejecución y la eficiencia energética, pero la cuantización lineal tradicional solo puede mantener la precisión de inferencia de las redes neuronales en una cantidad de bits superior a 6 bits. Diferente de estudios anteriores que abordan este problema recortando los valores atípicos, este artículo propone un método de cuantización de dos etapas. Antes de convertir los pesos en números de punto fijo, este artículo primero poda la red mediante poda no estructurada y luego utiliza el algoritmo de K-medias para agrupar los pesos de antemano para proteger la distribución de los pesos. Para resolver el problema de inestabilidad de los resultados de K-medias, se explota el algoritmo PSO (optimización de enjambre de partículas) para obtener los centroides de los grupos iniciales. Los resultados experimentales en redes profundas base como ResNet-50, Inception-v3 y DenseNet-121 muestran que el método de cuantización optimizado propuesto puede generar una red de 5 bits con una pérdida de precisión inferior al 5% y una red de 4 bits con solo una pérdida de precisión del 10% en comparación con la cuantización de 8 bits. Mediante cuantización y poda, este método reduce la cantidad de bits del modelo de 32 a 4 y el número de neuronas en un 80%. Además, se puede integrar fácilmente en marcos como TensorRt y TensorFlow-Lite para cuantización de redes de baja cantidad de bits.

Otros recursos que podrían interesarte

Temas Virtualpro