Optimización de la cuantización lineal para la compresión general y efectiva de redes de baja precisión de bits

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Optimización de la cuantización lineal para la compresión general y efectiva de redes de baja precisión de bits

Autores: Yang, Wenxin; Zhi, Xiaoli; Tong, Weiqin

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Optimización de la cuantización lineal para la compresión general y efectiva de redes de baja precisión de bits

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Redes neuronales

Método de cuantización

Pesos

Poda

Pérdida de precisión

Ancho de bits

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

Los dispositivos actuales para redes neuronales como FPGA, CPLD y ASIC pueden admitir computación de baja cantidad de bits para mejorar la latencia de ejecución y la eficiencia energética, pero la cuantización lineal tradicional solo puede mantener la precisión de inferencia de las redes neuronales en una cantidad de bits superior a 6 bits. Diferente de estudios anteriores que abordan este problema recortando los valores atípicos, este artículo propone un método de cuantización de dos etapas. Antes de convertir los pesos en números de punto fijo, este artículo primero poda la red mediante poda no estructurada y luego utiliza el algoritmo de K-medias para agrupar los pesos de antemano para proteger la distribución de los pesos. Para resolver el problema de inestabilidad de los resultados de K-medias, se explota el algoritmo PSO (optimización de enjambre de partículas) para obtener los centroides de los grupos iniciales. Los resultados experimentales en redes profundas base como ResNet-50, Inception-v3 y DenseNet-121 muestran que el método de cuantización optimizado propuesto puede generar una red de 5 bits con una pérdida de precisión inferior al 5% y una red de 4 bits con solo una pérdida de precisión del 10% en comparación con la cuantización de 8 bits. Mediante cuantización y poda, este método reduce la cantidad de bits del modelo de 32 a 4 y el número de neuronas en un 80%. Además, se puede integrar fácilmente en marcos como TensorRt y TensorFlow-Lite para cuantización de redes de baja cantidad de bits.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro