Cuantización Eficiente de Redes Neuronales Profundas Preentrenadas a Través de Codificación de Transformada de Bloque Adaptativa
Autores: Dubljanin, Milan; Pani, Stefan; Savi, Milan; Dejanovi, Milan; Popovi, Oliver
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Cuantización Eficiente de Redes Neuronales Profundas Preentrenadas a Través de Codificación de Transformada de Bloque Adaptativa
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Investiga
Codificación de transformación de bloques
Ligero
Estrategia de cuantización
Redes neuronales profundas preentrenadas
Compresión
Pesos
BTC
Precisión de bits
Convolucional
Pesos de capas completamente conectadas
Resultados experimentales
Almacenamiento
Precisión
Punto flotante
Modelos de ImageNet
Escalabilidad
Compensación entre compresión y precisión
Ruido de cuantización
Tendencias de RMSE
Implementación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este trabajo investiga la efectividad de la codificación por transformada en bloques (BTC) como una estrategia de cuantización ligera y sin entrenamiento para comprimir los pesos de redes neuronales profundas preentrenadas. El método propuesto aplica una transformada en bloques basada en reglas con criterios de detención impulsados por la varianza y el error cuadrático medio (RMSE), lo que permite reducciones sustanciales en la precisión de bits mientras se preserva la estructura estadística de los pesos de las capas convolucionales y completamente conectadas. A diferencia de la cuantización uniforme de 8 bits, BTC ajusta dinámicamente el uso de bits a través de las capas y logra una distorsión significativamente menor para el mismo presupuesto de compresión. Evaluamos BTC en muchas arquitecturas preentrenadas y en benchmarks tabulares. Los resultados experimentales muestran que BTC reduce consistentemente el almacenamiento a 4-7.7 bits por peso mientras mantiene la precisión dentro del 2-3% de la línea base de punto flotante de 32 bits (FP32). Para evaluar aún más la escalabilidad y la fortaleza de la línea base, BTC se evalúa adicionalmente en modelos de ImageNet a gran escala y se compara con un método de cuantización uniforme post-entrenamiento basado en percentiles calibrados. Los resultados muestran que BTC logra un ancho de bit efectivo sustancialmente menor mientras incurre solo en una reducción modesta de precisión en relación con la cuantización de 8 bits consciente de la calibración, destacando un favorable compromiso entre compresión y precisión. BTC también exhibe un comportamiento estable a través de configuraciones sucesivas de cuantización post-entrenamiento (PTQ), bajo ruido de cuantización y tendencias suaves de RMSE, superando la cuantización uniforme ingenua bajo compresión agresiva. Estos hallazgos confirman que BTC proporciona un mecanismo de cuantización escalable, agnóstico a la arquitectura y sin entrenamiento, adecuado para su implementación en entornos con limitaciones de memoria y computación.
Descripción
Este trabajo investiga la efectividad de la codificación por transformada en bloques (BTC) como una estrategia de cuantización ligera y sin entrenamiento para comprimir los pesos de redes neuronales profundas preentrenadas. El método propuesto aplica una transformada en bloques basada en reglas con criterios de detención impulsados por la varianza y el error cuadrático medio (RMSE), lo que permite reducciones sustanciales en la precisión de bits mientras se preserva la estructura estadística de los pesos de las capas convolucionales y completamente conectadas. A diferencia de la cuantización uniforme de 8 bits, BTC ajusta dinámicamente el uso de bits a través de las capas y logra una distorsión significativamente menor para el mismo presupuesto de compresión. Evaluamos BTC en muchas arquitecturas preentrenadas y en benchmarks tabulares. Los resultados experimentales muestran que BTC reduce consistentemente el almacenamiento a 4-7.7 bits por peso mientras mantiene la precisión dentro del 2-3% de la línea base de punto flotante de 32 bits (FP32). Para evaluar aún más la escalabilidad y la fortaleza de la línea base, BTC se evalúa adicionalmente en modelos de ImageNet a gran escala y se compara con un método de cuantización uniforme post-entrenamiento basado en percentiles calibrados. Los resultados muestran que BTC logra un ancho de bit efectivo sustancialmente menor mientras incurre solo en una reducción modesta de precisión en relación con la cuantización de 8 bits consciente de la calibración, destacando un favorable compromiso entre compresión y precisión. BTC también exhibe un comportamiento estable a través de configuraciones sucesivas de cuantización post-entrenamiento (PTQ), bajo ruido de cuantización y tendencias suaves de RMSE, superando la cuantización uniforme ingenua bajo compresión agresiva. Estos hallazgos confirman que BTC proporciona un mecanismo de cuantización escalable, agnóstico a la arquitectura y sin entrenamiento, adecuado para su implementación en entornos con limitaciones de memoria y computación.