El impacto de la cuantización de 8 y 4 bits en la precisión y la huella de área de silicio de las redes neuronales diminutas
Autores: Tumialis, Pawe; Skierkowski, Marcel; Przychodny, Jakub; Obszarski, Pawe
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
El impacto de la cuantización de 8 y 4 bits en la precisión y la huella de área de silicio de las redes neuronales diminutas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Campo
Incrustado
Redes neuronales
Modelos
Memoria
Precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
En el campo de los dispositivos integrados y de borde, se han realizado esfuerzos para hacer que los modelos de redes neuronales profundas sean más pequeños debido al tamaño limitado de la memoria disponible y la baja eficiencia computacional. Las huellas típicas de los modelos son inferiores a 100 KB. Sin embargo, para algunas aplicaciones, los modelos de este tamaño son demasiado grandes. En sensores de bajo voltaje, las señales deben ser procesadas, clasificadas o predichas con un orden de magnitud de memoria más pequeño. La reducción del tamaño del modelo se puede realizar limitando el número de parámetros del modelo o cuantificando sus pesos. Estos tipos de operaciones tienen un impacto negativo en la precisión de la red profunda. Este estudio probó el efecto de las técnicas de reducción del modelo en la precisión. La idea principal era reducir los modelos de redes neuronales a 3 k parámetros o menos. Se realizaron pruebas en tres arquitecturas de redes neuronales diferentes en el contexto de tres problemas de investigación separados, modelando tareas reales para redes pequeñas. El impacto de la reducción en la precisión de la red depende principalmente de su tamaño inicial. Para una red reducida de 40 k parámetros, se logró una disminución en la precisión de 16 puntos porcentuales, y para una red con 20 k parámetros, se logró una disminución de 8 puntos. Para obtener los mejores resultados, se utilizaron métodos de destilación de conocimiento y entrenamiento consciente de la cuantización para el entrenamiento. Gracias a esto, la precisión de las redes de 4 bits no difería significativamente de las de 8 bits y sus resultados eran aproximadamente cuatro puntos porcentuales peores que los de las redes de precisión completa. Para la red completamente conectada, también se realizó una síntesis a ASIC (circuito integrado específico de la aplicación) para demostrar la reducción en el área de silicio ocupada por el modelo. La cuantización de 4 bits limita la huella del área de silicio en un 90%.
Descripción
En el campo de los dispositivos integrados y de borde, se han realizado esfuerzos para hacer que los modelos de redes neuronales profundas sean más pequeños debido al tamaño limitado de la memoria disponible y la baja eficiencia computacional. Las huellas típicas de los modelos son inferiores a 100 KB. Sin embargo, para algunas aplicaciones, los modelos de este tamaño son demasiado grandes. En sensores de bajo voltaje, las señales deben ser procesadas, clasificadas o predichas con un orden de magnitud de memoria más pequeño. La reducción del tamaño del modelo se puede realizar limitando el número de parámetros del modelo o cuantificando sus pesos. Estos tipos de operaciones tienen un impacto negativo en la precisión de la red profunda. Este estudio probó el efecto de las técnicas de reducción del modelo en la precisión. La idea principal era reducir los modelos de redes neuronales a 3 k parámetros o menos. Se realizaron pruebas en tres arquitecturas de redes neuronales diferentes en el contexto de tres problemas de investigación separados, modelando tareas reales para redes pequeñas. El impacto de la reducción en la precisión de la red depende principalmente de su tamaño inicial. Para una red reducida de 40 k parámetros, se logró una disminución en la precisión de 16 puntos porcentuales, y para una red con 20 k parámetros, se logró una disminución de 8 puntos. Para obtener los mejores resultados, se utilizaron métodos de destilación de conocimiento y entrenamiento consciente de la cuantización para el entrenamiento. Gracias a esto, la precisión de las redes de 4 bits no difería significativamente de las de 8 bits y sus resultados eran aproximadamente cuatro puntos porcentuales peores que los de las redes de precisión completa. Para la red completamente conectada, también se realizó una síntesis a ASIC (circuito integrado específico de la aplicación) para demostrar la reducción en el área de silicio ocupada por el modelo. La cuantización de 4 bits limita la huella del área de silicio en un 90%.