logo móvil
Contáctanos

Escalado unificado basado en cuantificación de enteros puros para acelerador de baja potencia de CNN complejos

Autores: Al-Hamid, Ali A.; Kim, HyungWon

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Escalado unificado basado en cuantificación de enteros puros para acelerador de baja potencia de CNN complejos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes neuronales profundas
Método de cuantización
USPIQ
Detección de objetos
Consumo de energía bajo
Factor de Escala Unificado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Aunque la optimización de redes neuronales profundas se está volviendo crucial para implementar las redes en dispositivos de IA perimetral, enfrenta desafíos crecientes debido a los escasos recursos de hardware en los dispositivos IoT y móviles modernos. Este estudio propone un método de cuantificación que puede cuantificar todas las computaciones internas y parámetros en la modificación de la memoria. A diferencia de la mayoría de los métodos anteriores que se centraron principalmente en modelos CNN relativamente simples para la clasificación de imágenes, el método propuesto, Quantización Unificada Basada en Escalado Puro-Entero (USPIQ), puede manejar modelos CNN más complejos para la detección de objetos. USPIQ tiene como objetivo proporcionar un enfoque sistemático para convertir todas las operaciones de punto flotante en operaciones de enteros puros en cada capa del modelo. Puede reducir significativamente la sobrecarga computacional y hacer que sea más adecuado para hardware de acelerador de redes neuronales de baja potencia que consiste en rutas de datos de enteros puros y una pequeña memoria destinada a un consumo de energía reducido y un tamaño de chip pequeño. El método propuesto calibra óptimamente los parámetros de escala para cada capa utilizando un subconjunto de imágenes representativas no etiquetadas. Además, introducimos la noción del Factor de Escala Unificado (USF), que combina los procesos de escalado de dos pasos convencionales (cuantización y decuantización) en un solo proceso para cada capa. Como resultado, mejora la velocidad de inferencia y la precisión del modelo cuantizado resultante. Nuestro experimento en modelos YOLOv5 demuestra que USPIQ puede reducir significativamente la memoria en chip para parámetros y datos de activación en ~75% y 43.68%, respectivamente, en comparación con el modelo de punto flotante. Estas reducciones se han logrado con una pérdida mínima en mAP@0.5, de hasta un 0.61%. Además, nuestro USPIQ propuesto muestra una mejora significativa en la velocidad de inferencia en comparación con la cuantificación de tiempo de ejecución ONNX, logrando una aceleración de 1.64 a 2.84 veces. También demostramos que USPIQ supera a los métodos anteriores en términos de precisión y reducción de hardware para la cuantificación de 8 bits de todas las versiones de YOLOv5.

Otros recursos que podrían interesarte

Temas Virtualpro