Un procesador de alto rendimiento para la compresión de imágenes de aprendizaje profundo basada en GDN
Autores: Shao, Hu; Liu, Bingtao; Li, Zongpeng; Yan, Chenggang; Sun, Yaoqi; Wang, Tingyu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un procesador de alto rendimiento para la compresión de imágenes de aprendizaje profundo basada en GDN
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo
Compresión de imágenes
Procesador
Velocidad de inferencia
Eficiencia
Aceleradores de red
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 55
Citaciones: Sin citaciones
Las técnicas de compresión de imágenes basadas en aprendizaje profundo pueden aprovechar los beneficios del autoencoder para lograr una mayor calidad de compresión al mismo bit rate que la compresión de imágenes tradicional, lo que está más en línea con los deseos de los usuarios. El diseño de un procesador de alto rendimiento que pueda aumentar la velocidad de inferencia y la eficiencia de la red de compresión de imágenes de aprendizaje profundo (DIC) es importante para hacer que esta tecnología se emplee más ampliamente en dispositivos móviles. Hasta donde sabemos, no hay un procesador dedicado que pueda acelerar DIC con bajo consumo de energía, y los aceleradores de red de propósito general basados en matrices de compuertas programables en campo (FPGA) no pueden procesar directamente redes comprimidas, por lo que proponemos un procesador adecuado para DIC en este documento. Primero, analizamos el algoritmo de compresión de imágenes y cuantificamos los datos de la red en puntos fijos de 16 bits utilizando una cuantización jerárquica dinámica. Luego, diseñamos un módulo de operación, que es la parte computacional central para el procesamiento. Está compuesto por unidades de convolución, muestreo y normalización, que canalizan el cálculo de inferencia para cada capa de la red. Para lograr una computación de inferencia de alto rendimiento, se desarrolla un conjunto de elementos de procesamiento (PEG) con búferes locales para la computación convolucional. Basándonos en los componentes comunes en codificación y decodificación, las unidades de muestreo y normalización son compatibles con la computación de códec y se utilizan para la compresión de imágenes con multiplexación de tiempo compartido. Según la señal de control, el módulo de operación podría cambiar el orden del flujo de datos a través de las tres unidades para que realicen operaciones de codificación y decodificación, respectivamente. Basándonos en estos métodos y esquemas de diseño, DIC se implementa en la placa de desarrollo Xilinx Zynq ZCU104 para lograr una compresión de imágenes de alto rendimiento a 6 diferentes tasas de bits. Los resultados experimentales muestran que el procesador puede funcionar a 200 MHz y lograr 283.4 GOPS para la red DIC de puntos fijos de 16 bits.
Descripción
Las técnicas de compresión de imágenes basadas en aprendizaje profundo pueden aprovechar los beneficios del autoencoder para lograr una mayor calidad de compresión al mismo bit rate que la compresión de imágenes tradicional, lo que está más en línea con los deseos de los usuarios. El diseño de un procesador de alto rendimiento que pueda aumentar la velocidad de inferencia y la eficiencia de la red de compresión de imágenes de aprendizaje profundo (DIC) es importante para hacer que esta tecnología se emplee más ampliamente en dispositivos móviles. Hasta donde sabemos, no hay un procesador dedicado que pueda acelerar DIC con bajo consumo de energía, y los aceleradores de red de propósito general basados en matrices de compuertas programables en campo (FPGA) no pueden procesar directamente redes comprimidas, por lo que proponemos un procesador adecuado para DIC en este documento. Primero, analizamos el algoritmo de compresión de imágenes y cuantificamos los datos de la red en puntos fijos de 16 bits utilizando una cuantización jerárquica dinámica. Luego, diseñamos un módulo de operación, que es la parte computacional central para el procesamiento. Está compuesto por unidades de convolución, muestreo y normalización, que canalizan el cálculo de inferencia para cada capa de la red. Para lograr una computación de inferencia de alto rendimiento, se desarrolla un conjunto de elementos de procesamiento (PEG) con búferes locales para la computación convolucional. Basándonos en los componentes comunes en codificación y decodificación, las unidades de muestreo y normalización son compatibles con la computación de códec y se utilizan para la compresión de imágenes con multiplexación de tiempo compartido. Según la señal de control, el módulo de operación podría cambiar el orden del flujo de datos a través de las tres unidades para que realicen operaciones de codificación y decodificación, respectivamente. Basándonos en estos métodos y esquemas de diseño, DIC se implementa en la placa de desarrollo Xilinx Zynq ZCU104 para lograr una compresión de imágenes de alto rendimiento a 6 diferentes tasas de bits. Los resultados experimentales muestran que el procesador puede funcionar a 200 MHz y lograr 283.4 GOPS para la red DIC de puntos fijos de 16 bits.