Caracterización del rendimiento del aprendizaje profundo en GPU para varios marcos de cuantificación
Autores: Shafique, Muhammad Ali; Munir, Arslan; Kong, Joonho
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Caracterización del rendimiento del aprendizaje profundo en GPU para varios marcos de cuantificación
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Aprendizaje profundo
Técnicas de optimización
Marcos de cuantificación
TensorFlow
TensorRT
Métricas de rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El aprendizaje profundo se emplea en muchas aplicaciones, como visión por computadora, procesamiento de lenguaje natural, robótica y sistemas de recomendación. Redes neuronales grandes y complejas conducen a una alta precisión; sin embargo, afectan adversamente muchos aspectos del rendimiento del aprendizaje profundo, como el tiempo de entrenamiento, la latencia, el rendimiento, el consumo de energía y el uso de memoria en las etapas de entrenamiento e inferencia. Para resolver estos desafíos, se han desarrollado diversas técnicas de optimización y marcos para el rendimiento eficiente de modelos de aprendizaje profundo en las etapas de entrenamiento e inferencia. Aunque las técnicas de optimización como la cuantización han sido estudiadas a fondo en el pasado, se ha hecho menos trabajo para estudiar el rendimiento de los marcos que proporcionan técnicas de cuantización. En este documento, hemos utilizado diferentes métricas de rendimiento para estudiar el rendimiento de varios marcos de cuantización, incluyendo la precisión mixta automática de TensorFlow y TensorRT. Estas métricas de rendimiento incluyen el tiempo de entrenamiento y la utilización de memoria en la etapa de entrenamiento, junto con la latencia y el rendimiento para las unidades de procesamiento gráfico (GPU) en la etapa de inferencia. Hemos aplicado la técnica de precisión mixta automática (AMP) durante la etapa de entrenamiento utilizando el marco de TensorFlow, mientras que para la inferencia hemos utilizado el marco de TensorRT para la técnica de cuantización posterior al entrenamiento utilizando la interfaz de programación de aplicaciones (API) de TensorFlow TensorRT (TF-TRT). Realizamos el perfilado del modelo para diferentes modelos de aprendizaje profundo, conjuntos de datos, tamaños de imagen y tamaños de lote para las etapas de entrenamiento e inferencia, cuyos resultados pueden ayudar a los desarrolladores e investigadores a idear e implementar modelos de aprendizaje profundo eficientes para GPU.
Descripción
El aprendizaje profundo se emplea en muchas aplicaciones, como visión por computadora, procesamiento de lenguaje natural, robótica y sistemas de recomendación. Redes neuronales grandes y complejas conducen a una alta precisión; sin embargo, afectan adversamente muchos aspectos del rendimiento del aprendizaje profundo, como el tiempo de entrenamiento, la latencia, el rendimiento, el consumo de energía y el uso de memoria en las etapas de entrenamiento e inferencia. Para resolver estos desafíos, se han desarrollado diversas técnicas de optimización y marcos para el rendimiento eficiente de modelos de aprendizaje profundo en las etapas de entrenamiento e inferencia. Aunque las técnicas de optimización como la cuantización han sido estudiadas a fondo en el pasado, se ha hecho menos trabajo para estudiar el rendimiento de los marcos que proporcionan técnicas de cuantización. En este documento, hemos utilizado diferentes métricas de rendimiento para estudiar el rendimiento de varios marcos de cuantización, incluyendo la precisión mixta automática de TensorFlow y TensorRT. Estas métricas de rendimiento incluyen el tiempo de entrenamiento y la utilización de memoria en la etapa de entrenamiento, junto con la latencia y el rendimiento para las unidades de procesamiento gráfico (GPU) en la etapa de inferencia. Hemos aplicado la técnica de precisión mixta automática (AMP) durante la etapa de entrenamiento utilizando el marco de TensorFlow, mientras que para la inferencia hemos utilizado el marco de TensorRT para la técnica de cuantización posterior al entrenamiento utilizando la interfaz de programación de aplicaciones (API) de TensorFlow TensorRT (TF-TRT). Realizamos el perfilado del modelo para diferentes modelos de aprendizaje profundo, conjuntos de datos, tamaños de imagen y tamaños de lote para las etapas de entrenamiento e inferencia, cuyos resultados pueden ayudar a los desarrolladores e investigadores a idear e implementar modelos de aprendizaje profundo eficientes para GPU.