Reducir y Eliminar: Un Estudio de la Cuantización Post-Entrenamiento y la Eliminación de Operaciones Repetidas en Modelos RNN
Autores: Rezk, Nesma M.; Nordström, Tomas; Ul-Abdin, Zain
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Reducir y Eliminar: Un Estudio de la Cuantización Post-Entrenamiento y la Eliminación de Operaciones Repetidas en Modelos RNN
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Redes neuronales
Rnn
Cuantización
Dispositivos de borde
Escasez
Lstm
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las redes neuronales recurrentes (RNN) son redes neuronales (NN) diseñadas para aplicaciones de series temporales. Hay un creciente interés en ejecutar RNN para apoyar estas aplicaciones en dispositivos de borde. Sin embargo, las RNN tienen grandes demandas de memoria y computación que las hacen difíciles de implementar en dispositivos de borde. La cuantización se utiliza para reducir el tamaño y las necesidades computacionales de tales modelos al disminuir la precisión de los pesos y las activaciones. Además, el método de redes delta aumenta la esparsidad en los vectores de activación al depender de la relación temporal entre secuencias de entrada sucesivas para eliminar cálculos y accesos a memoria repetidos. En este artículo, estudiamos el efecto de la cuantización en modelos de RNN basados en LSTM, GRU, LiGRU y SRU para el reconocimiento de voz en el conjunto de datos TIMIT. Mostramos cómo aplicar la cuantización post-entrenamiento en estos modelos con un aumento mínimo en el error al omitir la cuantización de rutas seleccionadas. Además, mostramos que la cuantización de vectores de activación en RNN a precisión entera conduce a una esparsidad considerable si se aplica el método de redes delta. Luego, proponemos un método para aumentar la esparsidad en los vectores de activación mientras se minimiza el error y se maximiza el porcentaje de cálculos eliminados. El método de cuantización propuesto logró comprimir los cuatro modelos más del 85%, con un aumento de error de 0.6, 0, 2.1 y 0.2 puntos porcentuales, respectivamente. Al aplicar el método de redes delta a los modelos cuantizados, se pueden eliminar más del 50% de las operaciones, en la mayoría de los casos con solo un ligero aumento en el error. Al comparar los cuatro modelos entre sí bajo el método de cuantización y redes delta, encontramos que los modelos basados en LSTM comprimidos son las soluciones más óptimas en condiciones de bajas tasas de error. Los modelos basados en SRU comprimidos son los más pequeños en tamaño, adecuados cuando se aceptan tasas de error más altas, y los modelos basados en LiGRU comprimidos tienen el mayor número de operaciones eliminadas.
Descripción
Las redes neuronales recurrentes (RNN) son redes neuronales (NN) diseñadas para aplicaciones de series temporales. Hay un creciente interés en ejecutar RNN para apoyar estas aplicaciones en dispositivos de borde. Sin embargo, las RNN tienen grandes demandas de memoria y computación que las hacen difíciles de implementar en dispositivos de borde. La cuantización se utiliza para reducir el tamaño y las necesidades computacionales de tales modelos al disminuir la precisión de los pesos y las activaciones. Además, el método de redes delta aumenta la esparsidad en los vectores de activación al depender de la relación temporal entre secuencias de entrada sucesivas para eliminar cálculos y accesos a memoria repetidos. En este artículo, estudiamos el efecto de la cuantización en modelos de RNN basados en LSTM, GRU, LiGRU y SRU para el reconocimiento de voz en el conjunto de datos TIMIT. Mostramos cómo aplicar la cuantización post-entrenamiento en estos modelos con un aumento mínimo en el error al omitir la cuantización de rutas seleccionadas. Además, mostramos que la cuantización de vectores de activación en RNN a precisión entera conduce a una esparsidad considerable si se aplica el método de redes delta. Luego, proponemos un método para aumentar la esparsidad en los vectores de activación mientras se minimiza el error y se maximiza el porcentaje de cálculos eliminados. El método de cuantización propuesto logró comprimir los cuatro modelos más del 85%, con un aumento de error de 0.6, 0, 2.1 y 0.2 puntos porcentuales, respectivamente. Al aplicar el método de redes delta a los modelos cuantizados, se pueden eliminar más del 50% de las operaciones, en la mayoría de los casos con solo un ligero aumento en el error. Al comparar los cuatro modelos entre sí bajo el método de cuantización y redes delta, encontramos que los modelos basados en LSTM comprimidos son las soluciones más óptimas en condiciones de bajas tasas de error. Los modelos basados en SRU comprimidos son los más pequeños en tamaño, adecuados cuando se aceptan tasas de error más altas, y los modelos basados en LiGRU comprimidos tienen el mayor número de operaciones eliminadas.