Aumento de información de entropía tanto de pesos como de activaciones para las redes neuronales binarias
Autores: Zou, Wanbing; Cheng, Song; Wang, Luyuan; Fu, Guanyu; Shang, Delong; Zhou, Yumei; Zhan, Yi
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Aumento de información de entropía tanto de pesos como de activaciones para las redes neuronales binarias
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Huella de memoria
Velocidad de cálculo
Redes neuronales binarias
Implementación consciente del consumo de energía
Teoría de la información
Capacidad de información
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
En términos de requisitos de huella de memoria y velocidad de cálculo, las redes neuronales binarias (BNNs) tienen grandes ventajas en aplicaciones de implementación consciente de la energía, como terminales AIoT en el borde, dispositivos portátiles y portátiles, etc. Sin embargo, el proceso de binarización de las redes conlleva inevitablemente pérdidas de información considerables, y conduce a una deterioro de la precisión. Para abordar estos problemas, iniciamos el análisis desde una perspectiva de la teoría de la información y logramos mejorar la capacidad de información de las redes. Basado en los análisis, nuestro trabajo tiene dos contribuciones principales: la primera es una técnica de regularización de pérdida mediana (ML) recién propuesta. Mejora la distribución de pesos binarios de manera más uniforme y, en consecuencia, aumenta en gran medida la capacidad de información de las BNNs. La segunda es el método de mediana de lotes de activaciones (BMA). Aumenta la entropía de las activaciones restando un valor mediano y, al mismo tiempo, disminuye el error de cuantificación al calcular factores de escala separados para el procedimiento de activaciones positivas y negativas. Los resultados experimentales demuestran que los métodos propuestos utilizados en ResNet-18 y ResNet-34 superan individualmente la línea base Bi-Real en un 1,3% y 0,9% de precisión Top-1 en el conjunto de datos ImageNet 2012. Se ha comprobado que ML y BMA propuestos para el costo de almacenamiento y el aumento de la complejidad de cálculo son menores y despreciables. Además, experimentos exhaustivos también demuestran que nuestros métodos pueden ser aplicables e integrados en las actuales redes BNN populares con mejora de precisión y un aumento de sobrecarga despreciable.
Descripción
En términos de requisitos de huella de memoria y velocidad de cálculo, las redes neuronales binarias (BNNs) tienen grandes ventajas en aplicaciones de implementación consciente de la energía, como terminales AIoT en el borde, dispositivos portátiles y portátiles, etc. Sin embargo, el proceso de binarización de las redes conlleva inevitablemente pérdidas de información considerables, y conduce a una deterioro de la precisión. Para abordar estos problemas, iniciamos el análisis desde una perspectiva de la teoría de la información y logramos mejorar la capacidad de información de las redes. Basado en los análisis, nuestro trabajo tiene dos contribuciones principales: la primera es una técnica de regularización de pérdida mediana (ML) recién propuesta. Mejora la distribución de pesos binarios de manera más uniforme y, en consecuencia, aumenta en gran medida la capacidad de información de las BNNs. La segunda es el método de mediana de lotes de activaciones (BMA). Aumenta la entropía de las activaciones restando un valor mediano y, al mismo tiempo, disminuye el error de cuantificación al calcular factores de escala separados para el procedimiento de activaciones positivas y negativas. Los resultados experimentales demuestran que los métodos propuestos utilizados en ResNet-18 y ResNet-34 superan individualmente la línea base Bi-Real en un 1,3% y 0,9% de precisión Top-1 en el conjunto de datos ImageNet 2012. Se ha comprobado que ML y BMA propuestos para el costo de almacenamiento y el aumento de la complejidad de cálculo son menores y despreciables. Además, experimentos exhaustivos también demuestran que nuestros métodos pueden ser aplicables e integrados en las actuales redes BNN populares con mejora de precisión y un aumento de sobrecarga despreciable.