Entrenamiento independiente embarazosamente paralelo de perceptrones multicapa con arquitecturas heterogéneas
Autores: Farias, Felipe C.; Ludermir, Teresa B.; Bastos-Filho, Carmelo J. A.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Entrenamiento independiente embarazosamente paralelo de perceptrones multicapa con arquitecturas heterogéneas
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Procedimiento
Entrenamiento
Redes neuronales
Paralelización
Multiplicación de matrices
Aceleración
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
En este documento proponemos un procedimiento para habilitar el entrenamiento de varios Redes Neuronales Perceptrón Multicapa independientes con un número diferente de neuronas y funciones de activación en paralelo (ParallelMLPs) mediante la exploración de las capacidades de paralelización de las CPU y GPU modernas. La idea central de esta técnica es representar varias subredes como una sola red grande y utilizar una Multiplicación de Matrices Modificada que reemplaza una multiplicación de matrices ordinal con dos operaciones de matriz simples que permiten caminos separados e independientes para el flujo de gradiente. Hemos evaluado nuestro algoritmo en conjuntos de datos simulados variando el número de muestras, características y lotes utilizando 10,000 modelos diferentes, así como en el conjunto de datos MNIST. Logramos una aceleración del entrenamiento de 1 a 4 órdenes de magnitud en comparación con el enfoque secuencial. El código está disponible en línea.
Descripción
En este documento proponemos un procedimiento para habilitar el entrenamiento de varios Redes Neuronales Perceptrón Multicapa independientes con un número diferente de neuronas y funciones de activación en paralelo (ParallelMLPs) mediante la exploración de las capacidades de paralelización de las CPU y GPU modernas. La idea central de esta técnica es representar varias subredes como una sola red grande y utilizar una Multiplicación de Matrices Modificada que reemplaza una multiplicación de matrices ordinal con dos operaciones de matriz simples que permiten caminos separados e independientes para el flujo de gradiente. Hemos evaluado nuestro algoritmo en conjuntos de datos simulados variando el número de muestras, características y lotes utilizando 10,000 modelos diferentes, así como en el conjunto de datos MNIST. Logramos una aceleración del entrenamiento de 1 a 4 órdenes de magnitud en comparación con el enfoque secuencial. El código está disponible en línea.