Trinity: método de entrenamiento paralelo distribuido adaptativo de red neuronal basado en aprendizaje por refuerzo
Autores: Zeng, Yan; Wu, Jiyang; Zhang, Jilin; Ren, Yongjian; Zhang, Yunquan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Trinity: método de entrenamiento paralelo distribuido adaptativo de red neuronal basado en aprendizaje por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Aprendizaje profundo
Entrenamiento de modelos en paralelo
Redes neuronales
Aprendizaje por refuerzo
Optimización
Estrategias paralelas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 48
Citaciones: Sin citaciones
El aprendizaje profundo, con conjuntos de datos cada vez más grandes y redes neuronales complejas, se utiliza ampliamente en visión por computadora y procesamiento de lenguaje natural. Una tendencia resultante es dividir y entrenar modelos de redes neuronales a gran escala en múltiples dispositivos en paralelo, conocido como entrenamiento de modelos paralelos. Los métodos paralelos existentes se basan principalmente en el diseño de expertos, lo cual es ineficiente y requiere conocimientos especializados. Aunque se han propuesto métodos paralelos implementados automáticamente para resolver estos problemas, estos métodos solo consideran un aspecto de optimización del tiempo de ejecución. En este documento, presentamos Trinity, un método de entrenamiento paralelo distribuido adaptativo basado en aprendizaje por refuerzo, para automatizar la búsqueda y ajuste de estrategias paralelas. Construimos un modelo de evaluación de rendimiento multidimensional y utilizamos la optimización de políticas proximales para co-optimizar múltiples aspectos de optimización. Nuestro experimento utilizó los conjuntos de datos CIFAR10 y PTB basados en los modelos InceptionV3, NMT, NASNet y PNASNet. En comparación con el método jerárquico de Google, Trinity logra reducciones de hasta un 5% en el tiempo de ejecución, la comunicación y la sobrecarga de memoria, y hasta un aumento del 40% en la velocidad de búsqueda de estrategias paralelas.
Descripción
El aprendizaje profundo, con conjuntos de datos cada vez más grandes y redes neuronales complejas, se utiliza ampliamente en visión por computadora y procesamiento de lenguaje natural. Una tendencia resultante es dividir y entrenar modelos de redes neuronales a gran escala en múltiples dispositivos en paralelo, conocido como entrenamiento de modelos paralelos. Los métodos paralelos existentes se basan principalmente en el diseño de expertos, lo cual es ineficiente y requiere conocimientos especializados. Aunque se han propuesto métodos paralelos implementados automáticamente para resolver estos problemas, estos métodos solo consideran un aspecto de optimización del tiempo de ejecución. En este documento, presentamos Trinity, un método de entrenamiento paralelo distribuido adaptativo basado en aprendizaje por refuerzo, para automatizar la búsqueda y ajuste de estrategias paralelas. Construimos un modelo de evaluación de rendimiento multidimensional y utilizamos la optimización de políticas proximales para co-optimizar múltiples aspectos de optimización. Nuestro experimento utilizó los conjuntos de datos CIFAR10 y PTB basados en los modelos InceptionV3, NMT, NASNet y PNASNet. En comparación con el método jerárquico de Google, Trinity logra reducciones de hasta un 5% en el tiempo de ejecución, la comunicación y la sobrecarga de memoria, y hasta un aumento del 40% en la velocidad de búsqueda de estrategias paralelas.