Método de aceleración de entrenamiento basado en congelación de parámetros
Autores: Tang, Hongwei; Chen, Jialiang; Zhang, Wenkai; Guo, Zhi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Método de aceleración de entrenamiento basado en congelación de parámetros
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo
Redes neuronales
Aceleración del entrenamiento
Congelación de parámetros
Sobreajuste
Gradiente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
A medida que el aprendizaje profundo ha evolucionado, las redes neuronales más grandes y profundas son actualmente una tendencia popular tanto en tareas de procesamiento de lenguaje natural como en tareas de visión por computadora. Con el aumento del tamaño de los parámetros y la complejidad del modelo en las redes neuronales profundas, también es necesario contar con más datos disponibles para el entrenamiento para evitar el sobreajuste y lograr mejores resultados. Estos hechos demuestran que el entrenamiento de redes neuronales profundas lleva cada vez más tiempo. En este documento, proponemos un método de aceleración del entrenamiento basado en la congelación gradual de los parámetros durante el proceso de entrenamiento. Específicamente, observando la tendencia de convergencia durante el entrenamiento de redes neuronales profundas, congelamos parte de los parámetros para que ya no estén involucrados en el entrenamiento posterior y reducimos el costo de tiempo del entrenamiento. Además, se propone un algoritmo de congelación adaptativa para el control de la velocidad de congelación de acuerdo con la información reflejada por el gradiente de los parámetros. Concretamente, un gradiente mayor indica que la función de pérdida cambia más drásticamente en esa posición, lo que implica que hay más margen de mejora con el parámetro involucrado; un gradiente menor indica que la función de pérdida cambia menos y el aprendizaje de esa parte está cerca de la saturación, con menos beneficio de un entrenamiento adicional. Utilizamos ViTDet como nuestra referencia y realizamos experimentos en tres conjuntos de datos de detección de objetivos de teledetección para verificar la efectividad del método. Nuestro método proporciona una proporción mínima de aceleración de 1.38x, manteniendo una pérdida máxima de precisión de solo el 2.5%.
Descripción
A medida que el aprendizaje profundo ha evolucionado, las redes neuronales más grandes y profundas son actualmente una tendencia popular tanto en tareas de procesamiento de lenguaje natural como en tareas de visión por computadora. Con el aumento del tamaño de los parámetros y la complejidad del modelo en las redes neuronales profundas, también es necesario contar con más datos disponibles para el entrenamiento para evitar el sobreajuste y lograr mejores resultados. Estos hechos demuestran que el entrenamiento de redes neuronales profundas lleva cada vez más tiempo. En este documento, proponemos un método de aceleración del entrenamiento basado en la congelación gradual de los parámetros durante el proceso de entrenamiento. Específicamente, observando la tendencia de convergencia durante el entrenamiento de redes neuronales profundas, congelamos parte de los parámetros para que ya no estén involucrados en el entrenamiento posterior y reducimos el costo de tiempo del entrenamiento. Además, se propone un algoritmo de congelación adaptativa para el control de la velocidad de congelación de acuerdo con la información reflejada por el gradiente de los parámetros. Concretamente, un gradiente mayor indica que la función de pérdida cambia más drásticamente en esa posición, lo que implica que hay más margen de mejora con el parámetro involucrado; un gradiente menor indica que la función de pérdida cambia menos y el aprendizaje de esa parte está cerca de la saturación, con menos beneficio de un entrenamiento adicional. Utilizamos ViTDet como nuestra referencia y realizamos experimentos en tres conjuntos de datos de detección de objetivos de teledetección para verificar la efectividad del método. Nuestro método proporciona una proporción mínima de aceleración de 1.38x, manteniendo una pérdida máxima de precisión de solo el 2.5%.