logo móvil
Contáctanos

Método de aceleración de entrenamiento basado en congelación de parámetros

Autores: Tang, Hongwei; Chen, Jialiang; Zhang, Wenkai; Guo, Zhi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Método de aceleración de entrenamiento basado en congelación de parámetros


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo
Redes neuronales
Aceleración del entrenamiento
Congelación de parámetros
Sobreajuste
Gradiente

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
A medida que el aprendizaje profundo ha evolucionado, las redes neuronales más grandes y profundas son actualmente una tendencia popular tanto en tareas de procesamiento de lenguaje natural como en tareas de visión por computadora. Con el aumento del tamaño de los parámetros y la complejidad del modelo en las redes neuronales profundas, también es necesario contar con más datos disponibles para el entrenamiento para evitar el sobreajuste y lograr mejores resultados. Estos hechos demuestran que el entrenamiento de redes neuronales profundas lleva cada vez más tiempo. En este documento, proponemos un método de aceleración del entrenamiento basado en la congelación gradual de los parámetros durante el proceso de entrenamiento. Específicamente, observando la tendencia de convergencia durante el entrenamiento de redes neuronales profundas, congelamos parte de los parámetros para que ya no estén involucrados en el entrenamiento posterior y reducimos el costo de tiempo del entrenamiento. Además, se propone un algoritmo de congelación adaptativa para el control de la velocidad de congelación de acuerdo con la información reflejada por el gradiente de los parámetros. Concretamente, un gradiente mayor indica que la función de pérdida cambia más drásticamente en esa posición, lo que implica que hay más margen de mejora con el parámetro involucrado; un gradiente menor indica que la función de pérdida cambia menos y el aprendizaje de esa parte está cerca de la saturación, con menos beneficio de un entrenamiento adicional. Utilizamos ViTDet como nuestra referencia y realizamos experimentos en tres conjuntos de datos de detección de objetivos de teledetección para verificar la efectividad del método. Nuestro método proporciona una proporción mínima de aceleración de 1.38x, manteniendo una pérdida máxima de precisión de solo el 2.5%.

Otros recursos que podrían interesarte

Temas Virtualpro