Método de aceleración de entrenamiento basado en congelación de parámetros

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método de aceleración de entrenamiento basado en congelación de parámetros

Autores: Tang, Hongwei; Chen, Jialiang; Zhang, Wenkai; Guo, Zhi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Método de aceleración de entrenamiento basado en congelación de parámetros

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo

Redes neuronales

Aceleración del entrenamiento

Congelación de parámetros

Sobreajuste

Gradiente

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

A medida que el aprendizaje profundo ha evolucionado, las redes neuronales más grandes y profundas son actualmente una tendencia popular tanto en tareas de procesamiento de lenguaje natural como en tareas de visión por computadora. Con el aumento del tamaño de los parámetros y la complejidad del modelo en las redes neuronales profundas, también es necesario contar con más datos disponibles para el entrenamiento para evitar el sobreajuste y lograr mejores resultados. Estos hechos demuestran que el entrenamiento de redes neuronales profundas lleva cada vez más tiempo. En este documento, proponemos un método de aceleración del entrenamiento basado en la congelación gradual de los parámetros durante el proceso de entrenamiento. Específicamente, observando la tendencia de convergencia durante el entrenamiento de redes neuronales profundas, congelamos parte de los parámetros para que ya no estén involucrados en el entrenamiento posterior y reducimos el costo de tiempo del entrenamiento. Además, se propone un algoritmo de congelación adaptativa para el control de la velocidad de congelación de acuerdo con la información reflejada por el gradiente de los parámetros. Concretamente, un gradiente mayor indica que la función de pérdida cambia más drásticamente en esa posición, lo que implica que hay más margen de mejora con el parámetro involucrado; un gradiente menor indica que la función de pérdida cambia menos y el aprendizaje de esa parte está cerca de la saturación, con menos beneficio de un entrenamiento adicional. Utilizamos ViTDet como nuestra referencia y realizamos experimentos en tres conjuntos de datos de detección de objetivos de teledetección para verificar la efectividad del método. Nuestro método proporciona una proporción mínima de aceleración de 1.38x, manteniendo una pérdida máxima de precisión de solo el 2.5%.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro