Doble regularización de consistencia para redes de transformadores
Autores: Wan, Yuxian; Zhang, Wenlin; Li, Zhen
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Doble regularización de consistencia para redes de transformadores
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelo de transformer
Sobreajuste
Regularización de doble consistencia
Modelo end-to-end
Función de pérdida de entropía cruzada
Tareas de traducción automática
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
El modelo de red neuronal profunda a gran escala y de capa profunda basado en el modelo Transformer es muy potente en tareas de secuencia, pero tiende a sobreajustarse para datos de entrenamiento a pequeña escala. Además, el resultado de la predicción del modelo con una entrada de perturbación pequeña es significativamente menor que el de sin perturbación. En este trabajo, proponemos un método de regularización de doble consistencia (DOCR) para la estructura del modelo de extremo a extremo, que restringe por separado la salida del codificador y del decodificador durante el proceso de entrenamiento para aliviar los problemas mencionados. Específicamente, sobre la base de la función de pérdida de entropía cruzada, construimos el modelo promedio integrando los parámetros del modelo de rondas anteriores y medimos la consistencia entre los modelos calculando la divergencia de KL entre las características de la salida del codificador y la distribución de probabilidad de la salida del decodificador del modelo promedio y el modelo base para imponer restricciones de regularización en el espacio de solución del modelo. Realizamos experimentos extensos en tareas de traducción automática, y los resultados muestran que la puntuación BLEU aumentó en promedio en 2.60, demostrando la efectividad de DOCR en mejorar el rendimiento del modelo y sus impactos complementarios con otras técnicas de regularización.
Descripción
El modelo de red neuronal profunda a gran escala y de capa profunda basado en el modelo Transformer es muy potente en tareas de secuencia, pero tiende a sobreajustarse para datos de entrenamiento a pequeña escala. Además, el resultado de la predicción del modelo con una entrada de perturbación pequeña es significativamente menor que el de sin perturbación. En este trabajo, proponemos un método de regularización de doble consistencia (DOCR) para la estructura del modelo de extremo a extremo, que restringe por separado la salida del codificador y del decodificador durante el proceso de entrenamiento para aliviar los problemas mencionados. Específicamente, sobre la base de la función de pérdida de entropía cruzada, construimos el modelo promedio integrando los parámetros del modelo de rondas anteriores y medimos la consistencia entre los modelos calculando la divergencia de KL entre las características de la salida del codificador y la distribución de probabilidad de la salida del decodificador del modelo promedio y el modelo base para imponer restricciones de regularización en el espacio de solución del modelo. Realizamos experimentos extensos en tareas de traducción automática, y los resultados muestran que la puntuación BLEU aumentó en promedio en 2.60, demostrando la efectividad de DOCR en mejorar el rendimiento del modelo y sus impactos complementarios con otras técnicas de regularización.