logo móvil
Contáctanos

Doble regularización de consistencia para redes de transformadores

Autores: Wan, Yuxian; Zhang, Wenlin; Li, Zhen

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Doble regularización de consistencia para redes de transformadores


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelo de transformer
Sobreajuste
Regularización de doble consistencia
Modelo end-to-end
Función de pérdida de entropía cruzada
Tareas de traducción automática

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
El modelo de red neuronal profunda a gran escala y de capa profunda basado en el modelo Transformer es muy potente en tareas de secuencia, pero tiende a sobreajustarse para datos de entrenamiento a pequeña escala. Además, el resultado de la predicción del modelo con una entrada de perturbación pequeña es significativamente menor que el de sin perturbación. En este trabajo, proponemos un método de regularización de doble consistencia (DOCR) para la estructura del modelo de extremo a extremo, que restringe por separado la salida del codificador y del decodificador durante el proceso de entrenamiento para aliviar los problemas mencionados. Específicamente, sobre la base de la función de pérdida de entropía cruzada, construimos el modelo promedio integrando los parámetros del modelo de rondas anteriores y medimos la consistencia entre los modelos calculando la divergencia de KL entre las características de la salida del codificador y la distribución de probabilidad de la salida del decodificador del modelo promedio y el modelo base para imponer restricciones de regularización en el espacio de solución del modelo. Realizamos experimentos extensos en tareas de traducción automática, y los resultados muestran que la puntuación BLEU aumentó en promedio en 2.60, demostrando la efectividad de DOCR en mejorar el rendimiento del modelo y sus impactos complementarios con otras técnicas de regularización.

Otros recursos que podrían interesarte

Temas Virtualpro