Doble regularización de consistencia para redes de transformadores

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Doble regularización de consistencia para redes de transformadores

Autores: Wan, Yuxian; Zhang, Wenlin; Li, Zhen

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Doble regularización de consistencia para redes de transformadores

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelo de transformer

Sobreajuste

Regularización de doble consistencia

Modelo end-to-end

Función de pérdida de entropía cruzada

Tareas de traducción automática

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones

El modelo de red neuronal profunda a gran escala y de capa profunda basado en el modelo Transformer es muy potente en tareas de secuencia, pero tiende a sobreajustarse para datos de entrenamiento a pequeña escala. Además, el resultado de la predicción del modelo con una entrada de perturbación pequeña es significativamente menor que el de sin perturbación. En este trabajo, proponemos un método de regularización de doble consistencia (DOCR) para la estructura del modelo de extremo a extremo, que restringe por separado la salida del codificador y del decodificador durante el proceso de entrenamiento para aliviar los problemas mencionados. Específicamente, sobre la base de la función de pérdida de entropía cruzada, construimos el modelo promedio integrando los parámetros del modelo de rondas anteriores y medimos la consistencia entre los modelos calculando la divergencia de KL entre las características de la salida del codificador y la distribución de probabilidad de la salida del decodificador del modelo promedio y el modelo base para imponer restricciones de regularización en el espacio de solución del modelo. Realizamos experimentos extensos en tareas de traducción automática, y los resultados muestran que la puntuación BLEU aumentó en promedio en 2.60, demostrando la efectividad de DOCR en mejorar el rendimiento del modelo y sus impactos complementarios con otras técnicas de regularización.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro