Rectificando el espacio interlingual mal formado: un marco para la traducción de cero disparos en NMT multilingüe modularizado
Autores: Liao, Junwei; Shi, Yu
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Rectificando el espacio interlingual mal formado: un marco para la traducción de cero disparos en NMT multilingüe modularizado
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Traducción automática neuronal
Modelo multilingüe
Modelo M2
Traducción sin necesidad de entrenamiento
Espacio interlingüístico
Aplicaciones industriales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
El modelo de traducción neuronal multilingüe (NMT) puede manejar la traducción entre más de un par de idiomas. Desde la perspectiva de las aplicaciones industriales, el modelo NMT multilingüe modularizado (modelo M2) que comparte módulos solo entre los mismos idiomas es una alternativa práctica al modelo que comparte un codificador y un decodificador (modelo 1-1). Trabajos anteriores han demostrado que el modelo M2 puede beneficiarse del entrenamiento multiway sin sufrir cuellos de botella de capacidad y muestra un mejor rendimiento que el modelo 1-1. Sin embargo, el modelo M2 entrenado en datos centrados en inglés es incapaz de la traducción de cero disparos debido al espacio interlingüístico mal formado. En este estudio, proponemos un marco para ayudar al modelo M2 a formar un espacio interlingüístico para la traducción de cero disparos. Utilizando este marco, ideamos un enfoque que combina el entrenamiento multiway con una tarea de autoencoder de desruido e incorpora un módulo de puente de atención Transformer basado en el mecanismo de atención. Experimentalmente demostramos que el método propuesto puede formar un espacio interlingüístico mejorado en dos experimentos de cero disparos. Nuestros hallazgos amplían aún más el uso del modelo M2 para la traducción multilingüe en aplicaciones industriales.
Descripción
El modelo de traducción neuronal multilingüe (NMT) puede manejar la traducción entre más de un par de idiomas. Desde la perspectiva de las aplicaciones industriales, el modelo NMT multilingüe modularizado (modelo M2) que comparte módulos solo entre los mismos idiomas es una alternativa práctica al modelo que comparte un codificador y un decodificador (modelo 1-1). Trabajos anteriores han demostrado que el modelo M2 puede beneficiarse del entrenamiento multiway sin sufrir cuellos de botella de capacidad y muestra un mejor rendimiento que el modelo 1-1. Sin embargo, el modelo M2 entrenado en datos centrados en inglés es incapaz de la traducción de cero disparos debido al espacio interlingüístico mal formado. En este estudio, proponemos un marco para ayudar al modelo M2 a formar un espacio interlingüístico para la traducción de cero disparos. Utilizando este marco, ideamos un enfoque que combina el entrenamiento multiway con una tarea de autoencoder de desruido e incorpora un módulo de puente de atención Transformer basado en el mecanismo de atención. Experimentalmente demostramos que el método propuesto puede formar un espacio interlingüístico mejorado en dos experimentos de cero disparos. Nuestros hallazgos amplían aún más el uso del modelo M2 para la traducción multilingüe en aplicaciones industriales.