Una Estrategia de Aumento de Datos Diversa para la Traducción Automática Neuronal en Recursos Limitados
Autores: Li, Yu; Li, Xiao; Yang, Yating; Dong, Rui
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Una Estrategia de Aumento de Datos Diversa para la Traducción Automática Neuronal en Recursos Limitados
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Traducción automática neuronal
Escala de datos paralelos disponibles
Método de aumento de datos de diversidad
Lenguas de bajos recursos
Puntos BLEU
Tareas de traducción de bajos recursos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Un problema importante que afecta el rendimiento de la traducción automática neuronal es la cantidad de datos paralelos disponibles. Para los idiomas de bajos recursos, la cantidad de datos paralelos no es suficiente, lo que resulta en una calidad de traducción deficiente. En este artículo, proponemos un método de aumento de datos de diversidad que no utiliza datos monolingües adicionales. Ampliamos los datos de entrenamiento generando datos pseudo paralelos de diversidad en los lados de origen y destino. Para generar datos de diversidad, se emplea una estrategia de muestreo restringido en los pasos de decodificación. Finalmente, filtramos y fusionamos los datos originales y el corpus paralelo sintético para entrenar el modelo final. En el experimento, el enfoque propuesto logró 1.96 puntos BLEU en las tareas de traducción alemán-inglés de IWSLT2014, que se utilizó para simular un idioma de bajos recursos. Nuestro enfoque también obtuvo de manera consistente y sustancial una mejora de 1.0 a 2.0 puntos BLEU en tres otras tareas de traducción de bajos recursos, incluyendo las tareas de traducción inglés-turco, nepalí-inglés y cingalés-inglés.
Descripción
Un problema importante que afecta el rendimiento de la traducción automática neuronal es la cantidad de datos paralelos disponibles. Para los idiomas de bajos recursos, la cantidad de datos paralelos no es suficiente, lo que resulta en una calidad de traducción deficiente. En este artículo, proponemos un método de aumento de datos de diversidad que no utiliza datos monolingües adicionales. Ampliamos los datos de entrenamiento generando datos pseudo paralelos de diversidad en los lados de origen y destino. Para generar datos de diversidad, se emplea una estrategia de muestreo restringido en los pasos de decodificación. Finalmente, filtramos y fusionamos los datos originales y el corpus paralelo sintético para entrenar el modelo final. En el experimento, el enfoque propuesto logró 1.96 puntos BLEU en las tareas de traducción alemán-inglés de IWSLT2014, que se utilizó para simular un idioma de bajos recursos. Nuestro enfoque también obtuvo de manera consistente y sustancial una mejora de 1.0 a 2.0 puntos BLEU en tres otras tareas de traducción de bajos recursos, incluyendo las tareas de traducción inglés-turco, nepalí-inglés y cingalés-inglés.