logo móvil
Contáctanos

Una Estrategia de Aumento de Datos Diversa para la Traducción Automática Neuronal en Recursos Limitados

Autores: Li, Yu; Li, Xiao; Yang, Yating; Dong, Rui

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Una Estrategia de Aumento de Datos Diversa para la Traducción Automática Neuronal en Recursos Limitados


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Traducción automática neuronal
Escala de datos paralelos disponibles
Método de aumento de datos de diversidad
Lenguas de bajos recursos
Puntos BLEU
Tareas de traducción de bajos recursos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Un problema importante que afecta el rendimiento de la traducción automática neuronal es la cantidad de datos paralelos disponibles. Para los idiomas de bajos recursos, la cantidad de datos paralelos no es suficiente, lo que resulta en una calidad de traducción deficiente. En este artículo, proponemos un método de aumento de datos de diversidad que no utiliza datos monolingües adicionales. Ampliamos los datos de entrenamiento generando datos pseudo paralelos de diversidad en los lados de origen y destino. Para generar datos de diversidad, se emplea una estrategia de muestreo restringido en los pasos de decodificación. Finalmente, filtramos y fusionamos los datos originales y el corpus paralelo sintético para entrenar el modelo final. En el experimento, el enfoque propuesto logró 1.96 puntos BLEU en las tareas de traducción alemán-inglés de IWSLT2014, que se utilizó para simular un idioma de bajos recursos. Nuestro enfoque también obtuvo de manera consistente y sustancial una mejora de 1.0 a 2.0 puntos BLEU en tres otras tareas de traducción de bajos recursos, incluyendo las tareas de traducción inglés-turco, nepalí-inglés y cingalés-inglés.

Otros recursos que podrían interesarte

Temas Virtualpro