Una Estrategia de Aumento de Datos Diversa para la Traducción Automática Neuronal en Recursos Limitados

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Una Estrategia de Aumento de Datos Diversa para la Traducción Automática Neuronal en Recursos Limitados

Autores: Li, Yu; Li, Xiao; Yang, Yating; Dong, Rui

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Una Estrategia de Aumento de Datos Diversa para la Traducción Automática Neuronal en Recursos Limitados

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Traducción automática neuronal

Escala de datos paralelos disponibles

Método de aumento de datos de diversidad

Lenguas de bajos recursos

Puntos BLEU

Tareas de traducción de bajos recursos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Un problema importante que afecta el rendimiento de la traducción automática neuronal es la cantidad de datos paralelos disponibles. Para los idiomas de bajos recursos, la cantidad de datos paralelos no es suficiente, lo que resulta en una calidad de traducción deficiente. En este artículo, proponemos un método de aumento de datos de diversidad que no utiliza datos monolingües adicionales. Ampliamos los datos de entrenamiento generando datos pseudo paralelos de diversidad en los lados de origen y destino. Para generar datos de diversidad, se emplea una estrategia de muestreo restringido en los pasos de decodificación. Finalmente, filtramos y fusionamos los datos originales y el corpus paralelo sintético para entrenar el modelo final. En el experimento, el enfoque propuesto logró 1.96 puntos BLEU en las tareas de traducción alemán-inglés de IWSLT2014, que se utilizó para simular un idioma de bajos recursos. Nuestro enfoque también obtuvo de manera consistente y sustancial una mejora de 1.0 a 2.0 puntos BLEU en tres otras tareas de traducción de bajos recursos, incluyendo las tareas de traducción inglés-turco, nepalí-inglés y cingalés-inglés.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro