Evaluando el impacto de integrar traducciones similares en la traducción automática neuronal
Autores: Tezcan, Arda; Bulté, Bram
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Evaluando el impacto de integrar traducciones similares en la traducción automática neuronal
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Investigación
Traducción automática
Coincidencias difusas
Métricas de calidad
Análisis de errores
Traducciones NFR
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Investigaciones anteriores han demostrado que métodos simples de aumento de datos de entrenamiento de traducción automática y oraciones de entrada con traducciones de oraciones similares (o coincidencias difusas), recuperadas de una memoria de traducción o corpus bilingüe, conducen a mejoras considerables en la calidad de la traducción, según lo evaluado por un conjunto limitado de métricas de evaluación automática. En este estudio, ampliamos esta evaluación calculando una gama más amplia de métricas de calidad automatizadas que abordan diferentes aspectos de la calidad de la traducción y realizando un análisis manual de errores de MT. Además, investigamos con más detalle cómo las coincidencias difusas influyen en las traducciones y dónde aún se podrían hacer mejoras de calidad al llevar a cabo una serie de análisis cuantitativos que se centran en diferentes características de las coincidencias difusas recuperadas. La evaluación automatizada muestra que la calidad de las traducciones NFR es superior a la línea base de NMT en términos de todas las métricas. Sin embargo, el análisis manual de errores no reveló una diferencia entre los dos sistemas en términos del número total de errores de traducción; sin embargo, surgieron perfiles diferentes al considerar los tipos de errores cometidos. Finalmente, en nuestro análisis de cómo las coincidencias difusas influyen en las traducciones NFR, identificamos una serie de características que podrían utilizarse para mejorar la selección de coincidencias difusas para la augmentación de datos NFR.
Descripción
Investigaciones anteriores han demostrado que métodos simples de aumento de datos de entrenamiento de traducción automática y oraciones de entrada con traducciones de oraciones similares (o coincidencias difusas), recuperadas de una memoria de traducción o corpus bilingüe, conducen a mejoras considerables en la calidad de la traducción, según lo evaluado por un conjunto limitado de métricas de evaluación automática. En este estudio, ampliamos esta evaluación calculando una gama más amplia de métricas de calidad automatizadas que abordan diferentes aspectos de la calidad de la traducción y realizando un análisis manual de errores de MT. Además, investigamos con más detalle cómo las coincidencias difusas influyen en las traducciones y dónde aún se podrían hacer mejoras de calidad al llevar a cabo una serie de análisis cuantitativos que se centran en diferentes características de las coincidencias difusas recuperadas. La evaluación automatizada muestra que la calidad de las traducciones NFR es superior a la línea base de NMT en términos de todas las métricas. Sin embargo, el análisis manual de errores no reveló una diferencia entre los dos sistemas en términos del número total de errores de traducción; sin embargo, surgieron perfiles diferentes al considerar los tipos de errores cometidos. Finalmente, en nuestro análisis de cómo las coincidencias difusas influyen en las traducciones NFR, identificamos una serie de características que podrían utilizarse para mejorar la selección de coincidencias difusas para la augmentación de datos NFR.