Detección de Desalineación para Corpora Extraídos de la Web: Un Enfoque de Regresión Supervisada
Autores: Defauw, Arne; Szoc, Sara; Bardadym, Anna; Brabers, Joris; Everaert, Frederic; Mijic, Roko; Scholte, Kim; Vanallemeersch, Tom; Van Winckel, Koen; Van den Bogaert, Joachim
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Detección de Desalineación para Corpora Extraídos de la Web: Un Enfoque de Regresión Supervisada
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Traducción automática neuronal
Oraciones paralelas
Alineación automática
Detección de desalineación
Regresión supervisada
Incrustaciones de oraciones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para construir sistemas de Traducción Automática Neuronal (NMT) de última generación, se necesitan oraciones paralelas de alta calidad. Típicamente, se extraen grandes cantidades de datos de sitios web multilingües y se alinean en conjuntos de datos para el entrenamiento. Existen muchas herramientas para la alineación automática de tales conjuntos de datos. Sin embargo, la calidad del corpus alineado resultante puede ser decepcionante. En este artículo, presentamos una herramienta para la detección automática de desalineaciones (MAD). Tratamos la tarea de determinar si un par de oraciones alineadas constituye una traducción genuina como un problema de regresión supervisada. Entrenamos nuestro algoritmo en un conjunto de datos etiquetado manualmente en el par de idiomas FR-NL. Nuestro algoritmo utilizó características superficiales y características obtenidas después de un paso de traducción inicial. Mostramos que tanto la distancia de Levenshtein entre el objetivo y la fuente traducida, como la distancia coseno entre las incrustaciones de oraciones de la fuente y el objetivo, fueron las dos características más importantes para la tarea de detección de desalineaciones. Usando estándares de oro para la alineación, demostramos que nuestro modelo puede aumentar sustancialmente la calidad de las alineaciones en un corpus, alcanzando una precisión cercana al 100%. Finalmente, utilizamos nuestra herramienta para investigar el efecto de las desalineaciones en el rendimiento de NMT.
Descripción
Para construir sistemas de Traducción Automática Neuronal (NMT) de última generación, se necesitan oraciones paralelas de alta calidad. Típicamente, se extraen grandes cantidades de datos de sitios web multilingües y se alinean en conjuntos de datos para el entrenamiento. Existen muchas herramientas para la alineación automática de tales conjuntos de datos. Sin embargo, la calidad del corpus alineado resultante puede ser decepcionante. En este artículo, presentamos una herramienta para la detección automática de desalineaciones (MAD). Tratamos la tarea de determinar si un par de oraciones alineadas constituye una traducción genuina como un problema de regresión supervisada. Entrenamos nuestro algoritmo en un conjunto de datos etiquetado manualmente en el par de idiomas FR-NL. Nuestro algoritmo utilizó características superficiales y características obtenidas después de un paso de traducción inicial. Mostramos que tanto la distancia de Levenshtein entre el objetivo y la fuente traducida, como la distancia coseno entre las incrustaciones de oraciones de la fuente y el objetivo, fueron las dos características más importantes para la tarea de detección de desalineaciones. Usando estándares de oro para la alineación, demostramos que nuestro modelo puede aumentar sustancialmente la calidad de las alineaciones en un corpus, alcanzando una precisión cercana al 100%. Finalmente, utilizamos nuestra herramienta para investigar el efecto de las desalineaciones en el rendimiento de NMT.