logo móvil
Contáctanos

Detección de Desalineación para Corpora Extraídos de la Web: Un Enfoque de Regresión Supervisada

Autores: Defauw, Arne; Szoc, Sara; Bardadym, Anna; Brabers, Joris; Everaert, Frederic; Mijic, Roko; Scholte, Kim; Vanallemeersch, Tom; Van Winckel, Koen; Van den Bogaert, Joachim

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Detección de Desalineación para Corpora Extraídos de la Web: Un Enfoque de Regresión Supervisada


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Traducción automática neuronal
Oraciones paralelas
Alineación automática
Detección de desalineación
Regresión supervisada
Incrustaciones de oraciones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Para construir sistemas de Traducción Automática Neuronal (NMT) de última generación, se necesitan oraciones paralelas de alta calidad. Típicamente, se extraen grandes cantidades de datos de sitios web multilingües y se alinean en conjuntos de datos para el entrenamiento. Existen muchas herramientas para la alineación automática de tales conjuntos de datos. Sin embargo, la calidad del corpus alineado resultante puede ser decepcionante. En este artículo, presentamos una herramienta para la detección automática de desalineaciones (MAD). Tratamos la tarea de determinar si un par de oraciones alineadas constituye una traducción genuina como un problema de regresión supervisada. Entrenamos nuestro algoritmo en un conjunto de datos etiquetado manualmente en el par de idiomas FR-NL. Nuestro algoritmo utilizó características superficiales y características obtenidas después de un paso de traducción inicial. Mostramos que tanto la distancia de Levenshtein entre el objetivo y la fuente traducida, como la distancia coseno entre las incrustaciones de oraciones de la fuente y el objetivo, fueron las dos características más importantes para la tarea de detección de desalineaciones. Usando estándares de oro para la alineación, demostramos que nuestro modelo puede aumentar sustancialmente la calidad de las alineaciones en un corpus, alcanzando una precisión cercana al 100%. Finalmente, utilizamos nuestra herramienta para investigar el efecto de las desalineaciones en el rendimiento de NMT.

Otros recursos que podrían interesarte

Temas Virtualpro