Detección de Desalineación para Corpora Extraídos de la Web: Un Enfoque de Regresión Supervisada

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Detección de Desalineación para Corpora Extraídos de la Web: Un Enfoque de Regresión Supervisada

Autores: Defauw, Arne; Szoc, Sara; Bardadym, Anna; Brabers, Joris; Everaert, Frederic; Mijic, Roko; Scholte, Kim; Vanallemeersch, Tom; Van Winckel, Koen; Van den Bogaert, Joachim

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Detección de Desalineación para Corpora Extraídos de la Web: Un Enfoque de Regresión Supervisada

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Traducción automática neuronal

Oraciones paralelas

Alineación automática

Detección de desalineación

Regresión supervisada

Incrustaciones de oraciones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Para construir sistemas de Traducción Automática Neuronal (NMT) de última generación, se necesitan oraciones paralelas de alta calidad. Típicamente, se extraen grandes cantidades de datos de sitios web multilingües y se alinean en conjuntos de datos para el entrenamiento. Existen muchas herramientas para la alineación automática de tales conjuntos de datos. Sin embargo, la calidad del corpus alineado resultante puede ser decepcionante. En este artículo, presentamos una herramienta para la detección automática de desalineaciones (MAD). Tratamos la tarea de determinar si un par de oraciones alineadas constituye una traducción genuina como un problema de regresión supervisada. Entrenamos nuestro algoritmo en un conjunto de datos etiquetado manualmente en el par de idiomas FR-NL. Nuestro algoritmo utilizó características superficiales y características obtenidas después de un paso de traducción inicial. Mostramos que tanto la distancia de Levenshtein entre el objetivo y la fuente traducida, como la distancia coseno entre las incrustaciones de oraciones de la fuente y el objetivo, fueron las dos características más importantes para la tarea de detección de desalineaciones. Usando estándares de oro para la alineación, demostramos que nuestro modelo puede aumentar sustancialmente la calidad de las alineaciones en un corpus, alcanzando una precisión cercana al 100%. Finalmente, utilizamos nuestra herramienta para investigar el efecto de las desalineaciones en el rendimiento de NMT.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro