Un enfoque basado en redes neuronales para la traducción de nombres de organizaciones chinas-uyghur
Autores: Wumaier, Aishan; Xu, Cuiyun; Kadeer, Zaokere; Liu, Wenqi; Wang, Yingbo; Haierla, Xireaili; Maimaiti, Maihemuti; Tian, ShengWei; Saimaiti, Alimu
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Un enfoque basado en redes neuronales para la traducción de nombres de organizaciones chinas-uyghur
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Traducción
ONs
Chino-uigur
Traducción automática neuronal
Entidad nombrada
Transformador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento y la traducción de nombres de organizaciones (NOs) es un desafío debido a las estructuras complejas y la alta variabilidad involucradas. Los NOs consisten no solo en palabras genéricas comunes, sino también en nombres, palabras raras, abreviaturas y jerga empresarial e industrial. Los NOs son una subclase de frases de entidad nombrada (EN), que transmiten información clave en el texto. Como tal, la traducción correcta de los NOs es crítica para la traducción automática y la recuperación de información multilingüe. Los sistemas existentes de traducción automática neuronal chino-uigur han tenido un rendimiento deficiente cuando se aplican a tareas de traducción de NOs. Dado que no hay corpora de traducción de NOs chino-uigur disponibles públicamente, se desarrolla aquí un corpus de traducción de NOs, que incluye 191,641 pares de traducción de NOs. Se propone aquí un enfoque de segmentación de palabras que involucra caracterización, caracterización etiquetada, codificación de pares de bytes (BPE) y silabificación para tareas de traducción de NOs. Se adapta aquí un marco de atención de red neuronal recurrente (RNN) y un transformador para tareas de traducción de NOs con diferentes granularidades de secuencia. Los resultados experimentales indican que el modelo de transformador no solo supera al modelo de atención RNN, sino que también se beneficia del enfoque de segmentación de palabras propuesto. Además, se desarrolla aquí un sistema de traducción de NOs chino-uigur para generar automáticamente nuevos pares de traducción. Este trabajo mejora significativamente la traducción de NOs chino-uigur y puede aplicarse para mejorar la traducción automática chino-uigur y la recuperación de información multilingüe. También puede extenderse fácilmente a otros idiomas aglutinantes.
Descripción
El reconocimiento y la traducción de nombres de organizaciones (NOs) es un desafío debido a las estructuras complejas y la alta variabilidad involucradas. Los NOs consisten no solo en palabras genéricas comunes, sino también en nombres, palabras raras, abreviaturas y jerga empresarial e industrial. Los NOs son una subclase de frases de entidad nombrada (EN), que transmiten información clave en el texto. Como tal, la traducción correcta de los NOs es crítica para la traducción automática y la recuperación de información multilingüe. Los sistemas existentes de traducción automática neuronal chino-uigur han tenido un rendimiento deficiente cuando se aplican a tareas de traducción de NOs. Dado que no hay corpora de traducción de NOs chino-uigur disponibles públicamente, se desarrolla aquí un corpus de traducción de NOs, que incluye 191,641 pares de traducción de NOs. Se propone aquí un enfoque de segmentación de palabras que involucra caracterización, caracterización etiquetada, codificación de pares de bytes (BPE) y silabificación para tareas de traducción de NOs. Se adapta aquí un marco de atención de red neuronal recurrente (RNN) y un transformador para tareas de traducción de NOs con diferentes granularidades de secuencia. Los resultados experimentales indican que el modelo de transformador no solo supera al modelo de atención RNN, sino que también se beneficia del enfoque de segmentación de palabras propuesto. Además, se desarrolla aquí un sistema de traducción de NOs chino-uigur para generar automáticamente nuevos pares de traducción. Este trabajo mejora significativamente la traducción de NOs chino-uigur y puede aplicarse para mejorar la traducción automática chino-uigur y la recuperación de información multilingüe. También puede extenderse fácilmente a otros idiomas aglutinantes.