logo móvil
Contáctanos

Extracción de léxico bilingüe chino-uigur basada en supervisión débil

Autores: Aysa, Anwar; Ablimit, Mijit; Yilahun, Hankiz; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Extracción de léxico bilingüe chino-uigur basada en supervisión débil


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Extracción de léxico bilingüe
Lenguas de bajos recursos
Diccionario bilingüe chino-uigur
Extracción no supervisada
Red neuronal
Vectores de palabras

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La extracción de léxicos bilingües es útil, especialmente para lenguas de bajos recursos que pueden beneficiarse de lenguas de altos recursos. El idioma uigur es un idioma derivado, y sus recursos lingüísticos son escasos y ruidosos. Además, es difícil encontrar un recurso bilingüe para utilizar el conocimiento lingüístico de otros idiomas de gran recurso, como el chino o el inglés. Hay poca investigación relacionada sobre la extracción no supervisada para los idiomas chino-uigur, y los métodos existentes se centran principalmente en métodos de extracción de términos basados en corpora paralelos traducidos. En consecuencia, los métodos de extracción de conocimiento no supervisados son efectivos, especialmente para los idiomas de bajos recursos. Este artículo propone un método para extraer un diccionario bilingüe chino-uigur combinando la matriz de relaciones interpalabras mapeada por el vector de incrustación de palabras de red neuronal entre lenguas. Se utiliza un diccionario semilla como señal de supervisión débil. Se utiliza un pequeño recurso de datos paralelos chino-uigur para mapear los vectores de palabras multilingües en un espacio vectorial unificado. Dado que las partículas de palabras de estos dos idiomas no están bien coordinadas, se utilizan las raíces como las principales partículas lingüísticas. La fuerte relación semántica interpalabras de los vectores de palabras se utiliza para asociar la información semántica chino-uigur. Se utilizan dos indicadores de recuperación, como la recuperación de vecinos más cercanos y el escalado local de similitud entre dominios, para calcular la similitud y extraer diccionarios bilingües. Los resultados experimentales muestran que la precisión del método de extracción de diccionario bilingüe chino-uigur propuesto en este artículo se ha mejorado al 65.06%. Este método ayuda a mejorar la traducción automática chino-uigur, la extracción automática de conocimiento y las traducciones multilingües.

Otros recursos que podrían interesarte

Temas Virtualpro