Extracción de léxico bilingüe chino-uigur basada en supervisión débil

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Extracción de léxico bilingüe chino-uigur basada en supervisión débil

Autores: Aysa, Anwar; Ablimit, Mijit; Yilahun, Hankiz; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Extracción de léxico bilingüe chino-uigur basada en supervisión débil

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Extracción de léxico bilingüe

Lenguas de bajos recursos

Diccionario bilingüe chino-uigur

Extracción no supervisada

Red neuronal

Vectores de palabras

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La extracción de léxicos bilingües es útil, especialmente para lenguas de bajos recursos que pueden beneficiarse de lenguas de altos recursos. El idioma uigur es un idioma derivado, y sus recursos lingüísticos son escasos y ruidosos. Además, es difícil encontrar un recurso bilingüe para utilizar el conocimiento lingüístico de otros idiomas de gran recurso, como el chino o el inglés. Hay poca investigación relacionada sobre la extracción no supervisada para los idiomas chino-uigur, y los métodos existentes se centran principalmente en métodos de extracción de términos basados en corpora paralelos traducidos. En consecuencia, los métodos de extracción de conocimiento no supervisados son efectivos, especialmente para los idiomas de bajos recursos. Este artículo propone un método para extraer un diccionario bilingüe chino-uigur combinando la matriz de relaciones interpalabras mapeada por el vector de incrustación de palabras de red neuronal entre lenguas. Se utiliza un diccionario semilla como señal de supervisión débil. Se utiliza un pequeño recurso de datos paralelos chino-uigur para mapear los vectores de palabras multilingües en un espacio vectorial unificado. Dado que las partículas de palabras de estos dos idiomas no están bien coordinadas, se utilizan las raíces como las principales partículas lingüísticas. La fuerte relación semántica interpalabras de los vectores de palabras se utiliza para asociar la información semántica chino-uigur. Se utilizan dos indicadores de recuperación, como la recuperación de vecinos más cercanos y el escalado local de similitud entre dominios, para calcular la similitud y extraer diccionarios bilingües. Los resultados experimentales muestran que la precisión del método de extracción de diccionario bilingüe chino-uigur propuesto en este artículo se ha mejorado al 65.06%. Este método ayuda a mejorar la traducción automática chino-uigur, la extracción automática de conocimiento y las traducciones multilingües.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro