logo móvil
Contáctanos

Investigación sobre la coincidencia de patrones en uyghur basada en características de sílaba

Autores: Abliz, Wayit; Maimaiti, Maihemuti; Wu, Hao; Wushouer, Jiamila; Abiderexiti, Kahaerjiang; Yibulayin, Tuergen; Wumaier, Aishan

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Investigación sobre la coincidencia de patrones en uyghur basada en características de sílaba


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Coincidencia de patrones
Idioma uigur
Algoritmo de Boyer-Moore-U
Características de las sílabas
Debilitamiento de vocales
Cambios morfológicos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La coincidencia de patrones se utiliza ampliamente en varios campos como la recuperación de información, el procesamiento del lenguaje natural (NLP), la minería de datos y la seguridad en redes. En uyghur (un idioma aglutinante típico, de bajos recursos y con una morfología compleja, hablado por el grupo étnico uyghur en Xinjiang, China), la investigación sobre la coincidencia de patrones también está en curso. Debido a las características del idioma, la coincidencia de patrones utilizando caracteres y palabras como unidades básicas tiene un rendimiento insuficiente. Hay dos problemas para la coincidencia de patrones: (1) debilitamiento de vocales y (2) cambios morfológicos causados por sufijos. En vista de los problemas anteriores, este artículo propone un algoritmo Boyer-Moore-U (BM-U) y un formato de codificación de sílabas recuperable basado en las características silábicas del idioma uyghur y la mejora del algoritmo Boyer-Moore (BM). Este algoritmo utiliza características silábicas para realizar la coincidencia de patrones, lo que resuelve eficazmente el problema del debilitamiento de vocales, y puede igualar mejor las palabras con cambios en la forma de la raíz. Finalmente, en los experimentos de coincidencia de patrones basados en texto codificado por caracteres y texto codificado por sílabas para palabras con debilitamiento de vocales, la precisión, el recall, la medida F1 y la exactitud del algoritmo BM-U mejoran en un 4%, 55%, 33%, 25% y 10%, 52%, 38%, 38% en comparación con el algoritmo BM.

Otros recursos que podrían interesarte

Temas Virtualpro