Investigación sobre la coincidencia de patrones en uyghur basada en características de sílaba
Autores: Abliz, Wayit; Maimaiti, Maihemuti; Wu, Hao; Wushouer, Jiamila; Abiderexiti, Kahaerjiang; Yibulayin, Tuergen; Wumaier, Aishan
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Investigación sobre la coincidencia de patrones en uyghur basada en características de sílaba
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Coincidencia de patrones
Idioma uigur
Algoritmo de Boyer-Moore-U
Características de las sílabas
Debilitamiento de vocales
Cambios morfológicos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La coincidencia de patrones se utiliza ampliamente en varios campos como la recuperación de información, el procesamiento del lenguaje natural (NLP), la minería de datos y la seguridad en redes. En uyghur (un idioma aglutinante típico, de bajos recursos y con una morfología compleja, hablado por el grupo étnico uyghur en Xinjiang, China), la investigación sobre la coincidencia de patrones también está en curso. Debido a las características del idioma, la coincidencia de patrones utilizando caracteres y palabras como unidades básicas tiene un rendimiento insuficiente. Hay dos problemas para la coincidencia de patrones: (1) debilitamiento de vocales y (2) cambios morfológicos causados por sufijos. En vista de los problemas anteriores, este artículo propone un algoritmo Boyer-Moore-U (BM-U) y un formato de codificación de sílabas recuperable basado en las características silábicas del idioma uyghur y la mejora del algoritmo Boyer-Moore (BM). Este algoritmo utiliza características silábicas para realizar la coincidencia de patrones, lo que resuelve eficazmente el problema del debilitamiento de vocales, y puede igualar mejor las palabras con cambios en la forma de la raíz. Finalmente, en los experimentos de coincidencia de patrones basados en texto codificado por caracteres y texto codificado por sílabas para palabras con debilitamiento de vocales, la precisión, el recall, la medida F1 y la exactitud del algoritmo BM-U mejoran en un 4%, 55%, 33%, 25% y 10%, 52%, 38%, 38% en comparación con el algoritmo BM.
Descripción
La coincidencia de patrones se utiliza ampliamente en varios campos como la recuperación de información, el procesamiento del lenguaje natural (NLP), la minería de datos y la seguridad en redes. En uyghur (un idioma aglutinante típico, de bajos recursos y con una morfología compleja, hablado por el grupo étnico uyghur en Xinjiang, China), la investigación sobre la coincidencia de patrones también está en curso. Debido a las características del idioma, la coincidencia de patrones utilizando caracteres y palabras como unidades básicas tiene un rendimiento insuficiente. Hay dos problemas para la coincidencia de patrones: (1) debilitamiento de vocales y (2) cambios morfológicos causados por sufijos. En vista de los problemas anteriores, este artículo propone un algoritmo Boyer-Moore-U (BM-U) y un formato de codificación de sílabas recuperable basado en las características silábicas del idioma uyghur y la mejora del algoritmo Boyer-Moore (BM). Este algoritmo utiliza características silábicas para realizar la coincidencia de patrones, lo que resuelve eficazmente el problema del debilitamiento de vocales, y puede igualar mejor las palabras con cambios en la forma de la raíz. Finalmente, en los experimentos de coincidencia de patrones basados en texto codificado por caracteres y texto codificado por sílabas para palabras con debilitamiento de vocales, la precisión, el recall, la medida F1 y la exactitud del algoritmo BM-U mejoran en un 4%, 55%, 33%, 25% y 10%, 52%, 38%, 38% en comparación con el algoritmo BM.