Filtrado de Texto a través de Coincidencia de Múltiples Patrones: Un Estudio de Caso de Wu-Manber-Uy en el Idioma Uigur
Autores: Tohti, Turdi; Huang, Jimmy; Hamdulla, Askar; Tan, Xing
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Filtrado de Texto a través de Coincidencia de Múltiples Patrones: Un Estudio de Caso de Wu-Manber-Uy en el Idioma Uigur
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aplicaciones
Eficiencia temporal
Filtrado de texto
Coincidencia de patrones
Idioma uigur
Algoritmos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Dada su generalidad en aplicaciones y su alta eficiencia temporal en conjuntos de datos grandes, en los últimos años, la técnica de filtrado de texto a través de la coincidencia de patrones ha estado atrayendo una atención creciente de los campos de recuperación de información y las comunidades de investigación en Procesamiento de Lenguaje Natural (NLP) en general. Sin embargo, aún queda por ver cómo esta técnica y sus algoritmos, (por ejemplo, Wu-Manber, que también se considera en este documento) pueden aplicarse y adoptarse de manera adecuada y efectiva al uigur, un idioma de bajos recursos que es hablado principalmente por el grupo étnico uigur con una población de más de once millones en Xinjiang, China. Observamos que, técnicamente, el desafío se debe principalmente a dos factores: (1) debilitamiento de vocales y (2) desajuste en la semántica entre afijos y raíces. En consecuencia, en este documento, proponemos Wu-Manber-Uy, una variante de una mejora a Wu-Manber, dedicada particularmente a trabajar en el idioma uigur. Wu-Manber-Uy implementa una estrategia de expansión de patrones basada en la deformación de raíces, específicamente para reducir el desajuste de patrones causado por el debilitamiento de vocales y errores ortográficos. También se utiliza en Wu-Manber-Uy una estrategia bidireccional que aplica vigilancia y control sobre el cambio de significado léxico de las raíces durante la formación de palabras. Se incorpora una consideración adicional con respecto a Word2vec y el diccionario en el sistema para procesar el uigur. Los resultados experimentales que hemos obtenido demuestran consistentemente el alto rendimiento de Wu-Manber-Uy.
Descripción
Dada su generalidad en aplicaciones y su alta eficiencia temporal en conjuntos de datos grandes, en los últimos años, la técnica de filtrado de texto a través de la coincidencia de patrones ha estado atrayendo una atención creciente de los campos de recuperación de información y las comunidades de investigación en Procesamiento de Lenguaje Natural (NLP) en general. Sin embargo, aún queda por ver cómo esta técnica y sus algoritmos, (por ejemplo, Wu-Manber, que también se considera en este documento) pueden aplicarse y adoptarse de manera adecuada y efectiva al uigur, un idioma de bajos recursos que es hablado principalmente por el grupo étnico uigur con una población de más de once millones en Xinjiang, China. Observamos que, técnicamente, el desafío se debe principalmente a dos factores: (1) debilitamiento de vocales y (2) desajuste en la semántica entre afijos y raíces. En consecuencia, en este documento, proponemos Wu-Manber-Uy, una variante de una mejora a Wu-Manber, dedicada particularmente a trabajar en el idioma uigur. Wu-Manber-Uy implementa una estrategia de expansión de patrones basada en la deformación de raíces, específicamente para reducir el desajuste de patrones causado por el debilitamiento de vocales y errores ortográficos. También se utiliza en Wu-Manber-Uy una estrategia bidireccional que aplica vigilancia y control sobre el cambio de significado léxico de las raíces durante la formación de palabras. Se incorpora una consideración adicional con respecto a Word2vec y el diccionario en el sistema para procesar el uigur. Los resultados experimentales que hemos obtenido demuestran consistentemente el alto rendimiento de Wu-Manber-Uy.