logo móvil
Contáctanos

Filtrado de Texto a través de Coincidencia de Múltiples Patrones: Un Estudio de Caso de Wu-Manber-Uy en el Idioma Uigur

Autores: Tohti, Turdi; Huang, Jimmy; Hamdulla, Askar; Tan, Xing

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Filtrado de Texto a través de Coincidencia de Múltiples Patrones: Un Estudio de Caso de Wu-Manber-Uy en el Idioma Uigur


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aplicaciones
Eficiencia temporal
Filtrado de texto
Coincidencia de patrones
Idioma uigur
Algoritmos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Dada su generalidad en aplicaciones y su alta eficiencia temporal en conjuntos de datos grandes, en los últimos años, la técnica de filtrado de texto a través de la coincidencia de patrones ha estado atrayendo una atención creciente de los campos de recuperación de información y las comunidades de investigación en Procesamiento de Lenguaje Natural (NLP) en general. Sin embargo, aún queda por ver cómo esta técnica y sus algoritmos, (por ejemplo, Wu-Manber, que también se considera en este documento) pueden aplicarse y adoptarse de manera adecuada y efectiva al uigur, un idioma de bajos recursos que es hablado principalmente por el grupo étnico uigur con una población de más de once millones en Xinjiang, China. Observamos que, técnicamente, el desafío se debe principalmente a dos factores: (1) debilitamiento de vocales y (2) desajuste en la semántica entre afijos y raíces. En consecuencia, en este documento, proponemos Wu-Manber-Uy, una variante de una mejora a Wu-Manber, dedicada particularmente a trabajar en el idioma uigur. Wu-Manber-Uy implementa una estrategia de expansión de patrones basada en la deformación de raíces, específicamente para reducir el desajuste de patrones causado por el debilitamiento de vocales y errores ortográficos. También se utiliza en Wu-Manber-Uy una estrategia bidireccional que aplica vigilancia y control sobre el cambio de significado léxico de las raíces durante la formación de palabras. Se incorpora una consideración adicional con respecto a Word2vec y el diccionario en el sistema para procesar el uigur. Los resultados experimentales que hemos obtenido demuestran consistentemente el alto rendimiento de Wu-Manber-Uy.

Otros recursos que podrían interesarte

Temas Virtualpro