Filtrado de Texto a través de Coincidencia de Múltiples Patrones: Un Estudio de Caso de Wu-Manber-Uy en el Idioma Uigur

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Filtrado de Texto a través de Coincidencia de Múltiples Patrones: Un Estudio de Caso de Wu-Manber-Uy en el Idioma Uigur

Autores: Tohti, Turdi; Huang, Jimmy; Hamdulla, Askar; Tan, Xing

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Filtrado de Texto a través de Coincidencia de Múltiples Patrones: Un Estudio de Caso de Wu-Manber-Uy en el Idioma Uigur

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aplicaciones

Eficiencia temporal

Filtrado de texto

Coincidencia de patrones

Idioma uigur

Algoritmos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Dada su generalidad en aplicaciones y su alta eficiencia temporal en conjuntos de datos grandes, en los últimos años, la técnica de filtrado de texto a través de la coincidencia de patrones ha estado atrayendo una atención creciente de los campos de recuperación de información y las comunidades de investigación en Procesamiento de Lenguaje Natural (NLP) en general. Sin embargo, aún queda por ver cómo esta técnica y sus algoritmos, (por ejemplo, Wu-Manber, que también se considera en este documento) pueden aplicarse y adoptarse de manera adecuada y efectiva al uigur, un idioma de bajos recursos que es hablado principalmente por el grupo étnico uigur con una población de más de once millones en Xinjiang, China. Observamos que, técnicamente, el desafío se debe principalmente a dos factores: (1) debilitamiento de vocales y (2) desajuste en la semántica entre afijos y raíces. En consecuencia, en este documento, proponemos Wu-Manber-Uy, una variante de una mejora a Wu-Manber, dedicada particularmente a trabajar en el idioma uigur. Wu-Manber-Uy implementa una estrategia de expansión de patrones basada en la deformación de raíces, específicamente para reducir el desajuste de patrones causado por el debilitamiento de vocales y errores ortográficos. También se utiliza en Wu-Manber-Uy una estrategia bidireccional que aplica vigilancia y control sobre el cambio de significado léxico de las raíces durante la formación de palabras. Se incorpora una consideración adicional con respecto a Word2vec y el diccionario en el sistema para procesar el uigur. Los resultados experimentales que hemos obtenido demuestran consistentemente el alto rendimiento de Wu-Manber-Uy.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro