logo móvil
Contáctanos

Una técnica basada en sílabas para la compresión de texto en uyghur

Autores: Abliz, Wayit; Wu, Hao; Maimaiti, Maihemuti; Wushouer, Jiamila; Abiderexiti, Kahaerjiang; Yibulayin, Tuergen; Wumaier, Aishan

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Una técnica basada en sílabas para la compresión de texto en uyghur


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Propuestas
Basadas en sílabas
Esquemas de codificación de compresión
Texto uigur
Relación de compresión promedio

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Para mejorar la utilización de los recursos de almacenamiento de texto y la eficiencia de la transmisión de datos, propusimos dos esquemas de codificación de compresión de texto en uyghur basados en sílabas. Primero, de acuerdo con las estadísticas de cobertura de sílabas del texto del corpus, construimos tablas de códigos de sílabas de 12 bits y 16 bits y añadimos símbolos de uso común, como signos de puntuación y caracteres ASCII, a las tablas de códigos. Para permitir que el esquema de codificación procese textos en uyghur mezclados con símbolos de otros idiomas, introdujimos un código de bandera en el proceso de compresión para distinguir las codificaciones Unicode que no estaban en la tabla de códigos. Los experimentos mostraron que el esquema de codificación de 12 bits tenía una relación de compresión promedio de 0.3 en textos en uyghur de menos de 4 KB de tamaño y que el esquema de codificación de 16 bits tenía una relación de compresión promedio de 0.5 en textos de menos de 2 KB de tamaño. Nuestros esquemas de compresión superaron a GZip, BZip2 y el algoritmo LZW en textos cortos y podrían aplicarse de manera efectiva a la compresión de textos cortos en uyghur para almacenamiento y aplicaciones.

Otros recursos que podrían interesarte

Temas Virtualpro