Una técnica basada en sílabas para la compresión de texto en uyghur
Autores: Abliz, Wayit; Wu, Hao; Maimaiti, Maihemuti; Wushouer, Jiamila; Abiderexiti, Kahaerjiang; Yibulayin, Tuergen; Wumaier, Aishan
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Una técnica basada en sílabas para la compresión de texto en uyghur
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Propuestas
Basadas en sílabas
Esquemas de codificación de compresión
Texto uigur
Relación de compresión promedio
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para mejorar la utilización de los recursos de almacenamiento de texto y la eficiencia de la transmisión de datos, propusimos dos esquemas de codificación de compresión de texto en uyghur basados en sílabas. Primero, de acuerdo con las estadísticas de cobertura de sílabas del texto del corpus, construimos tablas de códigos de sílabas de 12 bits y 16 bits y añadimos símbolos de uso común, como signos de puntuación y caracteres ASCII, a las tablas de códigos. Para permitir que el esquema de codificación procese textos en uyghur mezclados con símbolos de otros idiomas, introdujimos un código de bandera en el proceso de compresión para distinguir las codificaciones Unicode que no estaban en la tabla de códigos. Los experimentos mostraron que el esquema de codificación de 12 bits tenía una relación de compresión promedio de 0.3 en textos en uyghur de menos de 4 KB de tamaño y que el esquema de codificación de 16 bits tenía una relación de compresión promedio de 0.5 en textos de menos de 2 KB de tamaño. Nuestros esquemas de compresión superaron a GZip, BZip2 y el algoritmo LZW en textos cortos y podrían aplicarse de manera efectiva a la compresión de textos cortos en uyghur para almacenamiento y aplicaciones.
Descripción
Para mejorar la utilización de los recursos de almacenamiento de texto y la eficiencia de la transmisión de datos, propusimos dos esquemas de codificación de compresión de texto en uyghur basados en sílabas. Primero, de acuerdo con las estadísticas de cobertura de sílabas del texto del corpus, construimos tablas de códigos de sílabas de 12 bits y 16 bits y añadimos símbolos de uso común, como signos de puntuación y caracteres ASCII, a las tablas de códigos. Para permitir que el esquema de codificación procese textos en uyghur mezclados con símbolos de otros idiomas, introdujimos un código de bandera en el proceso de compresión para distinguir las codificaciones Unicode que no estaban en la tabla de códigos. Los experimentos mostraron que el esquema de codificación de 12 bits tenía una relación de compresión promedio de 0.3 en textos en uyghur de menos de 4 KB de tamaño y que el esquema de codificación de 16 bits tenía una relación de compresión promedio de 0.5 en textos de menos de 2 KB de tamaño. Nuestros esquemas de compresión superaron a GZip, BZip2 y el algoritmo LZW en textos cortos y podrían aplicarse de manera efectiva a la compresión de textos cortos en uyghur para almacenamiento y aplicaciones.