Reparar en un espacio pequeño
Autores: Köppl, Dominik; I, Tomohiro; Furuya, Isamu; Takabatake, Yoshimasa; Sakai, Kensuke; Goto, Keisuke
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Reparar en un espacio pequeño
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Compresión
Algoritmo
Re-Pair
Tablas de frecuencia
Conjuntos de datos a gran escala
Espacio de texto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Re-Pair es un esquema de compresión de gramática con tasas de compresión favorablemente buenas. La computación de Re-Pair viene con el costo de mantener grandes tablas de frecuencia, lo que hace difícil computar Re-Pair en conjuntos de datos a gran escala. Como solución a este problema, presentamos, dado un texto de longitud cuyos caracteres provienen de un alfabeto entero con tamaño , un algoritmo de tiempo que calcula Re-Pair con bits de espacio de trabajo incluyendo el espacio del texto, donde es una constante definida por el usuario y es la suma de y el número de no terminales. Damos variantes de nuestra solución que funcionan en paralelo o en el modelo de memoria externa. Desafortunadamente, el algoritmo parece no ser práctico ya que una versión preliminar ya necesita aproximadamente una hora para calcular Re-Pair en un megabyte de texto.
Descripción
Re-Pair es un esquema de compresión de gramática con tasas de compresión favorablemente buenas. La computación de Re-Pair viene con el costo de mantener grandes tablas de frecuencia, lo que hace difícil computar Re-Pair en conjuntos de datos a gran escala. Como solución a este problema, presentamos, dado un texto de longitud cuyos caracteres provienen de un alfabeto entero con tamaño , un algoritmo de tiempo que calcula Re-Pair con bits de espacio de trabajo incluyendo el espacio del texto, donde es una constante definida por el usuario y es la suma de y el número de no terminales. Damos variantes de nuestra solución que funcionan en paralelo o en el modelo de memoria externa. Desafortunadamente, el algoritmo parece no ser práctico ya que una versión preliminar ya necesita aproximadamente una hora para calcular Re-Pair en un megabyte de texto.