Consultas de subruta en grafos comprimidos: un estudio
Autores: Prezza, Nicola
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Consultas de subruta en grafos comprimidos: un estudio
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Problema algorítmico clásico
Indexación de texto
árbol de sufijos
Consultas eficientes
índices comprimidos
Lenguajes regulares
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
La indexación de texto es un problema algorítmico clásico que se ha estudiado durante más de cuatro décadas: dado un texto, pré-procesarlo fuera de línea para que, más tarde, podamos contar y localizar rápidamente las ocurrencias de cualquier cadena (el patrón de consulta) en un tiempo proporcional a la longitud de la consulta. La solución óptima más temprana al problema, el árbol de sufijos, se remonta a 1973 y requiere hasta dos órdenes de magnitud más espacio que el texto plano solo para ser almacenado. En el año 2000, dos trabajos innovadores mostraron que las consultas eficientes se pueden lograr sin este sobrecosto de espacio: un índice rápido puede almacenarse en un espacio proporcional a la entropía del texto. Estas contribuciones tuvieron un impacto enorme en bioinformática: hoy en día, prácticamente cualquier alineador de ADN emplea índices comprimidos. Las tendencias recientes consideraron esquemas de compresión más potentes (compresores de diccionario) y generalizaciones del problema a grafos etiquetados: después de todo, los textos pueden ser vistos como caminos dirigidos etiquetados. A su vez, dado que los autómatas de estados finitos pueden considerarse como un caso particular de grafos etiquetados, estos hallazgos crearon un puente entre los campos de la indexación comprimida y la teoría de lenguajes regulares, permitiendo en última instancia indexar lenguajes regulares y prometiendo arrojar nueva luz sobre problemas como la coincidencia de expresiones regulares. Esta encuesta es una introducción amable a los principales hitos del fascinante viaje que nos llevó desde los árboles de sufijos hasta los índices comprimidos de grafos etiquetados y lenguajes regulares de hoy en día.
Descripción
La indexación de texto es un problema algorítmico clásico que se ha estudiado durante más de cuatro décadas: dado un texto, pré-procesarlo fuera de línea para que, más tarde, podamos contar y localizar rápidamente las ocurrencias de cualquier cadena (el patrón de consulta) en un tiempo proporcional a la longitud de la consulta. La solución óptima más temprana al problema, el árbol de sufijos, se remonta a 1973 y requiere hasta dos órdenes de magnitud más espacio que el texto plano solo para ser almacenado. En el año 2000, dos trabajos innovadores mostraron que las consultas eficientes se pueden lograr sin este sobrecosto de espacio: un índice rápido puede almacenarse en un espacio proporcional a la entropía del texto. Estas contribuciones tuvieron un impacto enorme en bioinformática: hoy en día, prácticamente cualquier alineador de ADN emplea índices comprimidos. Las tendencias recientes consideraron esquemas de compresión más potentes (compresores de diccionario) y generalizaciones del problema a grafos etiquetados: después de todo, los textos pueden ser vistos como caminos dirigidos etiquetados. A su vez, dado que los autómatas de estados finitos pueden considerarse como un caso particular de grafos etiquetados, estos hallazgos crearon un puente entre los campos de la indexación comprimida y la teoría de lenguajes regulares, permitiendo en última instancia indexar lenguajes regulares y prometiendo arrojar nueva luz sobre problemas como la coincidencia de expresiones regulares. Esta encuesta es una introducción amable a los principales hitos del fascinante viaje que nos llevó desde los árboles de sufijos hasta los índices comprimidos de grafos etiquetados y lenguajes regulares de hoy en día.