Un algoritmo para calcular la distribución del recuento de acceso de caracteres para algoritmos de coincidencia de patrones
Autores: Marschall, Tobias; Rahmann, Sven
Idioma: Inglés
Editor: Molecular Diversity Preservation International (MDPI)
Año: 2011
Acceso abierto
Artículo científico
2011
Un algoritmo para calcular la distribución del recuento de acceso de caracteres para algoritmos de coincidencia de patrones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Algoritmos de coincidencia de patrones
Análisis probabilístico
Costo del tiempo de ejecución
Basado en ventanas
Boyer-Moore
Horspool
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Proponemos un marco para el análisis probabilístico exacto de algoritmos de coincidencia de patrones basados en ventanas, como Boyer-Moore, Horspool, Backward DAWG Matching, Backward Oracle Matching, y más. En particular, desarrollamos un algoritmo que calcula eficientemente la distribución del costo de tiempo de ejecución de un algoritmo de coincidencia de patrones (como el número de accesos a caracteres de texto) para cualquier patrón dado en un modelo de texto aleatorio. Los modelos de texto van desde modelos uniformes simples hasta modelos de Markov de orden superior o modelos de Markov ocultos (HMMs). Además, proporcionamos un algoritmo para calcular la distribución exacta del costo de tiempo de ejecución de dos algoritmos de coincidencia de patrones. Metodológicamente, utilizamos extensiones de autómatas finitos a los que llamamos (DAAs) y (PAAs). Dado un algoritmo, un patrón y un modelo de texto, se construye un PAA a partir del cual se pueden derivar las distribuciones buscadas utilizando programación dinámica. Hasta donde sabemos, esta es la primera vez que se analizan exactamente los algoritmos de coincidencia de patrones basados en subcadenas o sufijos al calcular toda la distribución del costo de tiempo de ejecución. Experimentalmente, comparamos el algoritmo de Horspool, Backward DAWG Matching y Backward Oracle Matching en patrones prototípicos de longitud corta y proporcionamos estadísticas sobre el tamaño de los DAAs mínimos para estos cálculos.
Descripción
Proponemos un marco para el análisis probabilístico exacto de algoritmos de coincidencia de patrones basados en ventanas, como Boyer-Moore, Horspool, Backward DAWG Matching, Backward Oracle Matching, y más. En particular, desarrollamos un algoritmo que calcula eficientemente la distribución del costo de tiempo de ejecución de un algoritmo de coincidencia de patrones (como el número de accesos a caracteres de texto) para cualquier patrón dado en un modelo de texto aleatorio. Los modelos de texto van desde modelos uniformes simples hasta modelos de Markov de orden superior o modelos de Markov ocultos (HMMs). Además, proporcionamos un algoritmo para calcular la distribución exacta del costo de tiempo de ejecución de dos algoritmos de coincidencia de patrones. Metodológicamente, utilizamos extensiones de autómatas finitos a los que llamamos (DAAs) y (PAAs). Dado un algoritmo, un patrón y un modelo de texto, se construye un PAA a partir del cual se pueden derivar las distribuciones buscadas utilizando programación dinámica. Hasta donde sabemos, esta es la primera vez que se analizan exactamente los algoritmos de coincidencia de patrones basados en subcadenas o sufijos al calcular toda la distribución del costo de tiempo de ejecución. Experimentalmente, comparamos el algoritmo de Horspool, Backward DAWG Matching y Backward Oracle Matching en patrones prototípicos de longitud corta y proporcionamos estadísticas sobre el tamaño de los DAAs mínimos para estos cálculos.