Algoritmos para Modelos Ocultos de Markov Restringidos a Ocurrencias de Expresiones Regulares
Autores: Tataru, Paula; Sand, Andreas; Hobolth, Asger; Mailund, Thomas; Pedersen, Christian N. S.
Idioma: Inglés
Editor: MDPI
Año: 2013
Acceso abierto
Artículo científico
2013
Algoritmos para Modelos Ocultos de Markov Restringidos a Ocurrencias de Expresiones Regulares
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Biología
Palabras clave
Modelos ocultos de Markov
Anotación
Algoritmo de decodificación
Patrones
Secuencias de ADN
Distribución
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Los Modelos Ocultos de Markov (HMMs) son modelos probabilísticos ampliamente utilizados, particularmente para anotar datos secuenciales con una estructura oculta subyacente. Los patrones en la anotación son a menudo más relevantes para estudiar que la estructura oculta en sí. Un análisis típico de HMM consiste en anotar los datos observados utilizando un algoritmo de decodificación y analizar la anotación para estudiar patrones de interés. Por ejemplo, dado un HMM que modela genes en secuencias de ADN, el enfoque está en las ocurrencias de genes en la anotación. En este artículo, definimos un patrón a través de una expresión regular y presentamos una restricción de tres algoritmos clásicos para tener en cuenta el número de ocurrencias del patrón en la secuencia oculta. Presentamos un nuevo algoritmo para calcular la distribución del número de ocurrencias del patrón, y extendemos los dos algoritmos de decodificación existentes más utilizados para emplear información de esta distribución. Mostramos experimentalmente que la expectativa de la distribución del número de ocurrencias del patrón proporciona una estimación altamente precisa, mientras que el procedimiento típico puede estar sesgado en el sentido de que el número identificado de ocurrencias del patrón no corresponde al número verdadero. Además, mostramos que utilizar esta distribución en los algoritmos de decodificación mejora el poder predictivo del modelo.
Descripción
Los Modelos Ocultos de Markov (HMMs) son modelos probabilísticos ampliamente utilizados, particularmente para anotar datos secuenciales con una estructura oculta subyacente. Los patrones en la anotación son a menudo más relevantes para estudiar que la estructura oculta en sí. Un análisis típico de HMM consiste en anotar los datos observados utilizando un algoritmo de decodificación y analizar la anotación para estudiar patrones de interés. Por ejemplo, dado un HMM que modela genes en secuencias de ADN, el enfoque está en las ocurrencias de genes en la anotación. En este artículo, definimos un patrón a través de una expresión regular y presentamos una restricción de tres algoritmos clásicos para tener en cuenta el número de ocurrencias del patrón en la secuencia oculta. Presentamos un nuevo algoritmo para calcular la distribución del número de ocurrencias del patrón, y extendemos los dos algoritmos de decodificación existentes más utilizados para emplear información de esta distribución. Mostramos experimentalmente que la expectativa de la distribución del número de ocurrencias del patrón proporciona una estimación altamente precisa, mientras que el procedimiento típico puede estar sesgado en el sentido de que el número identificado de ocurrencias del patrón no corresponde al número verdadero. Además, mostramos que utilizar esta distribución en los algoritmos de decodificación mejora el poder predictivo del modelo.