Descubrimiento de motivos en tiempo sublineal a partir de múltiples secuencias
Autores: Fu, Bin; Fu, Yunhui; Xue, Yuan
Idioma: Inglés
Editor: MDPI
Año: 2013
Acceso abierto
Artículo científico
2013
Descubrimiento de motivos en tiempo sublineal a partir de múltiples secuencias
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Modelo probabilístico natural
Programas de descubrimiento de motivos
Secuencias de fondo
Patrón de motivo
Tamaño del alfabeto
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
En este papel, se ha utilizado un modelo probabilístico natural para el descubrimiento de motivos con el fin de probar experimentalmente la calidad de los programas de descubrimiento de motivos. En este modelo, hay secuencias de fondo, y cada carácter en una secuencia de fondo es un carácter aleatorio de un alfabeto. Un motivo es una cadena de caracteres. En cada secuencia de fondo se implanta una copia aproximada generada probabilísticamente de . Para una copia aproximada generada probabilísticamente de , cada carácter, , se genera probabilísticamente, de manera que la probabilidad para es a lo sumo . Desarrollamos dos nuevos algoritmos aleatorizados y un nuevo algoritmo determinista. Hacen avances en los siguientes aspectos: (1) Los algoritmos son mucho más rápidos que los anteriores. Nuestros algoritmos incluso pueden ejecutarse en tiempo sublineal. (2) Pueden manejar cualquier patrón de motivo. (3) La restricción para el tamaño del alfabeto es un límite inferior de cuatro. Esto les otorga posibles aplicaciones en problemas prácticos, ya que las secuencias genéticas tienen un tamaño de alfabeto de cuatro. (4) Todos los algoritmos tienen pruebas rigurosas sobre su rendimiento. Los métodos desarrollados en este papel se han utilizado en la implementación de software. Observamos algunos resultados alentadores que muestran un rendimiento mejorado para la detección de motivos en comparación con otro software.
Descripción
En este papel, se ha utilizado un modelo probabilístico natural para el descubrimiento de motivos con el fin de probar experimentalmente la calidad de los programas de descubrimiento de motivos. En este modelo, hay secuencias de fondo, y cada carácter en una secuencia de fondo es un carácter aleatorio de un alfabeto. Un motivo es una cadena de caracteres. En cada secuencia de fondo se implanta una copia aproximada generada probabilísticamente de . Para una copia aproximada generada probabilísticamente de , cada carácter, , se genera probabilísticamente, de manera que la probabilidad para es a lo sumo . Desarrollamos dos nuevos algoritmos aleatorizados y un nuevo algoritmo determinista. Hacen avances en los siguientes aspectos: (1) Los algoritmos son mucho más rápidos que los anteriores. Nuestros algoritmos incluso pueden ejecutarse en tiempo sublineal. (2) Pueden manejar cualquier patrón de motivo. (3) La restricción para el tamaño del alfabeto es un límite inferior de cuatro. Esto les otorga posibles aplicaciones en problemas prácticos, ya que las secuencias genéticas tienen un tamaño de alfabeto de cuatro. (4) Todos los algoritmos tienen pruebas rigurosas sobre su rendimiento. Los métodos desarrollados en este papel se han utilizado en la implementación de software. Observamos algunos resultados alentadores que muestran un rendimiento mejorado para la detección de motivos en comparación con otro software.