Segmentaciones de consenso ponderadas
Autores: Saker, Halima; Machné, Rainer; Fallmann, Jörg; Murray, Douglas B.; Shahin, Ahmad M.; Stadler, Peter F.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Segmentaciones de consenso ponderadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Problema
Segmentación
Datos
Consenso
Aplicaciones
Programación dinámica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
El problema de segmentar datos ordenados linealmente se encuentra con frecuencia en el análisis de series temporales, biología computacional y procesamiento de lenguaje natural. Las segmentaciones obtenidas de forma independiente a partir de conjuntos de datos replicados o a partir de los mismos datos con diferentes métodos o configuraciones de parámetros plantean el problema de calcular una segmentación agregada o de consenso. Este problema consiste en encontrar una segmentación que minimice la suma de distancias a las segmentaciones de entrada. Una vez más, es un problema de segmentación y puede resolverse mediante programación dinámica. El objetivo de esta contribución es (1) obtener una mejor comprensión matemática del problema y sus soluciones y (2) demostrar que las segmentaciones de consenso tienen aplicaciones útiles. Ampliando resultados conocidos previamente, mostramos que para una amplia clase de funciones de distancia, solo los puntos de quiebre presentes en al menos una segmentación de entrada aparecen en la segmentación de consenso. Además, derivamos un límite en el tamaño de los segmentos de consenso. Como aplicaciones de muestra, investigamos un transcriptoma de levadura y mostramos que los segmentos de consenso proporcionan un medio robusto para identificar unidades transcriptómicas. Este enfoque es particularmente adecuado para transcriptomas densos con transcripciones policistrónicas, operones o una falta de separación entre transcripciones. Como segunda aplicación, demostramos que las segmentaciones de consenso pueden utilizarse para identificar de manera robusta regímenes de crecimiento a partir de conjuntos de curvas de crecimiento replicadas.
Descripción
El problema de segmentar datos ordenados linealmente se encuentra con frecuencia en el análisis de series temporales, biología computacional y procesamiento de lenguaje natural. Las segmentaciones obtenidas de forma independiente a partir de conjuntos de datos replicados o a partir de los mismos datos con diferentes métodos o configuraciones de parámetros plantean el problema de calcular una segmentación agregada o de consenso. Este problema consiste en encontrar una segmentación que minimice la suma de distancias a las segmentaciones de entrada. Una vez más, es un problema de segmentación y puede resolverse mediante programación dinámica. El objetivo de esta contribución es (1) obtener una mejor comprensión matemática del problema y sus soluciones y (2) demostrar que las segmentaciones de consenso tienen aplicaciones útiles. Ampliando resultados conocidos previamente, mostramos que para una amplia clase de funciones de distancia, solo los puntos de quiebre presentes en al menos una segmentación de entrada aparecen en la segmentación de consenso. Además, derivamos un límite en el tamaño de los segmentos de consenso. Como aplicaciones de muestra, investigamos un transcriptoma de levadura y mostramos que los segmentos de consenso proporcionan un medio robusto para identificar unidades transcriptómicas. Este enfoque es particularmente adecuado para transcriptomas densos con transcripciones policistrónicas, operones o una falta de separación entre transcripciones. Como segunda aplicación, demostramos que las segmentaciones de consenso pueden utilizarse para identificar de manera robusta regímenes de crecimiento a partir de conjuntos de curvas de crecimiento replicadas.