Modelos de Aprendizaje Automático para la Detección de Errores en Datos de Metagenómica y Secuenciación de Poliploides
Autores: Krachunov, Milko; Nisheva, Maria; Vassilev, Dimitar
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Modelos de Aprendizaje Automático para la Detección de Errores en Datos de Metagenómica y Secuenciación de Poliploides
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Metagenómica
Genómica
Especies poliploides
Datos de variación
Errores de instrumentación
Modelos basados en ML
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los estudios de metagenómica, así como los estudios genómicos de especies poliploides como el trigo, se ocupan del análisis de datos de alta variación. Estos datos contienen secuencias de cadenas genéticas similares, pero distintas. Este hecho presenta un obstáculo para el análisis y la investigación. En particular, la detección de errores de instrumentación durante la digitalización de las secuencias puede verse obstaculizada, ya que pueden ser indistinguibles de la verdadera variación biológica dentro de los datos digitales. Esto puede impedir la determinación de las secuencias correctas, al mismo tiempo que dificulta significativamente los estudios de variantes. Este artículo detalla una colección de modelos basados en ML utilizados para distinguir una variante real de una errónea. El enfoque está en utilizar este modelo directamente, pero también se realizan experimentos en combinación con otros predictores que aíslan un grupo de candidatos a error.
Descripción
Los estudios de metagenómica, así como los estudios genómicos de especies poliploides como el trigo, se ocupan del análisis de datos de alta variación. Estos datos contienen secuencias de cadenas genéticas similares, pero distintas. Este hecho presenta un obstáculo para el análisis y la investigación. En particular, la detección de errores de instrumentación durante la digitalización de las secuencias puede verse obstaculizada, ya que pueden ser indistinguibles de la verdadera variación biológica dentro de los datos digitales. Esto puede impedir la determinación de las secuencias correctas, al mismo tiempo que dificulta significativamente los estudios de variantes. Este artículo detalla una colección de modelos basados en ML utilizados para distinguir una variante real de una errónea. El enfoque está en utilizar este modelo directamente, pero también se realizan experimentos en combinación con otros predictores que aíslan un grupo de candidatos a error.