logo móvil
Contáctanos

Kmc3 y chtkc: mejores escenarios, deficiencias y desafíos en el análisis de datos de secuenciación de alto rendimiento

Autores: Tang, Deyou; Tan, Daqiang; Xiao, Weihao; Lin, Jiabin; Fu, Juan

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Kmc3 y chtkc: mejores escenarios, deficiencias y desafíos en el análisis de datos de secuenciación de alto rendimiento


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Frecuencia de k-meros
Análisis de datos de bioinformática
Algoritmos
Uso de memoria
Computación de alto rendimiento
Ancho de banda de E/S

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones


Descripción
Antecedentes: El conteo de frecuencia de k-meros es un proceso inicial de muchos flujos de trabajo de análisis de datos de bioinformática. KMC3 y CHTKC son los algoritmos representativos de conteo de k-meros basados en particiones y de conteo de k-meros no basados en particiones, respectivamente. Este artículo evalúa los dos algoritmos y presenta sus mejores escenarios aplicables y mejoras potenciales utilizando múltiples contextos de hardware y conjuntos de datos. Resultados: KMC3 utiliza menos memoria y se ejecuta más rápido que CHTKC en un servidor de configuración regular. CHTKC es eficiente en plataformas de computación de alto rendimiento con alta memoria disponible, multi-hilo y baja banda de E/S. Cuando se probó con varios conjuntos de datos, KMC3 es menos sensible al número de k-meros distintos y es más eficiente para tareas con una calidad de secuenciación relativamente baja y k-meros largos. CHTKC funciona mejor que KMC3 en asignaciones de conteo con conjuntos de datos a gran escala, alta calidad de secuenciación y k-meros cortos. Ambos algoritmos se ven afectados por la banda de E/S, y disminuir la influencia del cuello de botella de la E/S es crítico, ya que nuestros tests muestran mejoras al filtrar y comprimir k-meros primero consecutivos en KMC3. Conclusiones: KMC3 es más competitivo para ejecutar el contador en recursos de hardware ordinarios, y CHTKC es más competitivo para contar k-meros en conjuntos de datos de superescala en plataformas de computación de alto rendimiento. Reducir la influencia del cuello de botella de la E/S es esencial para optimizar el algoritmo de conteo de k-meros, y filtrar y comprimir k-meros de baja frecuencia es crítico para aliviar el impacto de la E/S.

Otros recursos que podrían interesarte

Temas Virtualpro