Una encuesta sobre métodos de compresión de datos para secuencias biológicas
Autores: Hosseini, Morteza; Pratas, Diogo; Pinho, Armando J.
Idioma: Inglés
Editor: MDPI
Año: 2016
Acceso abierto
Artículo científico
2016
Una encuesta sobre métodos de compresión de datos para secuencias biológicas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Crecimiento
Datos de secuenciación de alto rendimiento
Compresión
Datos biológicos
Formatos de archivo
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El crecimiento cada vez mayor de la producción de datos de secuenciación de alto rendimiento plantea un desafío serio para el almacenamiento, procesamiento y transmisión de estos datos. Como se afirma con frecuencia, es un diluvio de datos. La compresión es esencial para abordar este desafío: reduce el espacio de almacenamiento y los costos de procesamiento, además de acelerar la transmisión de datos. En este documento, proporcionamos una encuesta completa de los enfoques de compresión existentes, que están especializados en datos biológicos, incluyendo secuencias de proteínas y ADN. Además, dedicamos una parte importante del documento a los enfoques propuestos para la compresión de diferentes formatos de archivo, como FASTA, así como FASTQ y SAM/BAM, que contienen puntuaciones de calidad y metadatos, además de las secuencias biológicas. Luego, presentamos una comparación del rendimiento de varios métodos, en términos de relación de compresión, uso de memoria y tiempo de compresión/descompresión. Finalmente, presentamos algunas sugerencias para futuras investigaciones sobre la compresión de datos biológicos.
Descripción
El crecimiento cada vez mayor de la producción de datos de secuenciación de alto rendimiento plantea un desafío serio para el almacenamiento, procesamiento y transmisión de estos datos. Como se afirma con frecuencia, es un diluvio de datos. La compresión es esencial para abordar este desafío: reduce el espacio de almacenamiento y los costos de procesamiento, además de acelerar la transmisión de datos. En este documento, proporcionamos una encuesta completa de los enfoques de compresión existentes, que están especializados en datos biológicos, incluyendo secuencias de proteínas y ADN. Además, dedicamos una parte importante del documento a los enfoques propuestos para la compresión de diferentes formatos de archivo, como FASTA, así como FASTQ y SAM/BAM, que contienen puntuaciones de calidad y metadatos, además de las secuencias biológicas. Luego, presentamos una comparación del rendimiento de varios métodos, en términos de relación de compresión, uso de memoria y tiempo de compresión/descompresión. Finalmente, presentamos algunas sugerencias para futuras investigaciones sobre la compresión de datos biológicos.