Sfq: construyendo y consultando una representación sucinta de archivos FASTQ
Autores: Bakari, Robert; Koreni, Damir; Hrak, Dalibor; Ristov, Strahil
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Sfq: construyendo y consultando una representación sucinta de archivos FASTQ
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Archivos FASTQ de gran tamaño
Secuenciación de alto rendimiento
Compresión
Formato sFASTQ
Acceso aleatorio
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Una gran y cada vez mayor cantidad de datos de secuenciación de alto rendimiento (HTS) se almacena en archivos FASTQ. Se utilizan diversos métodos de compresión de datos para mitigar los costos de almacenamiento y transmisión, desde el todavía prevalente Gzip de propósito general hasta los métodos especializados de última generación. Sin embargo, todos los métodos existentes para la compresión de archivos FASTQ requieren la etapa de descompresión antes de que los datos de HTS se puedan utilizar. Esto es particularmente costoso con el acceso aleatorio a registros específicos en archivos FASTQ. Proponemos el formato sFASTQ, una representación sucinta de archivos FASTQ que se puede utilizar sin descompresión (es decir, los registros se pueden recuperar y enumerar en línea), y que admite el acceso aleatorio a registros individuales. El formato sFASTQ se puede buscar en el disco, lo que elimina la necesidad de recursos de memoria adicionales. El archivo sFASTQ buscable tiene un tamaño comparable al archivo Gzip correspondiente. El formato sFASTQ produce (entrelazados) registros FASTQ en la secuencia STDOUT. Proporcionamos SFQ, un software para la construcción y uso del formato sFASTQ que admite lecturas de longitud variable, emparejamiento de registros, y compresión tanto sin pérdida como con pérdida de puntajes de calidad.
Descripción
Una gran y cada vez mayor cantidad de datos de secuenciación de alto rendimiento (HTS) se almacena en archivos FASTQ. Se utilizan diversos métodos de compresión de datos para mitigar los costos de almacenamiento y transmisión, desde el todavía prevalente Gzip de propósito general hasta los métodos especializados de última generación. Sin embargo, todos los métodos existentes para la compresión de archivos FASTQ requieren la etapa de descompresión antes de que los datos de HTS se puedan utilizar. Esto es particularmente costoso con el acceso aleatorio a registros específicos en archivos FASTQ. Proponemos el formato sFASTQ, una representación sucinta de archivos FASTQ que se puede utilizar sin descompresión (es decir, los registros se pueden recuperar y enumerar en línea), y que admite el acceso aleatorio a registros individuales. El formato sFASTQ se puede buscar en el disco, lo que elimina la necesidad de recursos de memoria adicionales. El archivo sFASTQ buscable tiene un tamaño comparable al archivo Gzip correspondiente. El formato sFASTQ produce (entrelazados) registros FASTQ en la secuencia STDOUT. Proporcionamos SFQ, un software para la construcción y uso del formato sFASTQ que admite lecturas de longitud variable, emparejamiento de registros, y compresión tanto sin pérdida como con pérdida de puntajes de calidad.