SeqFu: un conjunto de utilidades para la manipulación robusta y reproducible de archivos de secuencias
Autores: Telatin, Andrea; Fariselli, Piero; Birolo, Giovanni
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
SeqFu: un conjunto de utilidades para la manipulación robusta y reproducible de archivos de secuencias
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Formatos de archivos de secuencia
FASTA
FASTQ
Bioinformática
Tecnologías de NGS
SeqFu
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Los formatos de archivos de secuencia (FASTA y FASTQ) son comúnmente utilizados en bioinformática, biología molecular y bioquímica. Con la llegada de las tecnologías de secuenciación de próxima generación (NGS), el número de conjuntos de datos FASTQ producidos y analizados ha crecido exponencialmente, lo que ha impulsado el desarrollo de software dedicado para manejar, analizar y manipular dichos archivos de manera eficiente. Varios paquetes de bioinformática están disponibles para filtrar y manipular archivos FASTA y FASTQ, sin embargo, algunas tareas esenciales siguen siendo poco compatibles, dejando vacíos que cualquier análisis de flujo de trabajo de conjuntos de datos de NGS debe llenar con scripts personalizados. Esto puede introducir variabilidad dañina y cuellos de botella de rendimiento en pasos fundamentales. Aquí presentamos una suite de herramientas, llamada SeqFu (Sequence Fastx utilities), que proporciona una amplia gama de comandos para realizar tanto operaciones comunes como especializadas con facilidad y está diseñada para ser implementada fácilmente en tuberías analíticas de alto rendimiento. SeqFu incluye una implementación de alto rendimiento de algoritmos para entrelazar y desentrelazar archivos FASTQ, fusionar carriles de Illumina y realizar varios controles de calidad (identificación de cebadores degenerados, análisis de estadísticas de longitud, extracción de porciones de los conjuntos de datos). SeqFu desduplica secuencias de múltiples archivos manteniendo un registro de su procedencia. SeqFu está desarrollado en Nim para procesamiento de alto rendimiento, está disponible de forma gratuita y se puede instalar con el popular gestor de paquetes Miniconda.
Descripción
Los formatos de archivos de secuencia (FASTA y FASTQ) son comúnmente utilizados en bioinformática, biología molecular y bioquímica. Con la llegada de las tecnologías de secuenciación de próxima generación (NGS), el número de conjuntos de datos FASTQ producidos y analizados ha crecido exponencialmente, lo que ha impulsado el desarrollo de software dedicado para manejar, analizar y manipular dichos archivos de manera eficiente. Varios paquetes de bioinformática están disponibles para filtrar y manipular archivos FASTA y FASTQ, sin embargo, algunas tareas esenciales siguen siendo poco compatibles, dejando vacíos que cualquier análisis de flujo de trabajo de conjuntos de datos de NGS debe llenar con scripts personalizados. Esto puede introducir variabilidad dañina y cuellos de botella de rendimiento en pasos fundamentales. Aquí presentamos una suite de herramientas, llamada SeqFu (Sequence Fastx utilities), que proporciona una amplia gama de comandos para realizar tanto operaciones comunes como especializadas con facilidad y está diseñada para ser implementada fácilmente en tuberías analíticas de alto rendimiento. SeqFu incluye una implementación de alto rendimiento de algoritmos para entrelazar y desentrelazar archivos FASTQ, fusionar carriles de Illumina y realizar varios controles de calidad (identificación de cebadores degenerados, análisis de estadísticas de longitud, extracción de porciones de los conjuntos de datos). SeqFu desduplica secuencias de múltiples archivos manteniendo un registro de su procedencia. SeqFu está desarrollado en Nim para procesamiento de alto rendimiento, está disponible de forma gratuita y se puede instalar con el popular gestor de paquetes Miniconda.