logo móvil
Contáctanos

SeqFu: un conjunto de utilidades para la manipulación robusta y reproducible de archivos de secuencias

Autores: Telatin, Andrea; Fariselli, Piero; Birolo, Giovanni

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

SeqFu: un conjunto de utilidades para la manipulación robusta y reproducible de archivos de secuencias


Categoría

Ingeniería y Tecnología

Subcategoría

Bioingeniería

Palabras clave

Formatos de archivos de secuencia
FASTA
FASTQ
Bioinformática
Tecnologías de NGS
SeqFu

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
Los formatos de archivos de secuencia (FASTA y FASTQ) son comúnmente utilizados en bioinformática, biología molecular y bioquímica. Con la llegada de las tecnologías de secuenciación de próxima generación (NGS), el número de conjuntos de datos FASTQ producidos y analizados ha crecido exponencialmente, lo que ha impulsado el desarrollo de software dedicado para manejar, analizar y manipular dichos archivos de manera eficiente. Varios paquetes de bioinformática están disponibles para filtrar y manipular archivos FASTA y FASTQ, sin embargo, algunas tareas esenciales siguen siendo poco compatibles, dejando vacíos que cualquier análisis de flujo de trabajo de conjuntos de datos de NGS debe llenar con scripts personalizados. Esto puede introducir variabilidad dañina y cuellos de botella de rendimiento en pasos fundamentales. Aquí presentamos una suite de herramientas, llamada SeqFu (Sequence Fastx utilities), que proporciona una amplia gama de comandos para realizar tanto operaciones comunes como especializadas con facilidad y está diseñada para ser implementada fácilmente en tuberías analíticas de alto rendimiento. SeqFu incluye una implementación de alto rendimiento de algoritmos para entrelazar y desentrelazar archivos FASTQ, fusionar carriles de Illumina y realizar varios controles de calidad (identificación de cebadores degenerados, análisis de estadísticas de longitud, extracción de porciones de los conjuntos de datos). SeqFu desduplica secuencias de múltiples archivos manteniendo un registro de su procedencia. SeqFu está desarrollado en Nim para procesamiento de alto rendimiento, está disponible de forma gratuita y se puede instalar con el popular gestor de paquetes Miniconda.

Otros recursos que podrían interesarte

Temas Virtualpro