Un nuevo algoritmo de compresión de ADN sin pérdidas basado en un esquema de codificación de un solo bloque
Autores: Mansouri, Deloula; Yuan, Xiaohui; Saidani, Abdeldjalil
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Un nuevo algoritmo de compresión de ADN sin pérdidas basado en un esquema de codificación de un solo bloque
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Evolución emergente
Tecnología de secuenciación de ADN
Datos genómicos
Compresión
DNAC-SBE
Compresor híbrido
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Con la evolución emergente en la tecnología de secuenciación de ADN, se produce una gran cantidad de datos genómicos cada día, principalmente secuencias de ADN, que requieren más almacenamiento y ancho de banda. Lamentablemente, gestionar, analizar y específicamente almacenar estas grandes cantidades de datos se convierte en un desafío científico importante para la bioinformática. Por lo tanto, para superar estos desafíos, la compresión se ha vuelto necesaria. En este documento, describimos un nuevo compresor de ADN sin referencia abreviado como DNAC-SBE. DNAC-SBE es un compresor híbrido sin pérdida que consta de tres fases. Primero, comenzando desde la base más grande (Bi), las posiciones de cada Bi se reemplazan con unos y las posiciones de otras bases que tienen frecuencias más pequeñas que Bi se reemplazan con ceros. Segundo, para codificar las secuencias generadas, proponemos un nuevo esquema de codificación de bloque único (SEB) basado en la explotación de la posición de bits vecinos dentro del bloque utilizando dos técnicas diferentes. Finalmente, el algoritmo propuesto asigna dinámicamente la longitud de código más corta a cada bloque. Los resultados muestran que DNAC-SBE supera a los compresores de última generación y demuestra su eficiencia en términos de condiciones especiales impuestas en los datos comprimidos, espacio de almacenamiento y tasa de transferencia de datos independientemente del formato del archivo o el tamaño de los datos.
Descripción
Con la evolución emergente en la tecnología de secuenciación de ADN, se produce una gran cantidad de datos genómicos cada día, principalmente secuencias de ADN, que requieren más almacenamiento y ancho de banda. Lamentablemente, gestionar, analizar y específicamente almacenar estas grandes cantidades de datos se convierte en un desafío científico importante para la bioinformática. Por lo tanto, para superar estos desafíos, la compresión se ha vuelto necesaria. En este documento, describimos un nuevo compresor de ADN sin referencia abreviado como DNAC-SBE. DNAC-SBE es un compresor híbrido sin pérdida que consta de tres fases. Primero, comenzando desde la base más grande (Bi), las posiciones de cada Bi se reemplazan con unos y las posiciones de otras bases que tienen frecuencias más pequeñas que Bi se reemplazan con ceros. Segundo, para codificar las secuencias generadas, proponemos un nuevo esquema de codificación de bloque único (SEB) basado en la explotación de la posición de bits vecinos dentro del bloque utilizando dos técnicas diferentes. Finalmente, el algoritmo propuesto asigna dinámicamente la longitud de código más corta a cada bloque. Los resultados muestran que DNAC-SBE supera a los compresores de última generación y demuestra su eficiencia en términos de condiciones especiales impuestas en los datos comprimidos, espacio de almacenamiento y tasa de transferencia de datos independientemente del formato del archivo o el tamaño de los datos.