Una investigación de alternativas para transformar bases de datos de secuencias de proteínas a un esquema de índice columnar
Autores: Zoun, Roman; Schallert, Kay; Broneske, David; Trifonova, Ivayla; Chen, Xiao; Heyer, Robert; Benndorf, Dirk; Saake, Gunter
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Una investigación de alternativas para transformar bases de datos de secuencias de proteínas a un esquema de índice columnar
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Espectrómetros de masas
Proteínas
Evaluación bioinformática
Sistemas relacionales
índice orientado a columnas
Secuencias de proteínas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Los espectrómetros de masas permiten identificar proteínas en muestras biológicas, lo que lleva al descubrimiento de biomarcadores para parámetros de procesos biológicos y enfermedades. Sin embargo, la evaluación bioinformática de los datos del espectrómetro de masas requiere un flujo de trabajo estandarizado y un sistema que almacene las secuencias de proteínas. Debido a su estandarización y madurez, los sistemas relacionales son ideales para almacenar secuencias de proteínas. Por lo tanto, en este trabajo, presentamos un esquema para sistemas de gestión de bases de datos distribuidas basados en columnas utilizando un índice orientado a columnas para almacenar datos de secuencias. Para lograr un alto rendimiento de almacenamiento, fue necesario elegir una estrategia eficaz para transformar los datos de secuencias de proteínas del formato FASTA al nuevo esquema. Por lo tanto, aplicamos un mapa en memoria, un motor de base de datos HDDmap, y un árbol de radix extendido, y evaluamos su rendimiento. Los resultados muestran que nuestro árbol de radix extendido propuesto tiene el mejor rendimiento en cuanto a consumo de memoria y tiempo de ejecución. Por lo tanto, el árbol de radix es una estructura de datos adecuada para transformar secuencias de proteínas en el esquema indexado.
Descripción
Los espectrómetros de masas permiten identificar proteínas en muestras biológicas, lo que lleva al descubrimiento de biomarcadores para parámetros de procesos biológicos y enfermedades. Sin embargo, la evaluación bioinformática de los datos del espectrómetro de masas requiere un flujo de trabajo estandarizado y un sistema que almacene las secuencias de proteínas. Debido a su estandarización y madurez, los sistemas relacionales son ideales para almacenar secuencias de proteínas. Por lo tanto, en este trabajo, presentamos un esquema para sistemas de gestión de bases de datos distribuidas basados en columnas utilizando un índice orientado a columnas para almacenar datos de secuencias. Para lograr un alto rendimiento de almacenamiento, fue necesario elegir una estrategia eficaz para transformar los datos de secuencias de proteínas del formato FASTA al nuevo esquema. Por lo tanto, aplicamos un mapa en memoria, un motor de base de datos HDDmap, y un árbol de radix extendido, y evaluamos su rendimiento. Los resultados muestran que nuestro árbol de radix extendido propuesto tiene el mejor rendimiento en cuanto a consumo de memoria y tiempo de ejecución. Por lo tanto, el árbol de radix es una estructura de datos adecuada para transformar secuencias de proteínas en el esquema indexado.