Alineación masiva en paralelo de lecturas de RNA-seq en computación sin servidor
Autores: Cinaglia, Pietro; Vázquez-Poletti, José Luis; Cannataro, Mario
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Alineación masiva en paralelo de lecturas de RNA-seq en computación sin servidor
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Infraestructuras en la nube
Computación sin servidor
Análisis de datos de rna-seq
Mapeo
Genoma de referencia
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
En los últimos años, el uso de infraestructuras en la nube para el procesamiento de datos ha demostrado ser útil, con un potencial informático que no se ve afectado por las limitaciones de una infraestructura local. En este contexto, la computación sin servidor es el modelo de servicio en la nube de más rápido crecimiento debido a sus metodologías de autoescalado, confiabilidad y tolerancia a fallos. Presentamos una solución basada en una infraestructura sin servidor interna, capaz de realizar análisis de datos de ARN-seq a gran escala centrados en el mapeo de lecturas de secuenciación a un genoma de referencia. La principal contribución fue llevar la computación de datos genómicos a la computación sin servidor, centrándose en el mapeo de lecturas de ARN-seq a un genoma de referencia, ya que esta es la tarea más demorada para algunos procesos. La solución propuesta maneja instancias masivas en paralelo para maximizar la eficiencia en cuanto al tiempo de ejecución. Evaluamos el rendimiento de nuestra solución realizando dos pruebas principales, ambas basadas en el mapeo de lecturas de ARN-seq al genoma humano GRCh38. Nuestros experimentos demostraron una reducción de X, Y y Z, en comparación con los entornos locales con 16, 8 y 4 núcleos virtuales, respectivamente. Además, se investigaron las limitaciones sin servidor.
Descripción
En los últimos años, el uso de infraestructuras en la nube para el procesamiento de datos ha demostrado ser útil, con un potencial informático que no se ve afectado por las limitaciones de una infraestructura local. En este contexto, la computación sin servidor es el modelo de servicio en la nube de más rápido crecimiento debido a sus metodologías de autoescalado, confiabilidad y tolerancia a fallos. Presentamos una solución basada en una infraestructura sin servidor interna, capaz de realizar análisis de datos de ARN-seq a gran escala centrados en el mapeo de lecturas de secuenciación a un genoma de referencia. La principal contribución fue llevar la computación de datos genómicos a la computación sin servidor, centrándose en el mapeo de lecturas de ARN-seq a un genoma de referencia, ya que esta es la tarea más demorada para algunos procesos. La solución propuesta maneja instancias masivas en paralelo para maximizar la eficiencia en cuanto al tiempo de ejecución. Evaluamos el rendimiento de nuestra solución realizando dos pruebas principales, ambas basadas en el mapeo de lecturas de ARN-seq al genoma humano GRCh38. Nuestros experimentos demostraron una reducción de X, Y y Z, en comparación con los entornos locales con 16, 8 y 4 núcleos virtuales, respectivamente. Además, se investigaron las limitaciones sin servidor.