Combinar múltiples algoritmos de análisis de datos de RNA-Seq utilizando aprendizaje automático mejora el análisis de expresión diferencial de isoformas
Autores: Dimopoulos, Alexandros C.; Koukoutegos, Konstantinos; Psomopoulos, Fotis E.; Moulos, Panagiotis
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Combinar múltiples algoritmos de análisis de datos de RNA-Seq utilizando aprendizaje automático mejora el análisis de expresión diferencial de isoformas
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Secuenciación de ARN
Expresión génica
Mecanismos moleculares
Empalme alternativo
Secuenciación de ARN de células individuales
Técnicas de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La secuenciación de ARN se ha convertido en la técnica estándar para el monitoreo de alta resolución en todo el genoma de la expresión génica. Como tal, a menudo constituye el primer paso hacia la comprensión de los complejos mecanismos moleculares que impulsan varios fenotipos, abarcando desde el desarrollo de órganos hasta la génesis, monitoreo y progresión de enfermedades. Una ventaja de la secuenciación de ARN es su capacidad para capturar eventos transcriptómicos complejos como el empalme alternativo que resulta en la abundancia de isoformas alternativas. Al mismo tiempo, esta ventaja sigue siendo un desafío algorítmico y computacional, especialmente con la aparición de tecnologías de resolución aún más alta como la secuenciación de ARN de células individuales. Aunque se han propuesto varios algoritmos para la detección efectiva de la expresión diferencial de isoformas a partir de datos de ARN-Seq, no se han establecido estándares dorados ampliamente aceptados. Este hecho se ve agravado por las diferencias significativas en la salida de diferentes algoritmos cuando se aplican a los mismos datos. Además, muchos de los algoritmos propuestos siguen siendo escasos y poco mantenidos. Impulsados por estos desafíos, desarrollamos un enfoque integrador novedoso que combina de manera efectiva los algoritmos más utilizados para el análisis diferencial de transcritos e isoformas utilizando técnicas de aprendizaje automático de última generación. Demostramos su usabilidad aplicándolo en datos simulados basados en varios organismos y utilizando varias métricas de rendimiento; concluimos que nuestra estrategia supera la aplicación de los algoritmos individuales. Finalmente, nuestro enfoque se implementa como una aplicación R Shiny, con las tuberías de análisis de datos subyacentes también disponibles como contenedores Docker.
Descripción
La secuenciación de ARN se ha convertido en la técnica estándar para el monitoreo de alta resolución en todo el genoma de la expresión génica. Como tal, a menudo constituye el primer paso hacia la comprensión de los complejos mecanismos moleculares que impulsan varios fenotipos, abarcando desde el desarrollo de órganos hasta la génesis, monitoreo y progresión de enfermedades. Una ventaja de la secuenciación de ARN es su capacidad para capturar eventos transcriptómicos complejos como el empalme alternativo que resulta en la abundancia de isoformas alternativas. Al mismo tiempo, esta ventaja sigue siendo un desafío algorítmico y computacional, especialmente con la aparición de tecnologías de resolución aún más alta como la secuenciación de ARN de células individuales. Aunque se han propuesto varios algoritmos para la detección efectiva de la expresión diferencial de isoformas a partir de datos de ARN-Seq, no se han establecido estándares dorados ampliamente aceptados. Este hecho se ve agravado por las diferencias significativas en la salida de diferentes algoritmos cuando se aplican a los mismos datos. Además, muchos de los algoritmos propuestos siguen siendo escasos y poco mantenidos. Impulsados por estos desafíos, desarrollamos un enfoque integrador novedoso que combina de manera efectiva los algoritmos más utilizados para el análisis diferencial de transcritos e isoformas utilizando técnicas de aprendizaje automático de última generación. Demostramos su usabilidad aplicándolo en datos simulados basados en varios organismos y utilizando varias métricas de rendimiento; concluimos que nuestra estrategia supera la aplicación de los algoritmos individuales. Finalmente, nuestro enfoque se implementa como una aplicación R Shiny, con las tuberías de análisis de datos subyacentes también disponibles como contenedores Docker.