La integración de datos de diferentes plataformas de secuenciación de lectura larga mejora la caracterización de proteoformas en Arabidopsis
Autores: García-Campa, Lara; Valledor, Luis; Pascual, Jesús
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
La integración de datos de diferentes plataformas de secuenciación de lectura larga mejora la caracterización de proteoformas en Arabidopsis
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Botánica
Palabras clave
Datos masivos de ómicas
Bases de datos de referencia
Iso-Seq
ONT-DRS
Proteoformas
Estudios de proteómica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 8
Citaciones: Sin citaciones
La creciente disponibilidad de datos masivos de ómicas requiere mejorar la calidad de las bases de datos de referencia y sus anotaciones. La combinación de la secuenciación de isoformas de longitud completa (Iso-Seq) con transcriptómica y proteómica de lecturas cortas se ha utilizado con éxito para aumentar la caracterización de proteoformas, que es un objetivo principal en biología. Sin embargo, el potencial de incluir datos de Secuenciación Directa de ARN de Oxford Nanopore Technologies (ONT-DRS) no ha sido explorado. En este artículo, analizamos el impacto de combinar datos derivados de Iso-Seq y ONT-DRS en la identificación de proteoformas en datos de proteómica de Arabidopsis MS. Para ello, seleccionamos un conjunto de datos de proteómica correspondiente a hojas senescentes y realizamos búsquedas de proteínas utilizando tres bases de datos de proteínas diferentes: AtRTD2 y AtRTD3, construidas a partir de los transcriptomas homónimos, consideradas las más completas y actualizadas disponibles para la especie; y una base de datos híbrida personalizada que combina AtRTD3 con datos de transcriptómica ONT-DRS disponibles públicamente generados a partir de hojas de Arabidopsis. Nuestros resultados muestran que la inclusión y combinación de datos de secuenciación de lecturas largas de Iso-Seq y ONT-DRS en un flujo de trabajo proteogenómico mejora la caracterización y el descubrimiento de proteoformas en estudios de proteómica de abajo hacia arriba. Esto representa una gran oportunidad para investigar sistemas biológicos a una escala sin precedentes, aunque presenta desafíos para los algoritmos actuales de búsqueda de proteínas.
Descripción
La creciente disponibilidad de datos masivos de ómicas requiere mejorar la calidad de las bases de datos de referencia y sus anotaciones. La combinación de la secuenciación de isoformas de longitud completa (Iso-Seq) con transcriptómica y proteómica de lecturas cortas se ha utilizado con éxito para aumentar la caracterización de proteoformas, que es un objetivo principal en biología. Sin embargo, el potencial de incluir datos de Secuenciación Directa de ARN de Oxford Nanopore Technologies (ONT-DRS) no ha sido explorado. En este artículo, analizamos el impacto de combinar datos derivados de Iso-Seq y ONT-DRS en la identificación de proteoformas en datos de proteómica de Arabidopsis MS. Para ello, seleccionamos un conjunto de datos de proteómica correspondiente a hojas senescentes y realizamos búsquedas de proteínas utilizando tres bases de datos de proteínas diferentes: AtRTD2 y AtRTD3, construidas a partir de los transcriptomas homónimos, consideradas las más completas y actualizadas disponibles para la especie; y una base de datos híbrida personalizada que combina AtRTD3 con datos de transcriptómica ONT-DRS disponibles públicamente generados a partir de hojas de Arabidopsis. Nuestros resultados muestran que la inclusión y combinación de datos de secuenciación de lecturas largas de Iso-Seq y ONT-DRS en un flujo de trabajo proteogenómico mejora la caracterización y el descubrimiento de proteoformas en estudios de proteómica de abajo hacia arriba. Esto representa una gran oportunidad para investigar sistemas biológicos a una escala sin precedentes, aunque presenta desafíos para los algoritmos actuales de búsqueda de proteínas.