CircPCBL: Identificación de circARN de plantas con un modelo CNN-BiGRU-GLT
Autores: Wu, Pengpeng; Nie, Zhenjun; Huang, Zhiqiang; Zhang, Xiaodan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
CircPCBL: Identificación de circARN de plantas con un modelo CNN-BiGRU-GLT
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Botánica
Palabras clave
CircARNs
Método específico de plantas
CircPCBL
Enfoque de aprendizaje profundo
Secuencia de ARN
Identificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 13
Citaciones: Sin citaciones
Los ARN circulares (circARNs), que se producen después del empalme de los pre-ARNm, están fuertemente relacionados con la aparición de varios tipos de tumores. La etapa inicial para llevar a cabo estudios de seguimiento implica identificar circARNs. Actualmente, los animales son el objetivo principal de la mayoría de las tecnologías establecidas para el reconocimiento de circARNs. Sin embargo, las características de secuencia de los circARNs vegetales difieren de las de los circARNs animales, lo que hace imposible detectar circARNs vegetales. Por ejemplo, hay señales de empalme no GT/AG en los sitios de unión de circARN y pocas secuencias complementarias inversas y elementos repetitivos en las secuencias de intrones flanqueantes de los circARNs vegetales. Además, ha habido pocos estudios sobre circARNs en plantas, por lo que es urgente crear un método específico para plantas para identificar circARNs. En este estudio, proponemos CircPCBL, un enfoque de aprendizaje profundo que solo utiliza secuencias en bruto para distinguir entre circARNs encontrados en plantas y otros lncARNs. CircPCBL comprende dos detectores separados: un detector CNN-BiGRU y un detector GLT. El detector CNN-BiGRU toma la codificación one-hot de la secuencia de ARN como entrada, mientras que el detector GLT utiliza características k-mer (k = 1 - 4). Las matrices de salida de los dos submodelos se concatenan y finalmente pasan a través de una capa completamente conectada para producir la salida final. Para verificar el rendimiento de generalización del modelo, evaluamos CircPCBL utilizando varios conjuntos de datos, y los resultados revelaron que tenía un F1 de 85.40% en el conjunto de validación compuesto por seis especies de plantas diferentes y 85.88%, 75.87% y 86.83% en los tres conjuntos de prueba independientes entre especies compuestos por , , y , respectivamente. Con una precisión del 90.9% y 90%, respectivamente, CircPCBL predijo con éxito diez de los once circARNs reportados experimentalmente y nueve de los diez lncARNs de arroz en el conjunto real. CircPCBL podría contribuir potencialmente a la identificación de circARNs en plantas. Además, es notable que CircPCBL también logró una precisión promedio del 94.08% en los conjuntos de datos humanos, lo que también es un excelente resultado, lo que implica su posible aplicación en conjuntos de datos de animales. En última instancia, CircPCBL está disponible como un servidor web, desde el cual también se puede descargar gratuitamente los datos y el código fuente.
Descripción
Los ARN circulares (circARNs), que se producen después del empalme de los pre-ARNm, están fuertemente relacionados con la aparición de varios tipos de tumores. La etapa inicial para llevar a cabo estudios de seguimiento implica identificar circARNs. Actualmente, los animales son el objetivo principal de la mayoría de las tecnologías establecidas para el reconocimiento de circARNs. Sin embargo, las características de secuencia de los circARNs vegetales difieren de las de los circARNs animales, lo que hace imposible detectar circARNs vegetales. Por ejemplo, hay señales de empalme no GT/AG en los sitios de unión de circARN y pocas secuencias complementarias inversas y elementos repetitivos en las secuencias de intrones flanqueantes de los circARNs vegetales. Además, ha habido pocos estudios sobre circARNs en plantas, por lo que es urgente crear un método específico para plantas para identificar circARNs. En este estudio, proponemos CircPCBL, un enfoque de aprendizaje profundo que solo utiliza secuencias en bruto para distinguir entre circARNs encontrados en plantas y otros lncARNs. CircPCBL comprende dos detectores separados: un detector CNN-BiGRU y un detector GLT. El detector CNN-BiGRU toma la codificación one-hot de la secuencia de ARN como entrada, mientras que el detector GLT utiliza características k-mer (k = 1 - 4). Las matrices de salida de los dos submodelos se concatenan y finalmente pasan a través de una capa completamente conectada para producir la salida final. Para verificar el rendimiento de generalización del modelo, evaluamos CircPCBL utilizando varios conjuntos de datos, y los resultados revelaron que tenía un F1 de 85.40% en el conjunto de validación compuesto por seis especies de plantas diferentes y 85.88%, 75.87% y 86.83% en los tres conjuntos de prueba independientes entre especies compuestos por , , y , respectivamente. Con una precisión del 90.9% y 90%, respectivamente, CircPCBL predijo con éxito diez de los once circARNs reportados experimentalmente y nueve de los diez lncARNs de arroz en el conjunto real. CircPCBL podría contribuir potencialmente a la identificación de circARNs en plantas. Además, es notable que CircPCBL también logró una precisión promedio del 94.08% en los conjuntos de datos humanos, lo que también es un excelente resultado, lo que implica su posible aplicación en conjuntos de datos de animales. En última instancia, CircPCBL está disponible como un servidor web, desde el cual también se puede descargar gratuitamente los datos y el código fuente.