Cspredr: un método de predicción de localización subcelular de ARNm en múltiples sitios basado en codificación de fusión y redes neuronales híbridas
Autores: Wang, Xiao; Suo, Wenshuai; Wang, Rong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Cspredr: un método de predicción de localización subcelular de ARNm en múltiples sitios basado en codificación de fusión y redes neuronales híbridas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Investigación
ARNm
Localización subcelular
Aprendizaje profundo
Método de predicción
Características de secuencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 59
Citaciones: Sin citaciones
La investigación actual reconoce ampliamente que la localización subcelular del ARNm es crucial para entender sus funciones biológicas. Sin embargo, los métodos actuales para la localización subcelular del ARNm basados en características de frecuencia de k-meros pueden pasar por alto la información secuencial de la secuencia, y un solo método de codificación puede no extraer adecuadamente las características de la secuencia. Este documento propone un nuevo método de predicción de aprendizaje profundo, CSpredR, diseñado específicamente para predecir la localización subcelular de ARNm multi-sitio. A diferencia de los métodos anteriores, CSpredR primero emplea k-meros para tokenizar las secuencias de ARNm, luego convierte las secuencias tokenizadas en gráficos de de Bruijn, lo que permite capturar de manera más precisa la información estructural dentro de las secuencias. Para mitigar el impacto de la información secuencial perdida y capturar mejor las características de la secuencia, combinamos modelos word2vec y fasttext para extraer las características de cada nodo en el gráfico y retener el orden de la secuencia. Pueden codificar las unidades k-mero en la secuencia en vectores de palabras, sirviendo así como los vectores de características de nodo del gráfico. De esta manera, a cada nodo en el gráfico se le asigna un vector de características que contiene información semántica rica. Posteriormente, utilizamos redes neuronales convolucionales multinivel y redes neuronales bidireccionales de memoria a corto y largo plazo para capturar características de secuencia, respectivamente, y fusionamos los resultados como entrada para un modelo de mecanismo de atención de múltiples cabezas. La información de estas cabezas se integra en las representaciones de los nodos, y finalmente, los datos procesados por atención se alimentan en un MLP (Perceptrón Multicapa) para tareas de predicción. Experimentos extensos revelan que CSpredR logra una mejora del 2% sobre los mejores predictores existentes, ofreciendo una herramienta más efectiva para la predicción de la localización subcelular del ARNm.
Descripción
La investigación actual reconoce ampliamente que la localización subcelular del ARNm es crucial para entender sus funciones biológicas. Sin embargo, los métodos actuales para la localización subcelular del ARNm basados en características de frecuencia de k-meros pueden pasar por alto la información secuencial de la secuencia, y un solo método de codificación puede no extraer adecuadamente las características de la secuencia. Este documento propone un nuevo método de predicción de aprendizaje profundo, CSpredR, diseñado específicamente para predecir la localización subcelular de ARNm multi-sitio. A diferencia de los métodos anteriores, CSpredR primero emplea k-meros para tokenizar las secuencias de ARNm, luego convierte las secuencias tokenizadas en gráficos de de Bruijn, lo que permite capturar de manera más precisa la información estructural dentro de las secuencias. Para mitigar el impacto de la información secuencial perdida y capturar mejor las características de la secuencia, combinamos modelos word2vec y fasttext para extraer las características de cada nodo en el gráfico y retener el orden de la secuencia. Pueden codificar las unidades k-mero en la secuencia en vectores de palabras, sirviendo así como los vectores de características de nodo del gráfico. De esta manera, a cada nodo en el gráfico se le asigna un vector de características que contiene información semántica rica. Posteriormente, utilizamos redes neuronales convolucionales multinivel y redes neuronales bidireccionales de memoria a corto y largo plazo para capturar características de secuencia, respectivamente, y fusionamos los resultados como entrada para un modelo de mecanismo de atención de múltiples cabezas. La información de estas cabezas se integra en las representaciones de los nodos, y finalmente, los datos procesados por atención se alimentan en un MLP (Perceptrón Multicapa) para tareas de predicción. Experimentos extensos revelan que CSpredR logra una mejora del 2% sobre los mejores predictores existentes, ofreciendo una herramienta más efectiva para la predicción de la localización subcelular del ARNm.