Predicción de proteínas de matriz extracelular mediante la fusión de múltiple información de características, red elástica y algoritmo de bosque aleatorio
Autores: Wang, Minghui; Yue, Lingling; Cui, Xiaowen; Chen, Cheng; Zhou, Hongyan; Ma, Qin; Yu, Bin
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Predicción de proteínas de matriz extracelular mediante la fusión de múltiple información de características, red elástica y algoritmo de bosque aleatorio
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Matriz extracelular
Proteínas
Predicción
Bosque aleatorio
Características
Clasificador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Las proteínas de la matriz extracelular (ECM) desempeñan un papel importante en una serie de procesos biológicos de las células. El estudio de las proteínas de la ECM es útil para comprender mejor sus funciones biológicas. Proponemos ECMP-RF (Predicción de proteínas de matriz extracelular por bosque aleatorio) para predecir proteínas de la ECM. En primer lugar, las características de la secuencia de proteínas se extraen combinando la codificación basada en peso agrupado, la composición de pseudo-aminoácidos, la matriz de puntuación pseudo específica de la posición, un descriptor local y un descriptor de autocorrelación. En segundo lugar, se emplea la técnica de sobremuestreo sintético de minorías (SMOTE) para procesar los datos de desequilibrio de clases, y se utiliza la red elástica (EN) para reducir la dimensión de los vectores de características. Finalmente, se utiliza el clasificador de bosque aleatorio (RF) para predecir las proteínas de la ECM. La validación cruzada de dejar uno fuera muestra que la precisión equilibrada de los conjuntos de datos de entrenamiento y prueba es del 97,3% y del 97,9%, respectivamente. En comparación con otros métodos de vanguardia, ECMP-RF es significativamente mejor que otros predictores.
Descripción
Las proteínas de la matriz extracelular (ECM) desempeñan un papel importante en una serie de procesos biológicos de las células. El estudio de las proteínas de la ECM es útil para comprender mejor sus funciones biológicas. Proponemos ECMP-RF (Predicción de proteínas de matriz extracelular por bosque aleatorio) para predecir proteínas de la ECM. En primer lugar, las características de la secuencia de proteínas se extraen combinando la codificación basada en peso agrupado, la composición de pseudo-aminoácidos, la matriz de puntuación pseudo específica de la posición, un descriptor local y un descriptor de autocorrelación. En segundo lugar, se emplea la técnica de sobremuestreo sintético de minorías (SMOTE) para procesar los datos de desequilibrio de clases, y se utiliza la red elástica (EN) para reducir la dimensión de los vectores de características. Finalmente, se utiliza el clasificador de bosque aleatorio (RF) para predecir las proteínas de la ECM. La validación cruzada de dejar uno fuera muestra que la precisión equilibrada de los conjuntos de datos de entrenamiento y prueba es del 97,3% y del 97,9%, respectivamente. En comparación con otros métodos de vanguardia, ECMP-RF es significativamente mejor que otros predictores.