Proteína subnuclear localización basada en Radius-SMOTE y Kernel Linear Discriminant Analysis combinado con Random Forest
Autores: Wu, Liwen; Huang, Shanshan; Wu, Feng; Jiang, Qian; Yao, Shaowen; Jin, Xin
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Proteína subnuclear localización basada en Radius-SMOTE y Kernel Linear Discriminant Analysis combinado con Random Forest
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Proteína
Localización subnuclear
Conjuntos de datos
Precisión de predicción
Clases minoritarias
Método
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La localización subnuclear de proteínas juega un papel importante en la proteómica y puede ayudar a los investigadores a comprender las funciones biológicas del núcleo. Hasta la fecha, la mayoría de los conjuntos de datos de proteínas utilizados en los estudios están desequilibrados, lo que reduce la precisión de la predicción de la localización subnuclear de proteínas, especialmente para las clases minoritarias. En este trabajo, se propone un método novedoso para predecir la localización subnuclear de proteínas de conjuntos de datos desequilibrados. Primero, se utiliza la matriz de puntuación específica de posición para extraer los vectores de características de dos conjuntos de datos de referencia y luego se seleccionan las características útiles mediante análisis discriminante lineal de kernel. En segundo lugar, se utiliza el Radius-SMOTE para expandir las muestras de las clases minoritarias y abordar el problema del desequilibrio en los conjuntos de datos. Finalmente, los vectores de características óptimos de los conjuntos de datos ampliados se clasifican mediante random forest. Para evaluar el rendimiento del método propuesto, se calculan cuatro índices de evolución mediante la prueba de Jackknife. Los resultados indican que el método propuesto puede lograr un mejor efecto en comparación con otros métodos convencionales, y también puede mejorar la precisión tanto de las clases mayoritarias como de las minoritarias de manera efectiva.
Descripción
La localización subnuclear de proteínas juega un papel importante en la proteómica y puede ayudar a los investigadores a comprender las funciones biológicas del núcleo. Hasta la fecha, la mayoría de los conjuntos de datos de proteínas utilizados en los estudios están desequilibrados, lo que reduce la precisión de la predicción de la localización subnuclear de proteínas, especialmente para las clases minoritarias. En este trabajo, se propone un método novedoso para predecir la localización subnuclear de proteínas de conjuntos de datos desequilibrados. Primero, se utiliza la matriz de puntuación específica de posición para extraer los vectores de características de dos conjuntos de datos de referencia y luego se seleccionan las características útiles mediante análisis discriminante lineal de kernel. En segundo lugar, se utiliza el Radius-SMOTE para expandir las muestras de las clases minoritarias y abordar el problema del desequilibrio en los conjuntos de datos. Finalmente, los vectores de características óptimos de los conjuntos de datos ampliados se clasifican mediante random forest. Para evaluar el rendimiento del método propuesto, se calculan cuatro índices de evolución mediante la prueba de Jackknife. Los resultados indican que el método propuesto puede lograr un mejor efecto en comparación con otros métodos convencionales, y también puede mejorar la precisión tanto de las clases mayoritarias como de las minoritarias de manera efectiva.