Un nuevo método computacional basado en el aprendizaje por conjuntos para predecir interacciones proteína-proteína a partir de secuencias primarias de proteínas
Autores: Pan, Jie; Wang, Shiwei; Yu, Changqing; Li, Liping; You, Zhuhong; Sun, Yanmei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un nuevo método computacional basado en el aprendizaje por conjuntos para predecir interacciones proteína-proteína a partir de secuencias primarias de proteínas
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Biología
Palabras clave
Interacciones proteína-proteína
Métodos computacionales
Predicción
Modelo basado en secuencias
Transformada de Hilbert discreta
Bosque de rotación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Las interacciones proteína-proteína (PPIs) son cruciales para entender los procesos celulares, incluyendo la cascada de señales, la transcripción del ADN, los ciclos metabólicos y la reparación. En la última década, se han introducido múltiples métodos de alto rendimiento para detectar PPIs. Sin embargo, estas técnicas son lentas, laboriosas y siempre sufren de altas tasas de falsos negativos. Por lo tanto, hay una gran necesidad de nuevos métodos computacionales como herramienta complementaria para la predicción de PPIs. En este artículo, presentamos un nuevo modelo basado en secuencias para predecir PPIs que combina la Transformada de Hilbert Discreta (DHT) y el Bosque de Rotación (RoF). Este método contiene tres etapas: en primer lugar, se adoptaron las Matrices de Puntuación Específicas por Posición (PSSM) para transformar la secuencia de aminoácidos en una matriz PSSM, que puede contener información rica sobre la evolución de las proteínas. Luego, se construyó un descriptor DHT de 400 dimensiones para cada par de proteínas. Finalmente, estos descriptores de características se alimentaron al clasificador RoF para identificar la clase potencial de PPI. Al explorar el modelo propuesto en los conjuntos de datos de PPIs, obtuvo excelentes precisiones de predicción del 91.93, 96.35 y 94.24%, respectivamente. Además, también realizamos numerosos experimentos en conjuntos de datos de PPIs entre especies, y la capacidad predictiva de nuestro método también es muy excelente. Para evaluar aún más la capacidad de predicción del enfoque propuesto, presentamos la comparación de RoF con cuatro poderosos clasificadores, incluyendo Máquina de Vectores de Soporte (SVM), Bosque Aleatorio (RF), Vecino Más Cercano (KNN) y AdaBoost. También lo comparamos con algunos trabajos existentes de superioridad. Estos resultados experimentales comprensivos confirman aún más la excelencia y viabilidad del enfoque propuesto. En trabajos futuros, esperamos que pueda ser una herramienta complementaria para el análisis proteómico.
Descripción
Las interacciones proteína-proteína (PPIs) son cruciales para entender los procesos celulares, incluyendo la cascada de señales, la transcripción del ADN, los ciclos metabólicos y la reparación. En la última década, se han introducido múltiples métodos de alto rendimiento para detectar PPIs. Sin embargo, estas técnicas son lentas, laboriosas y siempre sufren de altas tasas de falsos negativos. Por lo tanto, hay una gran necesidad de nuevos métodos computacionales como herramienta complementaria para la predicción de PPIs. En este artículo, presentamos un nuevo modelo basado en secuencias para predecir PPIs que combina la Transformada de Hilbert Discreta (DHT) y el Bosque de Rotación (RoF). Este método contiene tres etapas: en primer lugar, se adoptaron las Matrices de Puntuación Específicas por Posición (PSSM) para transformar la secuencia de aminoácidos en una matriz PSSM, que puede contener información rica sobre la evolución de las proteínas. Luego, se construyó un descriptor DHT de 400 dimensiones para cada par de proteínas. Finalmente, estos descriptores de características se alimentaron al clasificador RoF para identificar la clase potencial de PPI. Al explorar el modelo propuesto en los conjuntos de datos de PPIs, obtuvo excelentes precisiones de predicción del 91.93, 96.35 y 94.24%, respectivamente. Además, también realizamos numerosos experimentos en conjuntos de datos de PPIs entre especies, y la capacidad predictiva de nuestro método también es muy excelente. Para evaluar aún más la capacidad de predicción del enfoque propuesto, presentamos la comparación de RoF con cuatro poderosos clasificadores, incluyendo Máquina de Vectores de Soporte (SVM), Bosque Aleatorio (RF), Vecino Más Cercano (KNN) y AdaBoost. También lo comparamos con algunos trabajos existentes de superioridad. Estos resultados experimentales comprensivos confirman aún más la excelencia y viabilidad del enfoque propuesto. En trabajos futuros, esperamos que pueda ser una herramienta complementaria para el análisis proteómico.