DrugFinder: modelo de identificación de proteínas con potencial farmacológico basado en modelos pre-entrenados e información evolutiva
Autores: Zhang, Mu; Wan, Fengqiang; Liu, Taigang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
DrugFinder: modelo de identificación de proteínas con potencial farmacológico basado en modelos pre-entrenados e información evolutiva
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Proteínas farmacológicas
Métodos basados en secuencias
DrugFinder
Bosque aleatorio
Clasificadores de aprendizaje automático
Modelo XGB
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La identificación de proteínas farmacológicas siempre ha sido el núcleo del desarrollo de fármacos. Los métodos tradicionales de identificación basados en la estructura son lentos y costosos. Como resultado, cada vez más investigadores han centrado su atención en métodos basados en secuencias para identificar proteínas farmacológicas. Proponemos un modelo de identificación de proteínas farmacológicas basado en secuencias llamado DrugFinder. El modelo extrae las características de la salida de incrustación del modelo de proteínas preentrenado Prot_T5_Xl_Uniref50 (T5) y la información evolutiva de la matriz de puntuación específica de la posición (PSSM). Posteriormente, para eliminar características redundantes y mejorar el rendimiento del modelo, utilizamos el método de bosques aleatorios (RF) para seleccionar características, y las características seleccionadas fueron entrenadas y probadas en múltiples clasificadores de aprendizaje automático diferentes, incluyendo máquinas de vectores de soporte (SVM), RF, Bayes ingenuo (NB), aumento extremo de gradiente (XGB) y vecinos más cercanos (KNN). Entre estos clasificadores, el modelo XGB logró los mejores resultados. DrugFinder alcanzó una precisión del 94.98%, sensibilidad del 96.33% y especificidad del 96.83% en el conjunto de pruebas independiente, lo cual es mucho mejor que los resultados de los métodos de identificación existentes. Nuestro modelo también tuvo un buen desempeño en otro conjunto de pruebas adicional relacionado con tumores, logrando una precisión del 88.71% y una precisión del 93.72%. Esto demuestra aún más la sólida capacidad de generalización del modelo.
Descripción
La identificación de proteínas farmacológicas siempre ha sido el núcleo del desarrollo de fármacos. Los métodos tradicionales de identificación basados en la estructura son lentos y costosos. Como resultado, cada vez más investigadores han centrado su atención en métodos basados en secuencias para identificar proteínas farmacológicas. Proponemos un modelo de identificación de proteínas farmacológicas basado en secuencias llamado DrugFinder. El modelo extrae las características de la salida de incrustación del modelo de proteínas preentrenado Prot_T5_Xl_Uniref50 (T5) y la información evolutiva de la matriz de puntuación específica de la posición (PSSM). Posteriormente, para eliminar características redundantes y mejorar el rendimiento del modelo, utilizamos el método de bosques aleatorios (RF) para seleccionar características, y las características seleccionadas fueron entrenadas y probadas en múltiples clasificadores de aprendizaje automático diferentes, incluyendo máquinas de vectores de soporte (SVM), RF, Bayes ingenuo (NB), aumento extremo de gradiente (XGB) y vecinos más cercanos (KNN). Entre estos clasificadores, el modelo XGB logró los mejores resultados. DrugFinder alcanzó una precisión del 94.98%, sensibilidad del 96.33% y especificidad del 96.83% en el conjunto de pruebas independiente, lo cual es mucho mejor que los resultados de los métodos de identificación existentes. Nuestro modelo también tuvo un buen desempeño en otro conjunto de pruebas adicional relacionado con tumores, logrando una precisión del 88.71% y una precisión del 93.72%. Esto demuestra aún más la sólida capacidad de generalización del modelo.