logo móvil
Contáctanos

DrugFinder: modelo de identificación de proteínas con potencial farmacológico basado en modelos pre-entrenados e información evolutiva

Autores: Zhang, Mu; Wan, Fengqiang; Liu, Taigang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

DrugFinder: modelo de identificación de proteínas con potencial farmacológico basado en modelos pre-entrenados e información evolutiva


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Proteínas farmacológicas
Métodos basados en secuencias
DrugFinder
Bosque aleatorio
Clasificadores de aprendizaje automático
Modelo XGB

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
La identificación de proteínas farmacológicas siempre ha sido el núcleo del desarrollo de fármacos. Los métodos tradicionales de identificación basados en la estructura son lentos y costosos. Como resultado, cada vez más investigadores han centrado su atención en métodos basados en secuencias para identificar proteínas farmacológicas. Proponemos un modelo de identificación de proteínas farmacológicas basado en secuencias llamado DrugFinder. El modelo extrae las características de la salida de incrustación del modelo de proteínas preentrenado Prot_T5_Xl_Uniref50 (T5) y la información evolutiva de la matriz de puntuación específica de la posición (PSSM). Posteriormente, para eliminar características redundantes y mejorar el rendimiento del modelo, utilizamos el método de bosques aleatorios (RF) para seleccionar características, y las características seleccionadas fueron entrenadas y probadas en múltiples clasificadores de aprendizaje automático diferentes, incluyendo máquinas de vectores de soporte (SVM), RF, Bayes ingenuo (NB), aumento extremo de gradiente (XGB) y vecinos más cercanos (KNN). Entre estos clasificadores, el modelo XGB logró los mejores resultados. DrugFinder alcanzó una precisión del 94.98%, sensibilidad del 96.33% y especificidad del 96.83% en el conjunto de pruebas independiente, lo cual es mucho mejor que los resultados de los métodos de identificación existentes. Nuestro modelo también tuvo un buen desempeño en otro conjunto de pruebas adicional relacionado con tumores, logrando una precisión del 88.71% y una precisión del 93.72%. Esto demuestra aún más la sólida capacidad de generalización del modelo.

Otros recursos que podrían interesarte

Temas Virtualpro