TranScreen: transfer learning en un modelo de cribado virtual contra el cáncer basado en gráficos
Autores: Salem, Milad; Khormali, Aminollah; Arshadi, Arash Keshavarzi; Webb, Julia; Yuan, Jiann-Shiun
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
TranScreen: transfer learning en un modelo de cribado virtual contra el cáncer basado en gráficos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Aprendizaje profundo
Modelos de cribado virtual
Pipeline TranScreen
Aprendizaje por transferencia
Redes neuronales convolucionales de grafos
Predicción de bioactividad basada en p53
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
La extracción automática de características del aprendizaje profundo ha demostrado su rendimiento superior sobre las características basadas en huellas dactilares tradicionales en la implementación de modelos de cribado virtual. Sin embargo, estos modelos enfrentan múltiples desafíos en el campo del descubrimiento temprano de fármacos, como el sobreajuste y la generalización a datos no vistos, debido a los conjuntos de datos inherentemente desequilibrados y pequeños. En este trabajo se propone el pipeline TranScreen, que utiliza transfer learning y una colección de inicializaciones de pesos para superar estos desafíos. Un total de 182 redes neuronales convolucionales gráficas son entrenadas en conjuntos de datos fuente moleculares y el conocimiento aprendido se transfiere a la tarea objetivo para el ajuste fino. La tarea objetivo de predicción de bioactividad basada en p53, un factor importante para el descubrimiento de fármacos contra el cáncer, se elige para mostrar la capacidad del pipeline. Después de entrenar una colección de modelos fuente, se implementan tres enfoques diferentes para compararlos y clasificarlos para una tarea dada antes del ajuste fino. Los resultados muestran una mejora en el rendimiento del modelo en múltiples casos, siendo el mejor modelo el que aumenta el área bajo la curva de operación del receptor ROC-AUC de 0.75 a 0.91 y la recuperación de 0.25 a 1. Esta mejora es vital para el cribado virtual práctico al reducir los falsos negativos y demuestra el potencial del transfer learning. El código y los modelos pre-entrenados están disponibles en línea.
Descripción
La extracción automática de características del aprendizaje profundo ha demostrado su rendimiento superior sobre las características basadas en huellas dactilares tradicionales en la implementación de modelos de cribado virtual. Sin embargo, estos modelos enfrentan múltiples desafíos en el campo del descubrimiento temprano de fármacos, como el sobreajuste y la generalización a datos no vistos, debido a los conjuntos de datos inherentemente desequilibrados y pequeños. En este trabajo se propone el pipeline TranScreen, que utiliza transfer learning y una colección de inicializaciones de pesos para superar estos desafíos. Un total de 182 redes neuronales convolucionales gráficas son entrenadas en conjuntos de datos fuente moleculares y el conocimiento aprendido se transfiere a la tarea objetivo para el ajuste fino. La tarea objetivo de predicción de bioactividad basada en p53, un factor importante para el descubrimiento de fármacos contra el cáncer, se elige para mostrar la capacidad del pipeline. Después de entrenar una colección de modelos fuente, se implementan tres enfoques diferentes para compararlos y clasificarlos para una tarea dada antes del ajuste fino. Los resultados muestran una mejora en el rendimiento del modelo en múltiples casos, siendo el mejor modelo el que aumenta el área bajo la curva de operación del receptor ROC-AUC de 0.75 a 0.91 y la recuperación de 0.25 a 1. Esta mejora es vital para el cribado virtual práctico al reducir los falsos negativos y demuestra el potencial del transfer learning. El código y los modelos pre-entrenados están disponibles en línea.