
Credits: Image: Courtesy of the researchers
2022-02-02
Un sistema de inteligencia artificial predice rápidamente cómo se unirán dos proteínas
Los anticuerpos, pequeñas proteínas producidas por el sistema inmunitario, pueden unirse a partes específicas de un virus para neutralizarlo. Mientras los científicos siguen luchando contra el SARS-CoV-2, el virus que causa el Covid-19, una posible arma es un anticuerpo sintético que se adhiera a las proteínas de la espiga del virus para impedir que éste entre en una célula humana.
Para desarrollar un anticuerpo sintético con éxito, los investigadores deben entender exactamente cómo se produce esa unión. Las proteínas, con estructuras tridimensionales abultadas que contienen muchos pliegues, pueden adherirse en millones de combinaciones, por lo que encontrar el complejo proteico adecuado entre los casi innumerables candidatos requiere mucho tiempo.
Para agilizar el proceso, los investigadores del MIT crearon un modelo de aprendizaje automático que puede predecir directamente el complejo que se formará cuando dos proteínas se unan. Su técnica es entre 80 y 500 veces más rápida que los métodos de software más avanzados, y a menudo predice estructuras de proteínas que se acercan más a las estructuras reales que se han observado experimentalmente.
Esta técnica podría ayudar a los científicos a comprender mejor algunos procesos biológicos que implican interacciones de proteínas, como la replicación y reparación del ADN; también podría acelerar el proceso de desarrollo de nuevos medicamentos.
"El aprendizaje profundo es muy bueno para capturar las interacciones entre diferentes proteínas que, de otro modo, son difíciles de escribir experimentalmente para los químicos o biólogos. Algunas de estas interacciones son muy complicadas, y la gente no ha encontrado buenas formas de expresarlas. Este modelo de aprendizaje profundo puede aprender este tipo de interacciones a partir de los datos", afirma Octavian-Eugen Ganea, postdoctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y coautor del artículo.
El coautor de Ganea es Xinyuan Huang, estudiante de posgrado en la ETH de Zúrich. Los coautores del MIT son Regina Barzilay, profesora distinguida de la Escuela de Ingeniería para la IA y la salud en el CSAIL, y Tommi Jaakkola, profesor Thomas Siebel de Ingeniería Eléctrica en el CSAIL y miembro del Instituto de Datos, Sistemas y Sociedad. La investigación se presentará en la Conferencia Internacional sobre el Aprendizaje de Representaciones.
Fijación de proteínas
El modelo desarrollado por los investigadores, denominado Equidock, se centra en el acoplamiento de cuerpos rígidos, que se produce cuando dos proteínas se unen girando o trasladándose en el espacio 3D, pero sus formas no se aprietan ni se doblan.
El modelo toma las estructuras tridimensionales de dos proteínas y las convierte en gráficos tridimensionales que pueden ser procesados por la red neuronal. Las proteínas están formadas por cadenas de aminoácidos, y cada uno de esos aminoácidos está representado por un nodo en el gráfico.
Los investigadores incorporaron al modelo conocimientos geométricos, de modo que entiende cómo pueden cambiar los objetos si se rotan o trasladan en el espacio 3D. El modelo también incorpora conocimientos matemáticos que garantizan que las proteínas se acoplan siempre de la misma manera, independientemente del lugar en el que se encuentren en el espacio 3D. Así es como se acoplan las proteínas en el cuerpo humano.
Con esta información, el sistema de aprendizaje automático identifica los átomos de las dos proteínas que tienen más probabilidades de interactuar y formar reacciones químicas, conocidos como puntos de unión. A continuación, utiliza estos puntos para colocar las dos proteínas juntas en un complejo.
"Si podemos entender a partir de las proteínas qué partes individuales tienen más probabilidades de ser estos puntos de unión, entonces eso capturará toda la información que necesitamos para colocar las dos proteínas juntas. Suponiendo que podamos encontrar estos dos conjuntos de puntos, entonces podremos averiguar cómo girar y traducir las proteínas para que un conjunto coincida con el otro", explica Ganea.
Uno de los mayores retos de la construcción de este modelo fue superar la falta de datos de entrenamiento. Dado que existen tan pocos datos experimentales en 3D de las proteínas, era especialmente importante incorporar conocimientos geométricos a Equidock, dice Ganea. Sin esas restricciones geométricas, el modelo podría detectar falsas correlaciones en el conjunto de datos.
Segundos frente a horas
Una vez entrenado el modelo, los investigadores lo compararon con cuatro métodos de software. Equidock es capaz de predecir el complejo proteico final en sólo uno o cinco segundos. Todos los métodos de referencia tardaron mucho más, entre 10 minutos y una hora o más.
En cuanto a las medidas de calidad, que calculan el grado de coincidencia entre el complejo proteico predicho y el real, Equidock a menudo era comparable con las líneas de base, pero a veces las superaba.

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...