Un campo de fuerza de aprendizaje automático para modelado de bio-macromoléculas basado en conjuntos de datos de energía de interacción calculados por química cuántica
Autores: Fan, Zhen-Xuan; Chao, Sheng D.
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un campo de fuerza de aprendizaje automático para modelado de bio-macromoléculas basado en conjuntos de datos de energía de interacción calculados por química cuántica
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Datos de energía
Campo de fuerza
Química cuántica
Energías de interacción
Aprendizaje automático
Dinámica biomolecular
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
Los datos precisos de energía de las interacciones no covalentes son esenciales para construir campos de fuerza para simulaciones de dinámica molecular de sistemas biomacromoleculares. Hay dos problemas prácticos importantes en la construcción de un campo de fuerza confiable con la esperanza de equilibrar la precisión química deseada y la eficiencia de trabajo. Uno es determinar un nivel adecuado de teoría de química cuántica para calcular las energías de interacción. El otro es utilizar una función de energía continua adecuada para modelar los datos de energía química cuántica. Para el primer problema, recientemente hemos calculado las energías de interacción intermolecular utilizando el nivel de teoría SAPT0, y hemos organizado sistemáticamente estas energías en los conjuntos de datos ab initio SOFG-31 (homodímero) y SOFG-31-heterodímero. En este trabajo, recalculamos estas energías de interacción utilizando el nivel de teoría SAPT2 más avanzado con una serie más amplia de conjuntos de bases. Nuestro propósito es determinar el nivel de teoría SAPT adecuado para las energías de interacción con respecto a la precisión química de referencia de CCSD(T)/CBS. Luego, para utilizar estos conjuntos de datos de energía, empleamos una de las técnicas de aprendizaje automático bien desarrolladas, llamada el esquema CLIFF, para construir un campo de fuerza de propósito general para simulaciones de dinámica biomolecular. Aquí usamos el conjunto de datos SOFG-31 y el conjunto de datos SOFG-31-heterodímero como conjuntos de entrenamiento y prueba, respectivamente. Nuestros resultados demuestran que utilizando el esquema CLIFF se pueden reproducir una amplia gama de patrones de energía de interacción dímera con solo un pequeño conjunto de entrenamiento. Los errores generales para cada componente de energía SAPT, así como la energía total de SAPT, están todos muy por debajo de la precisión química deseada de ~1 kcal/mol.
Descripción
Los datos precisos de energía de las interacciones no covalentes son esenciales para construir campos de fuerza para simulaciones de dinámica molecular de sistemas biomacromoleculares. Hay dos problemas prácticos importantes en la construcción de un campo de fuerza confiable con la esperanza de equilibrar la precisión química deseada y la eficiencia de trabajo. Uno es determinar un nivel adecuado de teoría de química cuántica para calcular las energías de interacción. El otro es utilizar una función de energía continua adecuada para modelar los datos de energía química cuántica. Para el primer problema, recientemente hemos calculado las energías de interacción intermolecular utilizando el nivel de teoría SAPT0, y hemos organizado sistemáticamente estas energías en los conjuntos de datos ab initio SOFG-31 (homodímero) y SOFG-31-heterodímero. En este trabajo, recalculamos estas energías de interacción utilizando el nivel de teoría SAPT2 más avanzado con una serie más amplia de conjuntos de bases. Nuestro propósito es determinar el nivel de teoría SAPT adecuado para las energías de interacción con respecto a la precisión química de referencia de CCSD(T)/CBS. Luego, para utilizar estos conjuntos de datos de energía, empleamos una de las técnicas de aprendizaje automático bien desarrolladas, llamada el esquema CLIFF, para construir un campo de fuerza de propósito general para simulaciones de dinámica biomolecular. Aquí usamos el conjunto de datos SOFG-31 y el conjunto de datos SOFG-31-heterodímero como conjuntos de entrenamiento y prueba, respectivamente. Nuestros resultados demuestran que utilizando el esquema CLIFF se pueden reproducir una amplia gama de patrones de energía de interacción dímera con solo un pequeño conjunto de entrenamiento. Los errores generales para cada componente de energía SAPT, así como la energía total de SAPT, están todos muy por debajo de la precisión química deseada de ~1 kcal/mol.