Redes Neuronales Gráficas para Energía Sostenible: Predicción de Adsorción en Moléculas Aromáticas
Autores: Parashkooh, Hasan Imani; Jian, Cuiying
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Redes Neuronales Gráficas para Energía Sostenible: Predicción de Adsorción en Moléculas Aromáticas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Química
Palabras clave
Energías de adsorción
EGNNs
Conjuntos de datos generados por DFT
Compuestos aromáticos
Modelos preentrenados
Entrenamiento específico del dominio.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La creciente necesidad de un cribado rápido de las energías de adsorción en materiales orgánicos ha impulsado un progreso sustancial en el desarrollo de diversas arquitecturas de redes neuronales gráficas equivalentes (eGNN). Este avance ha sido en gran medida posible gracias a la disponibilidad de extensos conjuntos de datos generados por la Teoría del Funcional de Densidad (DFT), lo suficientemente grandes como para entrenar modelos eGNN complejos de manera efectiva. Sin embargo, ciertos grupos de materiales con una relevancia industrial significativa, como los compuestos aromáticos, siguen estando subrepresentados en estos grandes conjuntos de datos. En este trabajo, nuestro objetivo es cerrar la brecha entre los conjuntos de datos DFT limitados y específicos del dominio y los eGNN preentrenados a gran escala. Nuestra metodología implica crear un conjunto de datos especializado segregando compuestos aromáticos después de un proceso de extracción de conjunto dirigido, y luego ajustar un modelo preentrenado a través de enfoques que incluyen el reentrenamiento completo y el congelamiento sistemático de secciones específicas de la red. Demostramos que estos enfoques pueden generar predicciones precisas de energía y fuerza con datos de entrenamiento específicos del dominio y computación mínimos. Además, investigamos los efectos de aumentar los conjuntos de datos de entrenamiento con grupos químicamente relacionados pero fuera del dominio. Nuestros hallazgos indican que incorporar datos suplementarios que se asemejen estrechamente al dominio objetivo, incluso si son aproximados, mejoraría el rendimiento del modelo en tareas específicas del dominio. Además, congelamos sistemáticamente diferentes secciones de los modelos preentrenados para elucidar el papel que juega cada componente durante la adaptación a nuevos dominios, revelando que reaprender representaciones de bajo nivel es crítico para una transferencia de dominio efectiva. En general, este estudio contribuye con valiosos conocimientos y pautas prácticas para adaptar de manera eficiente modelos de aprendizaje profundo para predicciones precisas de energía de adsorción, reduciendo significativamente la dependencia de extensos conjuntos de datos de entrenamiento.
Descripción
La creciente necesidad de un cribado rápido de las energías de adsorción en materiales orgánicos ha impulsado un progreso sustancial en el desarrollo de diversas arquitecturas de redes neuronales gráficas equivalentes (eGNN). Este avance ha sido en gran medida posible gracias a la disponibilidad de extensos conjuntos de datos generados por la Teoría del Funcional de Densidad (DFT), lo suficientemente grandes como para entrenar modelos eGNN complejos de manera efectiva. Sin embargo, ciertos grupos de materiales con una relevancia industrial significativa, como los compuestos aromáticos, siguen estando subrepresentados en estos grandes conjuntos de datos. En este trabajo, nuestro objetivo es cerrar la brecha entre los conjuntos de datos DFT limitados y específicos del dominio y los eGNN preentrenados a gran escala. Nuestra metodología implica crear un conjunto de datos especializado segregando compuestos aromáticos después de un proceso de extracción de conjunto dirigido, y luego ajustar un modelo preentrenado a través de enfoques que incluyen el reentrenamiento completo y el congelamiento sistemático de secciones específicas de la red. Demostramos que estos enfoques pueden generar predicciones precisas de energía y fuerza con datos de entrenamiento específicos del dominio y computación mínimos. Además, investigamos los efectos de aumentar los conjuntos de datos de entrenamiento con grupos químicamente relacionados pero fuera del dominio. Nuestros hallazgos indican que incorporar datos suplementarios que se asemejen estrechamente al dominio objetivo, incluso si son aproximados, mejoraría el rendimiento del modelo en tareas específicas del dominio. Además, congelamos sistemáticamente diferentes secciones de los modelos preentrenados para elucidar el papel que juega cada componente durante la adaptación a nuevos dominios, revelando que reaprender representaciones de bajo nivel es crítico para una transferencia de dominio efectiva. En general, este estudio contribuye con valiosos conocimientos y pautas prácticas para adaptar de manera eficiente modelos de aprendizaje profundo para predicciones precisas de energía de adsorción, reduciendo significativamente la dependencia de extensos conjuntos de datos de entrenamiento.