logo móvil
Contáctanos

Enfoque de Aprendizaje Automático para la Estimación de la Constante de la Ley de Henry Basado en Descriptores Moleculares

Autores: Ullah, Atta; Shaheryar, Muhammad; Lim, Ho-Jin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Enfoque de Aprendizaje Automático para la Estimación de la Constante de la Ley de Henry Basado en Descriptores Moleculares


Categoría

Ciencias Naturales y Subdisciplinas

Subcategoría

Astronomía

Palabras clave

Constante de la ley de Henry
Compuestos orgánicos
Relación cuantitativa estructura-propiedad
Modelo de aprendizaje automático
Datos experimentales
Descriptores moleculares

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 6

Citaciones: Sin citaciones


Descripción
En la química atmosférica, la constante de la ley de Henry (HLC) es crucial para entender la distribución de compuestos orgánicos a través de fases gaseosas, partículas y acuosas. Los modelos de relación estructura-propiedad cuantitativa (QSPR) descritos en la investigación científica generalmente están adaptados a grupos o categorías específicas de sustancias y a menudo se desarrollan utilizando un conjunto limitado de datos experimentales. Este estudio desarrolló un modelo de aprendizaje automático utilizando un extenso conjunto de datos de HLC experimentales para aproximadamente 1100 compuestos orgánicos. Se utilizaron descriptores moleculares calculados con el software alvaDesc (v 2.0) para entrenar los modelos. Se adoptó un enfoque híbrido para la selección de características, asegurando la alineación con el conocimiento del dominio. Basado en el error cuadrático medio (RMSE) de los datos de entrenamiento y prueba después de la validación cruzada, se seleccionó el Gradient Boosting (GB) como modelo para predecir el HLC. Los hiperparámetros del modelo seleccionado se optimizaron utilizando el marco de optimización automática de hiperparámetros Optuna. El impacto de las características en la variable objetivo se evaluó utilizando las Explicaciones Aditivas de SHapley (SHAP). El modelo optimizado demostró un fuerte rendimiento en los conjuntos de datos de entrenamiento, evaluación y prueba, logrando coeficientes de determinación (R) de 0.96, 0.78 y 0.74, respectivamente. El modelo desarrollado se utilizó para estimar el HLC de compuestos asociados con las emisiones de captura y almacenamiento de carbono (CCS) y aerosoles orgánicos secundarios.

Otros recursos que podrían interesarte

Temas Virtualpro