logo móvil
Contáctanos

sobre el desarrollo de modelos de aprendizaje automático basados en descriptores para propiedades termodinámicas: parte 2-dominio de aplicabilidad y valores atípicos

Autores: Trinh, Cindy; Lasala, Silvia; Herbinet, Olivier; Meimaroglou, Dimitrios

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

sobre el desarrollo de modelos de aprendizaje automático basados en descriptores para propiedades termodinámicas: parte 2-dominio de aplicabilidad y valores atípicos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Aprendizaje automático
Dominio de aplicabilidad
Datos de alta dimensión
Entalpía de formación
Entropía
Moléculas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
Este artículo investiga el dominio de aplicabilidad (AD) de los modelos de aprendizaje automático (ML) entrenados en datos de alta dimensión, para la predicción de la entalpía de formación de gas ideal y la entropía de moléculas a través de descriptores. El AD es crucial ya que describe el espacio de características químicas en el cual el modelo puede hacer predicciones con una fiabilidad dada. Este trabajo estudia la definición de AD de un modelo de ML a lo largo de su procedimiento de desarrollo: durante la preprocesamiento de datos, construcción del modelo e implementación del modelo. Se comparan tres métodos de definición de AD, comúnmente utilizados para la detección de valores atípicos en problemas de alta dimensión: bosque aislado (), confianza de predicción de bosque aleatorio () y vecinos más cercanos en la proyección 2D del espacio de descriptores obtenidos a través de la incrustación de vecinos estocásticos t-distribuida (). Estos métodos calculan una puntuación de anomalía que puede ser utilizada en lugar de las métricas de distancia de los métodos de definición de AD clásicos de baja dimensión, siendo estos últimos generalmente inadecuados para problemas de alta dimensión. Típicamente, en problemas de baja (alta) dimensión, una molécula se considera que se encuentra dentro del AD si su distancia desde el dominio de entrenamiento (puntuación de anomalía) está por debajo de un umbral dado. Durante el preprocesamiento de datos, los tres métodos de definición de AD se utilizan para identificar moléculas atípicas y se investiga el efecto de su eliminación. Se observa una mejora más significativa en el rendimiento del modelo cuando se eliminan los valores atípicos identificados con (por ejemplo, para una eliminación del 30% de valores atípicos, el error absoluto medio (MAE) del conjunto de datos de prueba se divide por 2.5, 1.6 y 1.1 para , y , respectivamente). Mientras que estos tres métodos identifican valores atípicos X, también se investiga el efecto de otros tipos de valores atípicos, a saber, valores atípicos del modelo y valores atípicos de y. En particular, la eliminación de valores atípicos X seguida de la de valores atípicos del modelo nos permite dividir y (error cuadrático medio) por 2 y 3, respectivamente, mientras se reduce el sobreajuste. La eliminación de valores atípicos de y no muestra un efecto significativo en el rendimiento del modelo. Durante la construcción e implementación del modelo, el AD sirve para verificar la posición de los datos de prueba y de diferentes categorías de moléculas con respecto a los datos de entrenamiento y asociar esta posición con su precisión de predicción. Para los datos que se encuentran cerca de los datos de entrenamiento, según , y muestran altos errores de predicción, se implementan representaciones 2D de tSNE para identificar las posibles fuentes de estos errores (por ejemplo, representación de la información química en los datos de entrenamiento).

Otros recursos que podrían interesarte

Temas Virtualpro