sobre el desarrollo de modelos de aprendizaje automático basados en descriptores para propiedades termodinámicas: parte 2-dominio de aplicabilidad y valores atípicos
Autores: Trinh, Cindy; Lasala, Silvia; Herbinet, Olivier; Meimaroglou, Dimitrios
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
sobre el desarrollo de modelos de aprendizaje automático basados en descriptores para propiedades termodinámicas: parte 2-dominio de aplicabilidad y valores atípicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Aprendizaje automático
Dominio de aplicabilidad
Datos de alta dimensión
Entalpía de formación
Entropía
Moléculas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Este artículo investiga el dominio de aplicabilidad (AD) de los modelos de aprendizaje automático (ML) entrenados en datos de alta dimensión, para la predicción de la entalpía de formación de gas ideal y la entropía de moléculas a través de descriptores. El AD es crucial ya que describe el espacio de características químicas en el cual el modelo puede hacer predicciones con una fiabilidad dada. Este trabajo estudia la definición de AD de un modelo de ML a lo largo de su procedimiento de desarrollo: durante la preprocesamiento de datos, construcción del modelo e implementación del modelo. Se comparan tres métodos de definición de AD, comúnmente utilizados para la detección de valores atípicos en problemas de alta dimensión: bosque aislado (), confianza de predicción de bosque aleatorio () y vecinos más cercanos en la proyección 2D del espacio de descriptores obtenidos a través de la incrustación de vecinos estocásticos t-distribuida (). Estos métodos calculan una puntuación de anomalía que puede ser utilizada en lugar de las métricas de distancia de los métodos de definición de AD clásicos de baja dimensión, siendo estos últimos generalmente inadecuados para problemas de alta dimensión. Típicamente, en problemas de baja (alta) dimensión, una molécula se considera que se encuentra dentro del AD si su distancia desde el dominio de entrenamiento (puntuación de anomalía) está por debajo de un umbral dado. Durante el preprocesamiento de datos, los tres métodos de definición de AD se utilizan para identificar moléculas atípicas y se investiga el efecto de su eliminación. Se observa una mejora más significativa en el rendimiento del modelo cuando se eliminan los valores atípicos identificados con (por ejemplo, para una eliminación del 30% de valores atípicos, el error absoluto medio (MAE) del conjunto de datos de prueba se divide por 2.5, 1.6 y 1.1 para , y , respectivamente). Mientras que estos tres métodos identifican valores atípicos X, también se investiga el efecto de otros tipos de valores atípicos, a saber, valores atípicos del modelo y valores atípicos de y. En particular, la eliminación de valores atípicos X seguida de la de valores atípicos del modelo nos permite dividir y (error cuadrático medio) por 2 y 3, respectivamente, mientras se reduce el sobreajuste. La eliminación de valores atípicos de y no muestra un efecto significativo en el rendimiento del modelo. Durante la construcción e implementación del modelo, el AD sirve para verificar la posición de los datos de prueba y de diferentes categorías de moléculas con respecto a los datos de entrenamiento y asociar esta posición con su precisión de predicción. Para los datos que se encuentran cerca de los datos de entrenamiento, según , y muestran altos errores de predicción, se implementan representaciones 2D de tSNE para identificar las posibles fuentes de estos errores (por ejemplo, representación de la información química en los datos de entrenamiento).
Descripción
Este artículo investiga el dominio de aplicabilidad (AD) de los modelos de aprendizaje automático (ML) entrenados en datos de alta dimensión, para la predicción de la entalpía de formación de gas ideal y la entropía de moléculas a través de descriptores. El AD es crucial ya que describe el espacio de características químicas en el cual el modelo puede hacer predicciones con una fiabilidad dada. Este trabajo estudia la definición de AD de un modelo de ML a lo largo de su procedimiento de desarrollo: durante la preprocesamiento de datos, construcción del modelo e implementación del modelo. Se comparan tres métodos de definición de AD, comúnmente utilizados para la detección de valores atípicos en problemas de alta dimensión: bosque aislado (), confianza de predicción de bosque aleatorio () y vecinos más cercanos en la proyección 2D del espacio de descriptores obtenidos a través de la incrustación de vecinos estocásticos t-distribuida (). Estos métodos calculan una puntuación de anomalía que puede ser utilizada en lugar de las métricas de distancia de los métodos de definición de AD clásicos de baja dimensión, siendo estos últimos generalmente inadecuados para problemas de alta dimensión. Típicamente, en problemas de baja (alta) dimensión, una molécula se considera que se encuentra dentro del AD si su distancia desde el dominio de entrenamiento (puntuación de anomalía) está por debajo de un umbral dado. Durante el preprocesamiento de datos, los tres métodos de definición de AD se utilizan para identificar moléculas atípicas y se investiga el efecto de su eliminación. Se observa una mejora más significativa en el rendimiento del modelo cuando se eliminan los valores atípicos identificados con (por ejemplo, para una eliminación del 30% de valores atípicos, el error absoluto medio (MAE) del conjunto de datos de prueba se divide por 2.5, 1.6 y 1.1 para , y , respectivamente). Mientras que estos tres métodos identifican valores atípicos X, también se investiga el efecto de otros tipos de valores atípicos, a saber, valores atípicos del modelo y valores atípicos de y. En particular, la eliminación de valores atípicos X seguida de la de valores atípicos del modelo nos permite dividir y (error cuadrático medio) por 2 y 3, respectivamente, mientras se reduce el sobreajuste. La eliminación de valores atípicos de y no muestra un efecto significativo en el rendimiento del modelo. Durante la construcción e implementación del modelo, el AD sirve para verificar la posición de los datos de prueba y de diferentes categorías de moléculas con respecto a los datos de entrenamiento y asociar esta posición con su precisión de predicción. Para los datos que se encuentran cerca de los datos de entrenamiento, según , y muestran altos errores de predicción, se implementan representaciones 2D de tSNE para identificar las posibles fuentes de estos errores (por ejemplo, representación de la información química en los datos de entrenamiento).