La cuantificación de la incertidumbre del rendimiento del modelo de aprendizaje automático a través de medidas de disimilitud de conjuntos de datos basadas en anomalías
Autores: Incorvaia, Gabriele; Hond, Darryl; Asgari, Hamid
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
La cuantificación de la incertidumbre del rendimiento del modelo de aprendizaje automático a través de medidas de disimilitud de conjuntos de datos basadas en anomalías
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje automático
Cuantificación de incertidumbre
Sistemas basados en datos
Precisión del modelo
Algoritmos de detección de anomalías
Red neuronal artificial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
El uso de modelos de Aprendizaje Automático (ML) como herramientas predictivas ha aumentado drásticamente en los últimos años. Sin embargo, los sistemas basados en datos (como los modelos de ML) presentan un grado de incertidumbre en sus predicciones. En otras palabras, podrían producir predicciones inesperadamente erróneas si no se tiene en cuenta la incertidumbre derivada de los datos, la elección del modelo y los parámetros del modelo. En este documento, presentamos un método novedoso para cuantificar la incertidumbre de los niveles de rendimiento alcanzados por los clasificadores de ML. En particular, investigamos y caracterizamos la incertidumbre de la precisión del modelo al clasificar datos fuera de distribución que son estadísticamente diferentes de los datos utilizados durante el entrenamiento. Un elemento clave de este novedoso método de Cuantificación de Incertidumbre (UQ) es una medida de la disimilitud entre dos conjuntos de datos. Introducimos una innovadora familia de medidas de disimilitud de datos basadas en algoritmos de detección de anomalías, a saber, las medidas de Disimilitud de Conjuntos de Datos Basadas en Anomalías (ADD). Estas medidas de disimilitud procesan representaciones de características que se derivan de los valores de activación de las redes neuronales cuando se suministran elementos del conjunto de datos. El método de UQ propuesto para el rendimiento de clasificación emplea estas medidas de disimilitud para estimar la precisión del clasificador para conjuntos de datos no vistos y fuera de distribución, y para dar un margen de incertidumbre para esas estimaciones. Se realiza un análisis numérico de la eficacia del método de UQ utilizando clasificadores estándar de Redes Neuronales Artificiales (ANN) y conjuntos de datos de dominio público. Los resultados obtenidos generalmente demuestran que la amplitud de la banda de incertidumbre asociada con los valores de precisión estimados tiende a aumentar a medida que la medida de disimilitud de datos aumenta. En general, esta investigación contribuye a la verificación y predicción del rendimiento en tiempo de ejecución de sistemas compuestos por elementos basados en ML.
Descripción
El uso de modelos de Aprendizaje Automático (ML) como herramientas predictivas ha aumentado drásticamente en los últimos años. Sin embargo, los sistemas basados en datos (como los modelos de ML) presentan un grado de incertidumbre en sus predicciones. En otras palabras, podrían producir predicciones inesperadamente erróneas si no se tiene en cuenta la incertidumbre derivada de los datos, la elección del modelo y los parámetros del modelo. En este documento, presentamos un método novedoso para cuantificar la incertidumbre de los niveles de rendimiento alcanzados por los clasificadores de ML. En particular, investigamos y caracterizamos la incertidumbre de la precisión del modelo al clasificar datos fuera de distribución que son estadísticamente diferentes de los datos utilizados durante el entrenamiento. Un elemento clave de este novedoso método de Cuantificación de Incertidumbre (UQ) es una medida de la disimilitud entre dos conjuntos de datos. Introducimos una innovadora familia de medidas de disimilitud de datos basadas en algoritmos de detección de anomalías, a saber, las medidas de Disimilitud de Conjuntos de Datos Basadas en Anomalías (ADD). Estas medidas de disimilitud procesan representaciones de características que se derivan de los valores de activación de las redes neuronales cuando se suministran elementos del conjunto de datos. El método de UQ propuesto para el rendimiento de clasificación emplea estas medidas de disimilitud para estimar la precisión del clasificador para conjuntos de datos no vistos y fuera de distribución, y para dar un margen de incertidumbre para esas estimaciones. Se realiza un análisis numérico de la eficacia del método de UQ utilizando clasificadores estándar de Redes Neuronales Artificiales (ANN) y conjuntos de datos de dominio público. Los resultados obtenidos generalmente demuestran que la amplitud de la banda de incertidumbre asociada con los valores de precisión estimados tiende a aumentar a medida que la medida de disimilitud de datos aumenta. En general, esta investigación contribuye a la verificación y predicción del rendimiento en tiempo de ejecución de sistemas compuestos por elementos basados en ML.