logo móvil
Contáctanos

La cuantificación de la incertidumbre del rendimiento del modelo de aprendizaje automático a través de medidas de disimilitud de conjuntos de datos basadas en anomalías

Autores: Incorvaia, Gabriele; Hond, Darryl; Asgari, Hamid

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

La cuantificación de la incertidumbre del rendimiento del modelo de aprendizaje automático a través de medidas de disimilitud de conjuntos de datos basadas en anomalías


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje automático
Cuantificación de incertidumbre
Sistemas basados en datos
Precisión del modelo
Algoritmos de detección de anomalías
Red neuronal artificial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 49

Citaciones: Sin citaciones


Descripción
El uso de modelos de Aprendizaje Automático (ML) como herramientas predictivas ha aumentado drásticamente en los últimos años. Sin embargo, los sistemas basados en datos (como los modelos de ML) presentan un grado de incertidumbre en sus predicciones. En otras palabras, podrían producir predicciones inesperadamente erróneas si no se tiene en cuenta la incertidumbre derivada de los datos, la elección del modelo y los parámetros del modelo. En este documento, presentamos un método novedoso para cuantificar la incertidumbre de los niveles de rendimiento alcanzados por los clasificadores de ML. En particular, investigamos y caracterizamos la incertidumbre de la precisión del modelo al clasificar datos fuera de distribución que son estadísticamente diferentes de los datos utilizados durante el entrenamiento. Un elemento clave de este novedoso método de Cuantificación de Incertidumbre (UQ) es una medida de la disimilitud entre dos conjuntos de datos. Introducimos una innovadora familia de medidas de disimilitud de datos basadas en algoritmos de detección de anomalías, a saber, las medidas de Disimilitud de Conjuntos de Datos Basadas en Anomalías (ADD). Estas medidas de disimilitud procesan representaciones de características que se derivan de los valores de activación de las redes neuronales cuando se suministran elementos del conjunto de datos. El método de UQ propuesto para el rendimiento de clasificación emplea estas medidas de disimilitud para estimar la precisión del clasificador para conjuntos de datos no vistos y fuera de distribución, y para dar un margen de incertidumbre para esas estimaciones. Se realiza un análisis numérico de la eficacia del método de UQ utilizando clasificadores estándar de Redes Neuronales Artificiales (ANN) y conjuntos de datos de dominio público. Los resultados obtenidos generalmente demuestran que la amplitud de la banda de incertidumbre asociada con los valores de precisión estimados tiende a aumentar a medida que la medida de disimilitud de datos aumenta. En general, esta investigación contribuye a la verificación y predicción del rendimiento en tiempo de ejecución de sistemas compuestos por elementos basados en ML.

Otros recursos que podrían interesarte

Temas Virtualpro