Un algoritmo agnóstico del modelo para determinación del error de Bayes en clasificación binaria
Autores: Michelucci, Umberto; Sperti, Michela; Piga, Dario; Venturini, Francesca; Deriu, Marco A.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un algoritmo agnóstico del modelo para determinación del error de Bayes en clasificación binaria
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Algoritmo
Rendimiento
AUC
Precisión
Error de Bayes
Conjunto de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Este documento presenta el algoritmo de determinación de límite intrínseco (Algoritmo ILD), una técnica novedosa para determinar el mejor rendimiento posible, medido en términos del AUC (área bajo la curva ROC) y la precisión, que se puede obtener de un conjunto de datos específico en un problema de clasificación binaria con características categóricas independientemente del modelo utilizado. Este límite, conocido como el error de Bayes, es completamente independiente de cualquier modelo utilizado y describe una propiedad intrínseca del conjunto de datos. Por lo tanto, el algoritmo ILD proporciona información importante sobre los límites de predicción de cualquier algoritmo de clasificación binaria cuando se aplica al conjunto de datos considerado. En este documento, se describe en detalle el algoritmo, se presenta todo su marco matemático y se proporciona el seudocódigo para facilitar su implementación. Finalmente, se presenta un ejemplo con un conjunto de datos reales.
Descripción
Este documento presenta el algoritmo de determinación de límite intrínseco (Algoritmo ILD), una técnica novedosa para determinar el mejor rendimiento posible, medido en términos del AUC (área bajo la curva ROC) y la precisión, que se puede obtener de un conjunto de datos específico en un problema de clasificación binaria con características categóricas independientemente del modelo utilizado. Este límite, conocido como el error de Bayes, es completamente independiente de cualquier modelo utilizado y describe una propiedad intrínseca del conjunto de datos. Por lo tanto, el algoritmo ILD proporciona información importante sobre los límites de predicción de cualquier algoritmo de clasificación binaria cuando se aplica al conjunto de datos considerado. En este documento, se describe en detalle el algoritmo, se presenta todo su marco matemático y se proporciona el seudocódigo para facilitar su implementación. Finalmente, se presenta un ejemplo con un conjunto de datos reales.