Efecto de los tipos de datos faltantes y los métodos de imputación en los clasificadores supervisados: un estudio de evaluación
Autores: Gabr, Menna Ibrahim; Helmy, Yehia Mostafa; Elzanfaly, Doaa Saad
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Efecto de los tipos de datos faltantes y los métodos de imputación en los clasificadores supervisados: un estudio de evaluación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Completitud de datos
Valores faltantes
Modelos de clasificación
Conjuntos de datos
Rendimiento
Sensibilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
La completitud de los datos es uno de los desafíos más comunes que obstaculizan el rendimiento de las plataformas de análisis de datos. Diferentes estudios han evaluado el efecto de los valores faltantes en diferentes modelos de clasificación basados en una única métrica de evaluación, es decir, la precisión. Sin embargo, la precisión por sí sola es una medida engañosa del rendimiento del clasificador porque no considera conjuntos de datos desbalanceados. Este documento presenta un estudio experimental que evalúa el efecto de conjuntos de datos incompletos en el rendimiento de cinco modelos de clasificación. El análisis se realizó con diferentes proporciones de valores faltantes en seis conjuntos de datos que varían en tamaño, tipo y balance. Además, para un análisis imparcial, el rendimiento de los clasificadores se midió utilizando tres métricas diferentes, a saber, el coeficiente de correlación de Matthews (MCC), la puntuación F1 y la precisión. Los resultados muestran que la sensibilidad de los clasificadores supervisados ante datos faltantes difiere según un conjunto de factores. El factor más significativo es el patrón y la proporción de datos faltantes, seguido por el método de imputación, y luego el tipo, tamaño y balance del conjunto de datos. La sensibilidad de los clasificadores cuando faltan datos debido al patrón de Faltante Completamente al Azar (MCAR) es menor que su sensibilidad cuando faltan datos debido al patrón de Faltante No al Azar (MNAR). Además, el uso del MCC como medida de evaluación refleja mejor la variación en la sensibilidad de los clasificadores ante los datos faltantes.
Descripción
La completitud de los datos es uno de los desafíos más comunes que obstaculizan el rendimiento de las plataformas de análisis de datos. Diferentes estudios han evaluado el efecto de los valores faltantes en diferentes modelos de clasificación basados en una única métrica de evaluación, es decir, la precisión. Sin embargo, la precisión por sí sola es una medida engañosa del rendimiento del clasificador porque no considera conjuntos de datos desbalanceados. Este documento presenta un estudio experimental que evalúa el efecto de conjuntos de datos incompletos en el rendimiento de cinco modelos de clasificación. El análisis se realizó con diferentes proporciones de valores faltantes en seis conjuntos de datos que varían en tamaño, tipo y balance. Además, para un análisis imparcial, el rendimiento de los clasificadores se midió utilizando tres métricas diferentes, a saber, el coeficiente de correlación de Matthews (MCC), la puntuación F1 y la precisión. Los resultados muestran que la sensibilidad de los clasificadores supervisados ante datos faltantes difiere según un conjunto de factores. El factor más significativo es el patrón y la proporción de datos faltantes, seguido por el método de imputación, y luego el tipo, tamaño y balance del conjunto de datos. La sensibilidad de los clasificadores cuando faltan datos debido al patrón de Faltante Completamente al Azar (MCAR) es menor que su sensibilidad cuando faltan datos debido al patrón de Faltante No al Azar (MNAR). Además, el uso del MCC como medida de evaluación refleja mejor la variación en la sensibilidad de los clasificadores ante los datos faltantes.