logo móvil
Contáctanos

Efecto de los tipos de datos faltantes y los métodos de imputación en los clasificadores supervisados: un estudio de evaluación

Autores: Gabr, Menna Ibrahim; Helmy, Yehia Mostafa; Elzanfaly, Doaa Saad

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Efecto de los tipos de datos faltantes y los métodos de imputación en los clasificadores supervisados: un estudio de evaluación


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Completitud de datos
Valores faltantes
Modelos de clasificación
Conjuntos de datos
Rendimiento
Sensibilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
La completitud de los datos es uno de los desafíos más comunes que obstaculizan el rendimiento de las plataformas de análisis de datos. Diferentes estudios han evaluado el efecto de los valores faltantes en diferentes modelos de clasificación basados en una única métrica de evaluación, es decir, la precisión. Sin embargo, la precisión por sí sola es una medida engañosa del rendimiento del clasificador porque no considera conjuntos de datos desbalanceados. Este documento presenta un estudio experimental que evalúa el efecto de conjuntos de datos incompletos en el rendimiento de cinco modelos de clasificación. El análisis se realizó con diferentes proporciones de valores faltantes en seis conjuntos de datos que varían en tamaño, tipo y balance. Además, para un análisis imparcial, el rendimiento de los clasificadores se midió utilizando tres métricas diferentes, a saber, el coeficiente de correlación de Matthews (MCC), la puntuación F1 y la precisión. Los resultados muestran que la sensibilidad de los clasificadores supervisados ante datos faltantes difiere según un conjunto de factores. El factor más significativo es el patrón y la proporción de datos faltantes, seguido por el método de imputación, y luego el tipo, tamaño y balance del conjunto de datos. La sensibilidad de los clasificadores cuando faltan datos debido al patrón de Faltante Completamente al Azar (MCAR) es menor que su sensibilidad cuando faltan datos debido al patrón de Faltante No al Azar (MNAR). Además, el uso del MCC como medida de evaluación refleja mejor la variación en la sensibilidad de los clasificadores ante los datos faltantes.

Otros recursos que podrían interesarte

Temas Virtualpro