Efecto de los tipos de datos faltantes y los métodos de imputación en los clasificadores supervisados: un estudio de evaluación

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Efecto de los tipos de datos faltantes y los métodos de imputación en los clasificadores supervisados: un estudio de evaluación

Autores: Gabr, Menna Ibrahim; Helmy, Yehia Mostafa; Elzanfaly, Doaa Saad

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Efecto de los tipos de datos faltantes y los métodos de imputación en los clasificadores supervisados: un estudio de evaluación

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Completitud de datos

Valores faltantes

Modelos de clasificación

Conjuntos de datos

Rendimiento

Sensibilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

La completitud de los datos es uno de los desafíos más comunes que obstaculizan el rendimiento de las plataformas de análisis de datos. Diferentes estudios han evaluado el efecto de los valores faltantes en diferentes modelos de clasificación basados en una única métrica de evaluación, es decir, la precisión. Sin embargo, la precisión por sí sola es una medida engañosa del rendimiento del clasificador porque no considera conjuntos de datos desbalanceados. Este documento presenta un estudio experimental que evalúa el efecto de conjuntos de datos incompletos en el rendimiento de cinco modelos de clasificación. El análisis se realizó con diferentes proporciones de valores faltantes en seis conjuntos de datos que varían en tamaño, tipo y balance. Además, para un análisis imparcial, el rendimiento de los clasificadores se midió utilizando tres métricas diferentes, a saber, el coeficiente de correlación de Matthews (MCC), la puntuación F1 y la precisión. Los resultados muestran que la sensibilidad de los clasificadores supervisados ante datos faltantes difiere según un conjunto de factores. El factor más significativo es el patrón y la proporción de datos faltantes, seguido por el método de imputación, y luego el tipo, tamaño y balance del conjunto de datos. La sensibilidad de los clasificadores cuando faltan datos debido al patrón de Faltante Completamente al Azar (MCAR) es menor que su sensibilidad cuando faltan datos debido al patrón de Faltante No al Azar (MNAR). Además, el uso del MCC como medida de evaluación refleja mejor la variación en la sensibilidad de los clasificadores ante los datos faltantes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro