logo móvil
Contáctanos

Evaluación sin filtraciones para la predicción de la deserción de empleados en datos tabulares

Autores: Cvescu, Ana Maria; Popescu, Alina Nirvana

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Evaluación sin filtraciones para la predicción de la deserción de empleados en datos tabulares


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Deserción
Predicción
Datos desbalanceados
Protocolo de evaluación
SMOTE
Validación cruzada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En el contexto de la predicción de la deserción de empleados utilizando datos tabulares desbalanceados, proponemos un protocolo de evaluación reproducible y consciente de la fuga, y lo validamos en el conjunto de datos de deserción de IBM HR. Realizamos la división de entrenamiento/prueba antes de cualquier reequilibrio; SMOTE (Técnica de Sobremuestreo de Minorías Sintéticas) se aplica exclusivamente dentro de la porción de entrenamiento de cada pliegue en una validación cruzada estratificada de 5 pliegues, mientras que el conjunto de prueba permanece intacto. La codificación One-Hot se realiza de manera consistente utilizando pd.get_dummies. Comparamos la Regresión Logística, Random Forest, ExtraTrees, LightGBM y XGBoost utilizando métricas conscientes del desbalance: F1 para la clase minoritaria, PR-AUC reportado como Precisión Promedio (AP) y ROC-AUC reportado tanto en validación cruzada como en el conjunto de prueba reservado. XGBoost alcanza el mejor AP promedio en validación cruzada (0.556 +/- 0.056). La Regresión Logística logra el F1 promedio más alto (0.439 +/- 0.048), mientras que LightGBM produce el mejor ROC-AUC promedio (0.791 +/- 0.026). En el conjunto de prueba, XGBoost alcanza un valor de precisión de 0.65 y un valor de recall de 0.45 en un umbral fijo de 0.5. En general, los resultados destacan una compensación entre la detección estable de la clase minoritaria (Regresión Logística) y un mejor rendimiento en el ranking de riesgo (modelos de boosting) bajo desbalance de clases.

Otros recursos que podrían interesarte

Temas Virtualpro