Evaluación sin filtraciones para la predicción de la deserción de empleados en datos tabulares
Autores: Cvescu, Ana Maria; Popescu, Alina Nirvana
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Evaluación sin filtraciones para la predicción de la deserción de empleados en datos tabulares
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Deserción
Predicción
Datos desbalanceados
Protocolo de evaluación
SMOTE
Validación cruzada
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En el contexto de la predicción de la deserción de empleados utilizando datos tabulares desbalanceados, proponemos un protocolo de evaluación reproducible y consciente de la fuga, y lo validamos en el conjunto de datos de deserción de IBM HR. Realizamos la división de entrenamiento/prueba antes de cualquier reequilibrio; SMOTE (Técnica de Sobremuestreo de Minorías Sintéticas) se aplica exclusivamente dentro de la porción de entrenamiento de cada pliegue en una validación cruzada estratificada de 5 pliegues, mientras que el conjunto de prueba permanece intacto. La codificación One-Hot se realiza de manera consistente utilizando pd.get_dummies. Comparamos la Regresión Logística, Random Forest, ExtraTrees, LightGBM y XGBoost utilizando métricas conscientes del desbalance: F1 para la clase minoritaria, PR-AUC reportado como Precisión Promedio (AP) y ROC-AUC reportado tanto en validación cruzada como en el conjunto de prueba reservado. XGBoost alcanza el mejor AP promedio en validación cruzada (0.556 +/- 0.056). La Regresión Logística logra el F1 promedio más alto (0.439 +/- 0.048), mientras que LightGBM produce el mejor ROC-AUC promedio (0.791 +/- 0.026). En el conjunto de prueba, XGBoost alcanza un valor de precisión de 0.65 y un valor de recall de 0.45 en un umbral fijo de 0.5. En general, los resultados destacan una compensación entre la detección estable de la clase minoritaria (Regresión Logística) y un mejor rendimiento en el ranking de riesgo (modelos de boosting) bajo desbalance de clases.
Descripción
En el contexto de la predicción de la deserción de empleados utilizando datos tabulares desbalanceados, proponemos un protocolo de evaluación reproducible y consciente de la fuga, y lo validamos en el conjunto de datos de deserción de IBM HR. Realizamos la división de entrenamiento/prueba antes de cualquier reequilibrio; SMOTE (Técnica de Sobremuestreo de Minorías Sintéticas) se aplica exclusivamente dentro de la porción de entrenamiento de cada pliegue en una validación cruzada estratificada de 5 pliegues, mientras que el conjunto de prueba permanece intacto. La codificación One-Hot se realiza de manera consistente utilizando pd.get_dummies. Comparamos la Regresión Logística, Random Forest, ExtraTrees, LightGBM y XGBoost utilizando métricas conscientes del desbalance: F1 para la clase minoritaria, PR-AUC reportado como Precisión Promedio (AP) y ROC-AUC reportado tanto en validación cruzada como en el conjunto de prueba reservado. XGBoost alcanza el mejor AP promedio en validación cruzada (0.556 +/- 0.056). La Regresión Logística logra el F1 promedio más alto (0.439 +/- 0.048), mientras que LightGBM produce el mejor ROC-AUC promedio (0.791 +/- 0.026). En el conjunto de prueba, XGBoost alcanza un valor de precisión de 0.65 y un valor de recall de 0.45 en un umbral fijo de 0.5. En general, los resultados destacan una compensación entre la detección estable de la clase minoritaria (Regresión Logística) y un mejor rendimiento en el ranking de riesgo (modelos de boosting) bajo desbalance de clases.