Evaluación sin filtraciones para la predicción de la deserción de empleados en datos tabulares

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluación sin filtraciones para la predicción de la deserción de empleados en datos tabulares

Autores: Cvescu, Ana Maria; Popescu, Alina Nirvana

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Evaluación sin filtraciones para la predicción de la deserción de empleados en datos tabulares

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Deserción

Predicción

Datos desbalanceados

Protocolo de evaluación

SMOTE

Validación cruzada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En el contexto de la predicción de la deserción de empleados utilizando datos tabulares desbalanceados, proponemos un protocolo de evaluación reproducible y consciente de la fuga, y lo validamos en el conjunto de datos de deserción de IBM HR. Realizamos la división de entrenamiento/prueba antes de cualquier reequilibrio; SMOTE (Técnica de Sobremuestreo de Minorías Sintéticas) se aplica exclusivamente dentro de la porción de entrenamiento de cada pliegue en una validación cruzada estratificada de 5 pliegues, mientras que el conjunto de prueba permanece intacto. La codificación One-Hot se realiza de manera consistente utilizando pd.get_dummies. Comparamos la Regresión Logística, Random Forest, ExtraTrees, LightGBM y XGBoost utilizando métricas conscientes del desbalance: F1 para la clase minoritaria, PR-AUC reportado como Precisión Promedio (AP) y ROC-AUC reportado tanto en validación cruzada como en el conjunto de prueba reservado. XGBoost alcanza el mejor AP promedio en validación cruzada (0.556 +/- 0.056). La Regresión Logística logra el F1 promedio más alto (0.439 +/- 0.048), mientras que LightGBM produce el mejor ROC-AUC promedio (0.791 +/- 0.026). En el conjunto de prueba, XGBoost alcanza un valor de precisión de 0.65 y un valor de recall de 0.45 en un umbral fijo de 0.5. En general, los resultados destacan una compensación entre la detección estable de la clase minoritaria (Regresión Logística) y un mejor rendimiento en el ranking de riesgo (modelos de boosting) bajo desbalance de clases.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro