Un Modelo Predictivo Híbrido para la Rotación de Empleados: Integrando Aprendizaje Ensemblado y Perspectivas Impulsadas por Características de IBM HR Analytics
Autores: Alyousef, Muna I.; Khan, Hamza Wazir; Sattar, Mian Usman
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Un Modelo Predictivo Híbrido para la Rotación de Empleados: Integrando Aprendizaje Ensemblado y Perspectivas Impulsadas por Características de IBM HR Analytics
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Rotación de empleados
Aprendizaje automático
Análisis de recursos humanos
Modelo predictivo
Desequilibrio de clases
Muestreo híbrido
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La rotación de empleados presenta un desafío significativo para las organizaciones modernas, a menudo resultando en interrupciones operativas, costos de contratación sustanciales y una pérdida de conocimiento institucional. Mientras que las prácticas tradicionales de recursos humanos han sido históricamente reactivas, la aparición del aprendizaje automático ha introducido una capacidad proactiva para anticipar y mitigar la rotación antes de que ocurra. Esta investigación utiliza el conjunto de datos de IBM HR Analytics, que contiene 1470 registros de empleados y 35 características distintas, para desarrollar un modelo híbrido de aprendizaje automático diseñado para mejorar la precisión de las predicciones de rotación. Para asegurar la efectividad del modelo, los investigadores emplearon una fase de preprocesamiento integral que incluyó la eliminación de características no informativas, la aplicación de codificación de etiquetas a datos categóricos y el uso de StandardScaler para normalizar valores cuantitativos. Un componente crítico del estudio abordó el problema común del desequilibrio de clases dentro de los datos de recursos humanos. Para resolver esto, se implementó una estrategia de muestreo híbrido, combinando la Técnica de Sobremuestreo de Minorías Sintéticas (SMOTE) y el Muestreo Sintético Adaptativo (ADASYN) para crear un entorno de aprendizaje más equilibrado para los algoritmos. El núcleo del motor predictivo es un ensamblaje de votación suave que integra tres poderosos algoritmos: Random Forest, XGBoost y regresión logística. Evaluado en una división de entrenamiento-prueba del 80/20, el modelo XGBoost ajustado logró una impresionante precisión del 84% y un Área Bajo la Curva (AUC) de 0.80. Mientras tanto, el componente de regresión logística contribuyó con la puntuación F1 más alta, reforzando la fuerza y el equilibrio general del enfoque de ensamblaje. Estas métricas confirman que el modelo híbrido es tanto robusto como confiable para identificar empleados en riesgo. Más allá de la simple predicción, el estudio priorizó la interpretabilidad utilizando Explicaciones Aditivas de SHapley (SHAP) para identificar los principales factores que influyen en la rotación. El análisis reveló que las variables más significativas que influyen en la decisión de un empleado de dejar la empresa incluyen la interacción entre el nivel del trabajo y la experiencia, el tiempo extra frecuente, el ingreso mensual, el nivel actual del trabajo y los años totales pasados en la empresa. Al proporcionar estas ideas basadas en datos, el modelo empodera a los equipos de recursos humanos para pasar de la solución reactiva de problemas a la planificación proactiva de retención, asegurando en última instancia el talento y la estabilidad de la organización.
Descripción
La rotación de empleados presenta un desafío significativo para las organizaciones modernas, a menudo resultando en interrupciones operativas, costos de contratación sustanciales y una pérdida de conocimiento institucional. Mientras que las prácticas tradicionales de recursos humanos han sido históricamente reactivas, la aparición del aprendizaje automático ha introducido una capacidad proactiva para anticipar y mitigar la rotación antes de que ocurra. Esta investigación utiliza el conjunto de datos de IBM HR Analytics, que contiene 1470 registros de empleados y 35 características distintas, para desarrollar un modelo híbrido de aprendizaje automático diseñado para mejorar la precisión de las predicciones de rotación. Para asegurar la efectividad del modelo, los investigadores emplearon una fase de preprocesamiento integral que incluyó la eliminación de características no informativas, la aplicación de codificación de etiquetas a datos categóricos y el uso de StandardScaler para normalizar valores cuantitativos. Un componente crítico del estudio abordó el problema común del desequilibrio de clases dentro de los datos de recursos humanos. Para resolver esto, se implementó una estrategia de muestreo híbrido, combinando la Técnica de Sobremuestreo de Minorías Sintéticas (SMOTE) y el Muestreo Sintético Adaptativo (ADASYN) para crear un entorno de aprendizaje más equilibrado para los algoritmos. El núcleo del motor predictivo es un ensamblaje de votación suave que integra tres poderosos algoritmos: Random Forest, XGBoost y regresión logística. Evaluado en una división de entrenamiento-prueba del 80/20, el modelo XGBoost ajustado logró una impresionante precisión del 84% y un Área Bajo la Curva (AUC) de 0.80. Mientras tanto, el componente de regresión logística contribuyó con la puntuación F1 más alta, reforzando la fuerza y el equilibrio general del enfoque de ensamblaje. Estas métricas confirman que el modelo híbrido es tanto robusto como confiable para identificar empleados en riesgo. Más allá de la simple predicción, el estudio priorizó la interpretabilidad utilizando Explicaciones Aditivas de SHapley (SHAP) para identificar los principales factores que influyen en la rotación. El análisis reveló que las variables más significativas que influyen en la decisión de un empleado de dejar la empresa incluyen la interacción entre el nivel del trabajo y la experiencia, el tiempo extra frecuente, el ingreso mensual, el nivel actual del trabajo y los años totales pasados en la empresa. Al proporcionar estas ideas basadas en datos, el modelo empodera a los equipos de recursos humanos para pasar de la solución reactiva de problemas a la planificación proactiva de retención, asegurando en última instancia el talento y la estabilidad de la organización.