Análisis comparativo de técnicas de remuestreo para el desequilibrio de clases en la predicción de la angustia financiera utilizando XGBoost
Autores: Hou, Guodong; Tong, Dong Ling; Liew, Soung Yue; Choo, Peng Yin
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Análisis comparativo de técnicas de remuestreo para el desequilibrio de clases en la predicción de la angustia financiera utilizando XGBoost
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desafíos
Datos de angustia financiera
Técnicas de remuestreo
Algoritmo XGBoost
Técnica de Sobremuestreo Minoritario Sintético
SMOTE
Recall
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Uno de los desafíos clave en los datos de angustia financiera es el desequilibrio de clases, donde los datos se caracterizan por una proporción altamente desequilibrada entre el número de muestras angustiadas y no angustiadas. Este estudio examina ocho técnicas de remuestreo para mejorar la predicción de angustia utilizando el algoritmo XGBoost. El estudio se realizó en un conjunto de datos adquirido de la base de datos CSMAR, que contiene 26,383 muestras de trimestres de empresas de 639 empresas chinas cotizadas en A-shares (2007-2024), con solo el 12.1% de los casos en angustia. Los resultados muestran que la técnica estándar de Sobremuestreo Sintético de la Minoría (SMOTE) mejoró el puntaje F1 (hasta 0.73) y el Coeficiente de Correlación de Matthews (MCC, hasta 0.70), mientras que SMOTE-Tomek y Borderline-SMOTE aumentaron aún más la recuperación, sacrificando ligeramente la precisión. Estos métodos de sobremuestreo y híbridos también mantuvieron una eficiencia computacional razonable. Sin embargo, el Submuestreo Aleatorio (RUS), aunque producía una alta recuperación (0.85), sufrió de baja precisión (0.46) y generalización más débil, pero fue el método más rápido. Entre todas las técnicas, Bagging-SMOTE logró un rendimiento equilibrado (AUC 0.96, F1 0.72, PR-AUC 0.80, MCC 0.68) utilizando una proporción de minoría a mayoría de 0.15, demostrando que el remuestreo basado en conjuntos puede mejorar la robustez con un impacto mínimo en la distribución de clases original, aunque con un mayor costo computacional. Los hallazgos comparativos resaltan que no hay un enfoque único que se adapte a todos los casos de uso, y la selección de técnicas debe alinearse con objetivos específicos. Las técnicas que favorecen la recuperación (por ejemplo, Bagging-SMOTE, SMOTE-Tomek) son adecuadas para la advertencia temprana, mientras que las técnicas conservadoras (por ejemplo, Enlaces de Tomek) ayudan a reducir falsos positivos en aplicaciones sensibles al riesgo, y los métodos eficientes como RUS son preferibles cuando la velocidad computacional es una prioridad.
Descripción
Uno de los desafíos clave en los datos de angustia financiera es el desequilibrio de clases, donde los datos se caracterizan por una proporción altamente desequilibrada entre el número de muestras angustiadas y no angustiadas. Este estudio examina ocho técnicas de remuestreo para mejorar la predicción de angustia utilizando el algoritmo XGBoost. El estudio se realizó en un conjunto de datos adquirido de la base de datos CSMAR, que contiene 26,383 muestras de trimestres de empresas de 639 empresas chinas cotizadas en A-shares (2007-2024), con solo el 12.1% de los casos en angustia. Los resultados muestran que la técnica estándar de Sobremuestreo Sintético de la Minoría (SMOTE) mejoró el puntaje F1 (hasta 0.73) y el Coeficiente de Correlación de Matthews (MCC, hasta 0.70), mientras que SMOTE-Tomek y Borderline-SMOTE aumentaron aún más la recuperación, sacrificando ligeramente la precisión. Estos métodos de sobremuestreo y híbridos también mantuvieron una eficiencia computacional razonable. Sin embargo, el Submuestreo Aleatorio (RUS), aunque producía una alta recuperación (0.85), sufrió de baja precisión (0.46) y generalización más débil, pero fue el método más rápido. Entre todas las técnicas, Bagging-SMOTE logró un rendimiento equilibrado (AUC 0.96, F1 0.72, PR-AUC 0.80, MCC 0.68) utilizando una proporción de minoría a mayoría de 0.15, demostrando que el remuestreo basado en conjuntos puede mejorar la robustez con un impacto mínimo en la distribución de clases original, aunque con un mayor costo computacional. Los hallazgos comparativos resaltan que no hay un enfoque único que se adapte a todos los casos de uso, y la selección de técnicas debe alinearse con objetivos específicos. Las técnicas que favorecen la recuperación (por ejemplo, Bagging-SMOTE, SMOTE-Tomek) son adecuadas para la advertencia temprana, mientras que las técnicas conservadoras (por ejemplo, Enlaces de Tomek) ayudan a reducir falsos positivos en aplicaciones sensibles al riesgo, y los métodos eficientes como RUS son preferibles cuando la velocidad computacional es una prioridad.