logo móvil
Contáctanos

Análisis comparativo de técnicas de remuestreo para el desequilibrio de clases en la predicción de la angustia financiera utilizando XGBoost

Autores: Hou, Guodong; Tong, Dong Ling; Liew, Soung Yue; Choo, Peng Yin

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Análisis comparativo de técnicas de remuestreo para el desequilibrio de clases en la predicción de la angustia financiera utilizando XGBoost


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desafíos
Datos de angustia financiera
Técnicas de remuestreo
Algoritmo XGBoost
Técnica de Sobremuestreo Minoritario Sintético
SMOTE
Recall

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
Uno de los desafíos clave en los datos de angustia financiera es el desequilibrio de clases, donde los datos se caracterizan por una proporción altamente desequilibrada entre el número de muestras angustiadas y no angustiadas. Este estudio examina ocho técnicas de remuestreo para mejorar la predicción de angustia utilizando el algoritmo XGBoost. El estudio se realizó en un conjunto de datos adquirido de la base de datos CSMAR, que contiene 26,383 muestras de trimestres de empresas de 639 empresas chinas cotizadas en A-shares (2007-2024), con solo el 12.1% de los casos en angustia. Los resultados muestran que la técnica estándar de Sobremuestreo Sintético de la Minoría (SMOTE) mejoró el puntaje F1 (hasta 0.73) y el Coeficiente de Correlación de Matthews (MCC, hasta 0.70), mientras que SMOTE-Tomek y Borderline-SMOTE aumentaron aún más la recuperación, sacrificando ligeramente la precisión. Estos métodos de sobremuestreo y híbridos también mantuvieron una eficiencia computacional razonable. Sin embargo, el Submuestreo Aleatorio (RUS), aunque producía una alta recuperación (0.85), sufrió de baja precisión (0.46) y generalización más débil, pero fue el método más rápido. Entre todas las técnicas, Bagging-SMOTE logró un rendimiento equilibrado (AUC 0.96, F1 0.72, PR-AUC 0.80, MCC 0.68) utilizando una proporción de minoría a mayoría de 0.15, demostrando que el remuestreo basado en conjuntos puede mejorar la robustez con un impacto mínimo en la distribución de clases original, aunque con un mayor costo computacional. Los hallazgos comparativos resaltan que no hay un enfoque único que se adapte a todos los casos de uso, y la selección de técnicas debe alinearse con objetivos específicos. Las técnicas que favorecen la recuperación (por ejemplo, Bagging-SMOTE, SMOTE-Tomek) son adecuadas para la advertencia temprana, mientras que las técnicas conservadoras (por ejemplo, Enlaces de Tomek) ayudan a reducir falsos positivos en aplicaciones sensibles al riesgo, y los métodos eficientes como RUS son preferibles cuando la velocidad computacional es una prioridad.

Otros recursos que podrían interesarte

Temas Virtualpro