Algoritmo de aprendizaje automático basado en conjuntos para la predicción de riesgo de incumplimiento de préstamos
Autores: Akinjole, Abisola; Shobayo, Olamilekan; Popoola, Jumoke; Okoyeigbo, Obinna; Ogunleye, Bayode
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Algoritmo de aprendizaje automático basado en conjuntos para la predicción de riesgo de incumplimiento de préstamos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Riesgo de incumplimiento crediticio
Modelos de aprendizaje automático
Desequilibrio de datos
XGBoost
Métodos de remuestreo
Métodos de conjunto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Predecir el riesgo de incumplimiento crediticio es importante para las instituciones financieras, ya que predecir con precisión la probabilidad de que un prestatario incumpla sus préstamos ayudará a reducir las pérdidas financieras, manteniendo así la rentabilidad y la estabilidad. Aunque se han utilizado modelos de aprendizaje automático en la evaluación de grandes aplicaciones con atributos complejos para estas predicciones, todavía es necesario identificar las técnicas más efectivas para el proceso de desarrollo del modelo, incluida la técnica para abordar el problema del desequilibrio de datos. En esta investigación, realizamos un análisis comparativo de bosques aleatorios, árboles de decisión, SVM (Máquinas de Vectores de Soporte), XGBoost (Extreme Gradient Boosting), ADABoost (Adaptive Boosting) y el perceptrón multicapa, para predecir incumplimientos crediticios utilizando datos de préstamos de LendingClub. Además, XGBoost se utilizó como marco para probar y evaluar diversas técnicas. Además, aplicamos este marco XGBoost para manejar el problema de desequilibrio de clases observado, probando varios métodos de remuestreo como Muestreo Aleatorio Excesivo (ROS), la Técnica de Muestreo Sintético de la Minoría (SMOTE), Muestreo Sintético Adaptativo (ADASYN), Muestreo Aleatorio Insuficiente (RUS), y enfoques híbridos como SMOTE con Enlaces de Tomek y SMOTE con Vecinos Más Cercanos Editados (SMOTE + ENNs). Los resultados mostraron que los conjuntos de datos equilibrados superaron significativamente al conjunto de datos desequilibrado, con SMOTE + ENNs ofreciendo el mejor rendimiento general, logrando una precisión del 90,49%, una precisión del 94,61% y una recuperación del 92,02%. Además, se emplearon métodos de conjunto como votación y apilamiento para mejorar aún más el rendimiento. Nuestro modelo propuesto logró una precisión del 93,7%, una precisión del 95,6% y una recuperación del 95,5%, lo que muestra el potencial de los métodos de conjunto para mejorar las predicciones de incumplimiento crediticio y proporcionar a las plataformas de préstamos la herramienta para reducir las tasas de incumplimiento y las pérdidas financieras. En conclusión, los hallazgos de este estudio tienen implicaciones más amplias para las instituciones financieras, ofreciendo un enfoque sólido para la evaluación del riesgo más allá del conjunto de datos de LendingClub.
Descripción
Predecir el riesgo de incumplimiento crediticio es importante para las instituciones financieras, ya que predecir con precisión la probabilidad de que un prestatario incumpla sus préstamos ayudará a reducir las pérdidas financieras, manteniendo así la rentabilidad y la estabilidad. Aunque se han utilizado modelos de aprendizaje automático en la evaluación de grandes aplicaciones con atributos complejos para estas predicciones, todavía es necesario identificar las técnicas más efectivas para el proceso de desarrollo del modelo, incluida la técnica para abordar el problema del desequilibrio de datos. En esta investigación, realizamos un análisis comparativo de bosques aleatorios, árboles de decisión, SVM (Máquinas de Vectores de Soporte), XGBoost (Extreme Gradient Boosting), ADABoost (Adaptive Boosting) y el perceptrón multicapa, para predecir incumplimientos crediticios utilizando datos de préstamos de LendingClub. Además, XGBoost se utilizó como marco para probar y evaluar diversas técnicas. Además, aplicamos este marco XGBoost para manejar el problema de desequilibrio de clases observado, probando varios métodos de remuestreo como Muestreo Aleatorio Excesivo (ROS), la Técnica de Muestreo Sintético de la Minoría (SMOTE), Muestreo Sintético Adaptativo (ADASYN), Muestreo Aleatorio Insuficiente (RUS), y enfoques híbridos como SMOTE con Enlaces de Tomek y SMOTE con Vecinos Más Cercanos Editados (SMOTE + ENNs). Los resultados mostraron que los conjuntos de datos equilibrados superaron significativamente al conjunto de datos desequilibrado, con SMOTE + ENNs ofreciendo el mejor rendimiento general, logrando una precisión del 90,49%, una precisión del 94,61% y una recuperación del 92,02%. Además, se emplearon métodos de conjunto como votación y apilamiento para mejorar aún más el rendimiento. Nuestro modelo propuesto logró una precisión del 93,7%, una precisión del 95,6% y una recuperación del 95,5%, lo que muestra el potencial de los métodos de conjunto para mejorar las predicciones de incumplimiento crediticio y proporcionar a las plataformas de préstamos la herramienta para reducir las tasas de incumplimiento y las pérdidas financieras. En conclusión, los hallazgos de este estudio tienen implicaciones más amplias para las instituciones financieras, ofreciendo un enfoque sólido para la evaluación del riesgo más allá del conjunto de datos de LendingClub.