Aprendizaje Automático para la Predicción de Fraude Corporativo Chino: Modelos Segmentados Basados en Ventanas de Entrenamiento Óptimas
Autores: Goh, Chang Chuan; Yang, Yue; Bellotti, Anthony; Hua, Xiuping
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje Automático para la Predicción de Fraude Corporativo Chino: Modelos Segmentados Basados en Ventanas de Entrenamiento Óptimas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Marco práctico y completo
Predicción de fraude corporativo chino
Algoritmos de aprendizaje automático
Clasificador de bosque aleatorio
Modelos segmentados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Proponemos un marco integral y práctico para la predicción de fraudes corporativos en China que incorpora clasificadores, desequilibrio de clases, deriva poblacional, modelos segmentados y evaluación de modelos utilizando algoritmos de aprendizaje automático. Basado en un experimento de tres etapas, primero encontramos que el clasificador de bosque aleatorio tiene el mejor rendimiento en la predicción de fraudes corporativos entre 17 modelos de aprendizaje automático. Luego implementamos el enfoque de ventana de tiempo deslizante para manejar la deriva poblacional, y la ventana de entrenamiento óptima encontrada demuestra la existencia de deriva poblacional en la detección de fraudes y la necesidad de abordarla para mejorar el rendimiento del modelo. Usando el mejor modelo de aprendizaje automático y la ventana de entrenamiento óptima, construimos un modelo general y modelos segmentados para comparar tipos de fraude e industrias basándonos en su respectivo rendimiento predictivo a través de cuatro métricas de evaluación y las principales características utilizando SHAP. Los resultados indican que los modelos segmentados tienen un mejor rendimiento predictivo que el modelo general para tipos de fraude con bajas tasas de fraude y son tan buenos como el modelo general para la mayoría de las industrias al controlar el tamaño del conjunto de entrenamiento. Las disimilitudes entre el conjunto de características principales del modelo general y los modelos segmentados sugieren que los modelos segmentados son útiles para proporcionar una mejor comprensión de la ocurrencia del fraude.
Descripción
Proponemos un marco integral y práctico para la predicción de fraudes corporativos en China que incorpora clasificadores, desequilibrio de clases, deriva poblacional, modelos segmentados y evaluación de modelos utilizando algoritmos de aprendizaje automático. Basado en un experimento de tres etapas, primero encontramos que el clasificador de bosque aleatorio tiene el mejor rendimiento en la predicción de fraudes corporativos entre 17 modelos de aprendizaje automático. Luego implementamos el enfoque de ventana de tiempo deslizante para manejar la deriva poblacional, y la ventana de entrenamiento óptima encontrada demuestra la existencia de deriva poblacional en la detección de fraudes y la necesidad de abordarla para mejorar el rendimiento del modelo. Usando el mejor modelo de aprendizaje automático y la ventana de entrenamiento óptima, construimos un modelo general y modelos segmentados para comparar tipos de fraude e industrias basándonos en su respectivo rendimiento predictivo a través de cuatro métricas de evaluación y las principales características utilizando SHAP. Los resultados indican que los modelos segmentados tienen un mejor rendimiento predictivo que el modelo general para tipos de fraude con bajas tasas de fraude y son tan buenos como el modelo general para la mayoría de las industrias al controlar el tamaño del conjunto de entrenamiento. Las disimilitudes entre el conjunto de características principales del modelo general y los modelos segmentados sugieren que los modelos segmentados son útiles para proporcionar una mejor comprensión de la ocurrencia del fraude.