Detección de fraude con tarjetas de crédito con autoencoder y bosque aleatorio probabilístico
Autores: Lin, Tzu-Hsuan; Jiang, Jehn-Ruey
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Detección de fraude con tarjetas de crédito con autoencoder y bosque aleatorio probabilístico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Método propuesto
Autoencoder
Bosque aleatorio probabilístico
Fraudes con tarjetas de crédito
Conjunto de datos
Evaluación de rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
Este documento propone un método, llamado autoencoder con bosque aleatorio probabilístico (AE-PRF), para detectar fraudes con tarjetas de crédito. El método propuesto AE-PRF primero utiliza el autoencoder para extraer características de baja dimensionalidad de las características de alta dimensionalidad de los datos de transacciones con tarjetas de crédito. Luego se basa en el bosque aleatorio, un mecanismo de aprendizaje de conjunto que utiliza el concepto de agregación bootstrap (bagging), con clasificación probabilística para clasificar los datos como fraudulentos o normales. El conjunto de datos de detección de fraudes con tarjetas de crédito (CCFD) se aplica a AE-PRF para evaluación y comparación de rendimiento. El conjunto de datos CCFD contiene grandes cantidades de transacciones con tarjetas de crédito de titulares de tarjetas europeos; es altamente desequilibrado ya que las transacciones normales superan con creces a las transacciones fraudulentas. Se aplican esquemas de remuestreo de datos como la técnica de sobremuestreo de minorías sintéticas (SMOTE), sintético adaptativo (ADASYN) y enlace Tomek (T-Link) al conjunto de datos CCFD para equilibrar el número de transacciones normales y fraudulentas para mejorar el rendimiento de AE-PRF. Los resultados experimentales muestran que el rendimiento de AE-PRF no varía mucho si se aplican esquemas de remuestreo al conjunto de datos o no. Esto indica que AE-PRF es naturalmente adecuado para tratar con conjuntos de datos desequilibrados. En comparación con métodos relacionados, AE-PRF tiene un rendimiento relativamente excelente en términos de precisión, tasa de verdaderos positivos, tasa de verdaderos negativos, coeficiente de correlación de Matthews y área bajo la curva característica de funcionamiento del receptor.
Descripción
Este documento propone un método, llamado autoencoder con bosque aleatorio probabilístico (AE-PRF), para detectar fraudes con tarjetas de crédito. El método propuesto AE-PRF primero utiliza el autoencoder para extraer características de baja dimensionalidad de las características de alta dimensionalidad de los datos de transacciones con tarjetas de crédito. Luego se basa en el bosque aleatorio, un mecanismo de aprendizaje de conjunto que utiliza el concepto de agregación bootstrap (bagging), con clasificación probabilística para clasificar los datos como fraudulentos o normales. El conjunto de datos de detección de fraudes con tarjetas de crédito (CCFD) se aplica a AE-PRF para evaluación y comparación de rendimiento. El conjunto de datos CCFD contiene grandes cantidades de transacciones con tarjetas de crédito de titulares de tarjetas europeos; es altamente desequilibrado ya que las transacciones normales superan con creces a las transacciones fraudulentas. Se aplican esquemas de remuestreo de datos como la técnica de sobremuestreo de minorías sintéticas (SMOTE), sintético adaptativo (ADASYN) y enlace Tomek (T-Link) al conjunto de datos CCFD para equilibrar el número de transacciones normales y fraudulentas para mejorar el rendimiento de AE-PRF. Los resultados experimentales muestran que el rendimiento de AE-PRF no varía mucho si se aplican esquemas de remuestreo al conjunto de datos o no. Esto indica que AE-PRF es naturalmente adecuado para tratar con conjuntos de datos desequilibrados. En comparación con métodos relacionados, AE-PRF tiene un rendimiento relativamente excelente en términos de precisión, tasa de verdaderos positivos, tasa de verdaderos negativos, coeficiente de correlación de Matthews y área bajo la curva característica de funcionamiento del receptor.