Alta cardinalidad de atributos categóricos y detección de fraude con tarjetas de crédito
Autores: Carneiro, Emanuel Mineda; Forster, Carlos Henrique Quartucci; Mialaret, Lineu Fernando Stege; Dias, Luiz Alberto Vieira; da Cunha, Adilson Marques
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Alta cardinalidad de atributos categóricos y detección de fraude con tarjetas de crédito
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Transacciones con tarjeta de crédito
Atributos categóricos
Atributos de alta cardinalidad
Detección de fraudes
Algoritmo
Red neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Las transacciones con tarjeta de crédito pueden contener algunos atributos categóricos con grandes dominios, que involucran hasta cientos de valores posibles, también conocidos como atributos de alta cardinalidad. La inclusión de tales atributos hace que el análisis sea más difícil, debido a resultados con una generalización más pobre y un mayor uso de recursos. Una práctica común es, por lo tanto, ignorar dichos atributos, eliminándolos, aunque se pierda la información que proporcionaron. Por el contrario, este documento informa sobre nuestros hallazgos sobre los impactos positivos del uso de atributos de alta cardinalidad en la detección de fraudes con tarjetas de crédito. Por lo tanto, presentamos un nuevo algoritmo para la reducción de dominios que preserva las capacidades de detección de fraudes. Los experimentos aplicando una red neuronal feedforward profunda en conjuntos de datos reales de una importante institución financiera brasileña han mostrado que, cuando se mide por la métrica F-1, la inclusión de dichos atributos mejora la calidad de detección de fraudes. Como principal contribución, este algoritmo propuesto logró reducir la cardinalidad de los atributos, mejorando los tiempos de entrenamiento de un modelo mientras preserva sus capacidades predictivas.
Descripción
Las transacciones con tarjeta de crédito pueden contener algunos atributos categóricos con grandes dominios, que involucran hasta cientos de valores posibles, también conocidos como atributos de alta cardinalidad. La inclusión de tales atributos hace que el análisis sea más difícil, debido a resultados con una generalización más pobre y un mayor uso de recursos. Una práctica común es, por lo tanto, ignorar dichos atributos, eliminándolos, aunque se pierda la información que proporcionaron. Por el contrario, este documento informa sobre nuestros hallazgos sobre los impactos positivos del uso de atributos de alta cardinalidad en la detección de fraudes con tarjetas de crédito. Por lo tanto, presentamos un nuevo algoritmo para la reducción de dominios que preserva las capacidades de detección de fraudes. Los experimentos aplicando una red neuronal feedforward profunda en conjuntos de datos reales de una importante institución financiera brasileña han mostrado que, cuando se mide por la métrica F-1, la inclusión de dichos atributos mejora la calidad de detección de fraudes. Como principal contribución, este algoritmo propuesto logró reducir la cardinalidad de los atributos, mejorando los tiempos de entrenamiento de un modelo mientras preserva sus capacidades predictivas.