Gdsmote: un nuevo método sintético de sobremuestreo para datos financieros desequilibrados de alta dimensionalidad
Autores: Hu, Libin; Zhang, Yunfeng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Gdsmote: un nuevo método sintético de sobremuestreo para datos financieros desequilibrados de alta dimensionalidad
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Métodos de sobremuestreo sintético
Problemas de clasificación desequilibrados
Datos financieros de alta dimensión
Medición de distancia
Acumulación de errores
Precisión de reconocimiento
GDSMOTE
Distribución de gradientes
Técnica de sobremuestreo de minorías
Contribución de gradientes
Estrategia de selección de muestra raíz
Vecino más cercano
Distribución segura de gradientes
Similitud del coseno
Puntuación F1
Métricas de MCC
Puntuación de recall
Adaptabilidad
Tareas de toma de decisiones de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Los métodos sintéticos de sobremuestreo para tratar problemas de clasificación desequilibrada han sido ampliamente estudiados. Sin embargo, los métodos sintéticos actuales de sobremuestreo todavía no pueden funcionar bien cuando se enfrentan a datos financieros desequilibrados de alta dimensión. El fracaso de la medición de distancia en el espacio de alta dimensión, la acumulación de errores causada por muestras de ruido y la reducción de la precisión de reconocimiento de las muestras de la mayoría causada por la distribución de muestras sintéticas son las principales razones que limitan el rendimiento de los métodos actuales. Teniendo en cuenta estos factores, se propone un nuevo método sintético de sobremuestreo, llamado técnica de sobremuestreo minoritario sintético basado en la distribución de gradientes (GDSMOTE). En primer lugar, se utilizó el concepto de contribución de gradiente para asignar las muestras de la clase minoritaria a diferentes intervalos de gradiente en lugar de depender de la distancia espacial. En segundo lugar, la estrategia de selección de muestra raíz de GDSMOTE evita la acumulación de errores causada por muestras de ruido y se propuso un nuevo concepto de vecino más cercano para determinar las muestras auxiliares. Finalmente, se diseñó una estrategia de aproximación de distribución de gradiente de seguridad basada en la similitud del coseno para determinar el número de muestras a sintetizar en cada intervalo de gradiente de seguridad. Los experimentos en conjuntos de datos financieros desequilibrados de alta dimensión muestran que GDSMOTE puede lograr un mayor puntaje F1-Score y métricas de MCC que los métodos de referencia, al tiempo que alcanza un puntaje de recuperación más alto. Esto significa que nuestro método tiene las características de mejorar la precisión de reconocimiento de las muestras de la clase minoritaria sin sacrificar la precisión de reconocimiento de las muestras de la clase mayoritaria y tiene una buena adaptabilidad a las tareas de toma de decisiones de datos en el campo financiero.
Descripción
Los métodos sintéticos de sobremuestreo para tratar problemas de clasificación desequilibrada han sido ampliamente estudiados. Sin embargo, los métodos sintéticos actuales de sobremuestreo todavía no pueden funcionar bien cuando se enfrentan a datos financieros desequilibrados de alta dimensión. El fracaso de la medición de distancia en el espacio de alta dimensión, la acumulación de errores causada por muestras de ruido y la reducción de la precisión de reconocimiento de las muestras de la mayoría causada por la distribución de muestras sintéticas son las principales razones que limitan el rendimiento de los métodos actuales. Teniendo en cuenta estos factores, se propone un nuevo método sintético de sobremuestreo, llamado técnica de sobremuestreo minoritario sintético basado en la distribución de gradientes (GDSMOTE). En primer lugar, se utilizó el concepto de contribución de gradiente para asignar las muestras de la clase minoritaria a diferentes intervalos de gradiente en lugar de depender de la distancia espacial. En segundo lugar, la estrategia de selección de muestra raíz de GDSMOTE evita la acumulación de errores causada por muestras de ruido y se propuso un nuevo concepto de vecino más cercano para determinar las muestras auxiliares. Finalmente, se diseñó una estrategia de aproximación de distribución de gradiente de seguridad basada en la similitud del coseno para determinar el número de muestras a sintetizar en cada intervalo de gradiente de seguridad. Los experimentos en conjuntos de datos financieros desequilibrados de alta dimensión muestran que GDSMOTE puede lograr un mayor puntaje F1-Score y métricas de MCC que los métodos de referencia, al tiempo que alcanza un puntaje de recuperación más alto. Esto significa que nuestro método tiene las características de mejorar la precisión de reconocimiento de las muestras de la clase minoritaria sin sacrificar la precisión de reconocimiento de las muestras de la clase mayoritaria y tiene una buena adaptabilidad a las tareas de toma de decisiones de datos en el campo financiero.