Gdsmote: un nuevo método sintético de sobremuestreo para datos financieros desequilibrados de alta dimensionalidad

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Gdsmote: un nuevo método sintético de sobremuestreo para datos financieros desequilibrados de alta dimensionalidad

Autores: Hu, Libin; Zhang, Yunfeng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Gdsmote: un nuevo método sintético de sobremuestreo para datos financieros desequilibrados de alta dimensionalidad

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Métodos de sobremuestreo sintético

Problemas de clasificación desequilibrados

Datos financieros de alta dimensión

Medición de distancia

Acumulación de errores

Precisión de reconocimiento

GDSMOTE

Distribución de gradientes

Técnica de sobremuestreo de minorías

Contribución de gradientes

Estrategia de selección de muestra raíz

Vecino más cercano

Distribución segura de gradientes

Similitud del coseno

Puntuación F1

Métricas de MCC

Puntuación de recall

Adaptabilidad

Tareas de toma de decisiones de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones

Los métodos sintéticos de sobremuestreo para tratar problemas de clasificación desequilibrada han sido ampliamente estudiados. Sin embargo, los métodos sintéticos actuales de sobremuestreo todavía no pueden funcionar bien cuando se enfrentan a datos financieros desequilibrados de alta dimensión. El fracaso de la medición de distancia en el espacio de alta dimensión, la acumulación de errores causada por muestras de ruido y la reducción de la precisión de reconocimiento de las muestras de la mayoría causada por la distribución de muestras sintéticas son las principales razones que limitan el rendimiento de los métodos actuales. Teniendo en cuenta estos factores, se propone un nuevo método sintético de sobremuestreo, llamado técnica de sobremuestreo minoritario sintético basado en la distribución de gradientes (GDSMOTE). En primer lugar, se utilizó el concepto de contribución de gradiente para asignar las muestras de la clase minoritaria a diferentes intervalos de gradiente en lugar de depender de la distancia espacial. En segundo lugar, la estrategia de selección de muestra raíz de GDSMOTE evita la acumulación de errores causada por muestras de ruido y se propuso un nuevo concepto de vecino más cercano para determinar las muestras auxiliares. Finalmente, se diseñó una estrategia de aproximación de distribución de gradiente de seguridad basada en la similitud del coseno para determinar el número de muestras a sintetizar en cada intervalo de gradiente de seguridad. Los experimentos en conjuntos de datos financieros desequilibrados de alta dimensión muestran que GDSMOTE puede lograr un mayor puntaje F1-Score y métricas de MCC que los métodos de referencia, al tiempo que alcanza un puntaje de recuperación más alto. Esto significa que nuestro método tiene las características de mejorar la precisión de reconocimiento de las muestras de la clase minoritaria sin sacrificar la precisión de reconocimiento de las muestras de la clase mayoritaria y tiene una buena adaptabilidad a las tareas de toma de decisiones de datos en el campo financiero.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro