sobre la calidad de los datos tabulares generados de forma sintética
Autores: Espinosa, Erica; Figueira, Alvaro
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
sobre la calidad de los datos tabulares generados de forma sintética
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desequilibrio de clases
Datos sintéticos
Clase minoritaria
Medidas de utilidad
Métodos de evaluación
Modelos generativos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
El desequilibrio de clases es un problema común al desarrollar modelos de clasificación. Con el fin de abordar este problema, recientemente se han desarrollado datos sintéticos para mejorar la clase minoritaria. Estas muestras generadas artificialmente tienen como objetivo reforzar la representación de la clase minoritaria. Sin embargo, evaluar la idoneidad de estos datos generados es crucial para garantizar su alineación con la distribución de datos original. Aquí es donde entran en juego las medidas de utilidad para cuantificar qué tan similar es la distribución de los datos generados a la original. Para datos tabulares, existen varios métodos de evaluación que evalúan diferentes características de los datos generados. En este estudio, recopilamos medidas de utilidad y las categorizamos según el tipo de análisis que realizan. Luego aplicamos estas medidas a datos sintéticos generados a partir de dos conjuntos de datos conocidos, Ingresos de Adultos y Liar+. También utilizamos cinco modelos generativos conocidos, Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN y REaLTabFormer, para generar los datos sintéticos y evaluamos su calidad utilizando las medidas de utilidad. Las mediciones han demostrado ser informativas, indicando que si un conjunto de datos sintéticos es superior a otro en términos de medidas de utilidad, será más efectivo como una mejora para la clase minoritaria al realizar tareas de clasificación.
Descripción
El desequilibrio de clases es un problema común al desarrollar modelos de clasificación. Con el fin de abordar este problema, recientemente se han desarrollado datos sintéticos para mejorar la clase minoritaria. Estas muestras generadas artificialmente tienen como objetivo reforzar la representación de la clase minoritaria. Sin embargo, evaluar la idoneidad de estos datos generados es crucial para garantizar su alineación con la distribución de datos original. Aquí es donde entran en juego las medidas de utilidad para cuantificar qué tan similar es la distribución de los datos generados a la original. Para datos tabulares, existen varios métodos de evaluación que evalúan diferentes características de los datos generados. En este estudio, recopilamos medidas de utilidad y las categorizamos según el tipo de análisis que realizan. Luego aplicamos estas medidas a datos sintéticos generados a partir de dos conjuntos de datos conocidos, Ingresos de Adultos y Liar+. También utilizamos cinco modelos generativos conocidos, Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN y REaLTabFormer, para generar los datos sintéticos y evaluamos su calidad utilizando las medidas de utilidad. Las mediciones han demostrado ser informativas, indicando que si un conjunto de datos sintéticos es superior a otro en términos de medidas de utilidad, será más efectivo como una mejora para la clase minoritaria al realizar tareas de clasificación.