sobre la calidad de los datos tabulares generados de forma sintética

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

sobre la calidad de los datos tabulares generados de forma sintética

Autores: Espinosa, Erica; Figueira, Alvaro

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

sobre la calidad de los datos tabulares generados de forma sintética

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desequilibrio de clases

Datos sintéticos

Clase minoritaria

Medidas de utilidad

Métodos de evaluación

Modelos generativos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

El desequilibrio de clases es un problema común al desarrollar modelos de clasificación. Con el fin de abordar este problema, recientemente se han desarrollado datos sintéticos para mejorar la clase minoritaria. Estas muestras generadas artificialmente tienen como objetivo reforzar la representación de la clase minoritaria. Sin embargo, evaluar la idoneidad de estos datos generados es crucial para garantizar su alineación con la distribución de datos original. Aquí es donde entran en juego las medidas de utilidad para cuantificar qué tan similar es la distribución de los datos generados a la original. Para datos tabulares, existen varios métodos de evaluación que evalúan diferentes características de los datos generados. En este estudio, recopilamos medidas de utilidad y las categorizamos según el tipo de análisis que realizan. Luego aplicamos estas medidas a datos sintéticos generados a partir de dos conjuntos de datos conocidos, Ingresos de Adultos y Liar+. También utilizamos cinco modelos generativos conocidos, Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN y REaLTabFormer, para generar los datos sintéticos y evaluamos su calidad utilizando las medidas de utilidad. Las mediciones han demostrado ser informativas, indicando que si un conjunto de datos sintéticos es superior a otro en términos de medidas de utilidad, será más efectivo como una mejora para la clase minoritaria al realizar tareas de clasificación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro