DEGAIN: Imputación de Datos Faltantes Basada en Redes Generativas Antagónicas
Autores: Shahbazian, Reza; Trubitsyna, Irina
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
DEGAIN: Imputación de Datos Faltantes Basada en Redes Generativas Antagónicas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Perspectivas
Limpieza de datos
Aprendizaje automático
Datos faltantes
DEGAIN
Conjuntos de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los conocimientos y el análisis son tan buenos como los datos disponibles. La limpieza de datos es uno de los pasos más importantes para crear decisiones de calidad basadas en datos. El aprendizaje automático (ML) ayuda a manejar los datos rápidamente y a crear conjuntos de datos sin errores o con errores limitados. Uno de los estándares de calidad para limpiar los datos incluye el manejo de los datos faltantes, también conocidos como imputación de datos. Esta investigación se centra en el uso de métodos de aprendizaje automático para tratar los datos faltantes. En particular, proponemos un modelo basado en una red generativa adversarial (GAN) llamado DEGAIN para estimar los valores faltantes en el conjunto de datos. Evaluamos el rendimiento del método presentado y comparamos los resultados con algunos de los métodos existentes en conjuntos de datos públicos de Reconocimiento de Letras y SPAM. El conjunto de datos de Letras consta de 20,000 muestras y 16 características de entrada, y el conjunto de datos de SPAM consta de 4601 muestras y 57 características de entrada. Los resultados muestran que el DEGAIN propuesto supera a los existentes en términos de error cuadrático medio y métricas de distancia de Frechet.
Descripción
Los conocimientos y el análisis son tan buenos como los datos disponibles. La limpieza de datos es uno de los pasos más importantes para crear decisiones de calidad basadas en datos. El aprendizaje automático (ML) ayuda a manejar los datos rápidamente y a crear conjuntos de datos sin errores o con errores limitados. Uno de los estándares de calidad para limpiar los datos incluye el manejo de los datos faltantes, también conocidos como imputación de datos. Esta investigación se centra en el uso de métodos de aprendizaje automático para tratar los datos faltantes. En particular, proponemos un modelo basado en una red generativa adversarial (GAN) llamado DEGAIN para estimar los valores faltantes en el conjunto de datos. Evaluamos el rendimiento del método presentado y comparamos los resultados con algunos de los métodos existentes en conjuntos de datos públicos de Reconocimiento de Letras y SPAM. El conjunto de datos de Letras consta de 20,000 muestras y 16 características de entrada, y el conjunto de datos de SPAM consta de 4601 muestras y 57 características de entrada. Los resultados muestran que el DEGAIN propuesto supera a los existentes en términos de error cuadrático medio y métricas de distancia de Frechet.