logo móvil
Contáctanos

Modelado de Datos Generativos para Poblaciones Diversas en África: Perspectivas desde Sudáfrica

Autores: Simmons, Sally Sonia; Hagan, John Elvis; Schack, Thomas

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Modelado de Datos Generativos para Poblaciones Diversas en África: Perspectivas desde Sudáfrica


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Estudios
Demografía
Salud
Modelado de datos generativos
Poblaciones africanas
Datos sintéticos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los estudios sobre la demografía y la salud de las poblaciones africanas racialmente diversas son escasos, particularmente debido a los persistentes desafíos de datos. La modelización de datos generativos ha surgido como una solución valiosa a esta carga. El estudio, por lo tanto, examinó la eficacia de Conditional Tabular GAN (CTGAN), CopulaGAN y Tabula Variational Autoencoder (TVAE) para generar datos demográficos y de salud sintéticos pero realistas. Este estudio empleó los datos de la Encuesta sobre el Envejecimiento Global y la Salud de Adultos (SAGE) de la Organización Mundial de la Salud, Wave 1, de Sudáfrica (n = 4227). La información faltante de SAGE Wave 1, incluidos los indicadores demográficos (por ejemplo, raza, edad) y de salud (por ejemplo, hipertensión, presión arterial), se imputó utilizando Generative Adversarial Imputation Nets (GAIN). CopulaGAN, CTGAN y TVAE, obtenidos de la biblioteca de python sdv 1.24.1, generaron 104,227 registros sintéticos basados en los constituyentes de los datos de SAGE. Los resultados se evaluaron con métricas de similitud y aumento de aprendizaje automático (XGBoost) (obtenidas de la biblioteca de python sdmetrics 0.21.0), incluyendo formas de columnas y puntuaciones de relación general y de precisión. En general, las imputaciones de GAIN resultaron en datos con propiedades comparables a los originales y sin información faltante. La calidad general del rendimiento de CTGAN (89.20%) fue superior a la de TVAE (86.50%) y CopulaGAN (88.45%). Estos hallazgos subrayan la utilidad de la modelización de datos generativos para abordar los desafíos de calidad de datos en poblaciones diversas y mejorar la investigación en salud y la implementación de políticas.

Otros recursos que podrían interesarte

Temas Virtualpro