Simulación de datos de población sintética compleja calibrada con XGBoost
Autores: Gussenbauer, Johannes; Templ, Matthias; Fritzmann, Siro; Kowarik, Alexander
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Simulación de datos de población sintética compleja calibrada con XGBoost
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Métodos de generación de datos sintéticos
Método basado en XGBoost
Conjunto de datos de encuestas complejas
Variables categóricas sintéticas
Márgenes de población
Algoritmo de recocido simulado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Los métodos de generación de datos sintéticos se utilizan para transformar los datos originales en copias sintéticas (datos gemelos) compatibles con la privacidad. Con nuestro enfoque propuesto, los datos sintéticos pueden ser simulados en el mismo tamaño que los datos de entrada o en cualquier tamaño, y en el caso de poblaciones finitas, incluso se puede simular toda la población. El método propuesto basado en XGBoost se compara con enfoques basados en modelos conocidos para generar datos sintéticos utilizando un conjunto de datos de encuestas complejas. El método XGBoost muestra un rendimiento sólido, especialmente con variables categóricas sintéticas, y supera a otros métodos probados. Además, la estructura y la relación entre variables se conservan bien. La sintonización de los parámetros se realiza automáticamente mediante una validación cruzada modificada de k-folds. Si se conocen los márgenes de población exactos, por ejemplo, conteos de población cruzados por clase de edad, género y región, los datos sintéticos deben calibrarse a esos márgenes de población conocidos. Con este propósito, hemos implementado un algoritmo de recocido simulado que es capaz de utilizar múltiples márgenes de población simultáneamente para post-calibrar una población sintética. Por lo tanto, el algoritmo es capaz de calibrar datos de población simulados que contienen información de conglomerados e individuos, por ejemplo, sobre personas en hogares, tanto a nivel de persona como de hogar. Además, el algoritmo está implementado de manera eficiente para que el ajuste de poblaciones con muchos millones o más personas sea posible.
Descripción
Los métodos de generación de datos sintéticos se utilizan para transformar los datos originales en copias sintéticas (datos gemelos) compatibles con la privacidad. Con nuestro enfoque propuesto, los datos sintéticos pueden ser simulados en el mismo tamaño que los datos de entrada o en cualquier tamaño, y en el caso de poblaciones finitas, incluso se puede simular toda la población. El método propuesto basado en XGBoost se compara con enfoques basados en modelos conocidos para generar datos sintéticos utilizando un conjunto de datos de encuestas complejas. El método XGBoost muestra un rendimiento sólido, especialmente con variables categóricas sintéticas, y supera a otros métodos probados. Además, la estructura y la relación entre variables se conservan bien. La sintonización de los parámetros se realiza automáticamente mediante una validación cruzada modificada de k-folds. Si se conocen los márgenes de población exactos, por ejemplo, conteos de población cruzados por clase de edad, género y región, los datos sintéticos deben calibrarse a esos márgenes de población conocidos. Con este propósito, hemos implementado un algoritmo de recocido simulado que es capaz de utilizar múltiples márgenes de población simultáneamente para post-calibrar una población sintética. Por lo tanto, el algoritmo es capaz de calibrar datos de población simulados que contienen información de conglomerados e individuos, por ejemplo, sobre personas en hogares, tanto a nivel de persona como de hogar. Además, el algoritmo está implementado de manera eficiente para que el ajuste de poblaciones con muchos millones o más personas sea posible.