logo móvil
Contáctanos

Simulación de datos de población sintética compleja calibrada con XGBoost

Autores: Gussenbauer, Johannes; Templ, Matthias; Fritzmann, Siro; Kowarik, Alexander

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Simulación de datos de población sintética compleja calibrada con XGBoost


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Métodos de generación de datos sintéticos
Método basado en XGBoost
Conjunto de datos de encuestas complejas
Variables categóricas sintéticas
Márgenes de población
Algoritmo de recocido simulado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Los métodos de generación de datos sintéticos se utilizan para transformar los datos originales en copias sintéticas (datos gemelos) compatibles con la privacidad. Con nuestro enfoque propuesto, los datos sintéticos pueden ser simulados en el mismo tamaño que los datos de entrada o en cualquier tamaño, y en el caso de poblaciones finitas, incluso se puede simular toda la población. El método propuesto basado en XGBoost se compara con enfoques basados en modelos conocidos para generar datos sintéticos utilizando un conjunto de datos de encuestas complejas. El método XGBoost muestra un rendimiento sólido, especialmente con variables categóricas sintéticas, y supera a otros métodos probados. Además, la estructura y la relación entre variables se conservan bien. La sintonización de los parámetros se realiza automáticamente mediante una validación cruzada modificada de k-folds. Si se conocen los márgenes de población exactos, por ejemplo, conteos de población cruzados por clase de edad, género y región, los datos sintéticos deben calibrarse a esos márgenes de población conocidos. Con este propósito, hemos implementado un algoritmo de recocido simulado que es capaz de utilizar múltiples márgenes de población simultáneamente para post-calibrar una población sintética. Por lo tanto, el algoritmo es capaz de calibrar datos de población simulados que contienen información de conglomerados e individuos, por ejemplo, sobre personas en hogares, tanto a nivel de persona como de hogar. Además, el algoritmo está implementado de manera eficiente para que el ajuste de poblaciones con muchos millones o más personas sea posible.

Otros recursos que podrían interesarte

Temas Virtualpro