Simulación de datos de población sintética compleja calibrada con XGBoost

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Simulación de datos de población sintética compleja calibrada con XGBoost

Autores: Gussenbauer, Johannes; Templ, Matthias; Fritzmann, Siro; Kowarik, Alexander

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Simulación de datos de población sintética compleja calibrada con XGBoost

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Métodos de generación de datos sintéticos

Método basado en XGBoost

Conjunto de datos de encuestas complejas

Variables categóricas sintéticas

Márgenes de población

Algoritmo de recocido simulado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

Los métodos de generación de datos sintéticos se utilizan para transformar los datos originales en copias sintéticas (datos gemelos) compatibles con la privacidad. Con nuestro enfoque propuesto, los datos sintéticos pueden ser simulados en el mismo tamaño que los datos de entrada o en cualquier tamaño, y en el caso de poblaciones finitas, incluso se puede simular toda la población. El método propuesto basado en XGBoost se compara con enfoques basados en modelos conocidos para generar datos sintéticos utilizando un conjunto de datos de encuestas complejas. El método XGBoost muestra un rendimiento sólido, especialmente con variables categóricas sintéticas, y supera a otros métodos probados. Además, la estructura y la relación entre variables se conservan bien. La sintonización de los parámetros se realiza automáticamente mediante una validación cruzada modificada de k-folds. Si se conocen los márgenes de población exactos, por ejemplo, conteos de población cruzados por clase de edad, género y región, los datos sintéticos deben calibrarse a esos márgenes de población conocidos. Con este propósito, hemos implementado un algoritmo de recocido simulado que es capaz de utilizar múltiples márgenes de población simultáneamente para post-calibrar una población sintética. Por lo tanto, el algoritmo es capaz de calibrar datos de población simulados que contienen información de conglomerados e individuos, por ejemplo, sobre personas en hogares, tanto a nivel de persona como de hogar. Además, el algoritmo está implementado de manera eficiente para que el ajuste de poblaciones con muchos millones o más personas sea posible.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro