Generando conjuntos de datos sintéticos de mayor fidelidad con garantías de privacidad
Autores: Triastcyn, Aleksei; Faltings, Boi
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Generando conjuntos de datos sintéticos de mayor fidelidad con garantías de privacidad
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Privacidad
Análisis de datos
Aprendizaje automático
Red generativa adversaria
Privacidad diferencial bayesiana
Anotación de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Consideramos el problema de mejorar la privacidad del usuario en tareas comunes de análisis de datos y desarrollo de aprendizaje automático, como la anotación e inspección de datos, sustituyendo los datos reales por muestras de una red generativa adversarial. Proponemos emplear la privacidad diferencial bayesiana como medio para lograr una garantía teórica rigurosa al tiempo que proporcionamos un mejor equilibrio entre privacidad y utilidad. Demostramos experimentalmente que nuestro enfoque produce muestras de mayor fidelidad en comparación con trabajos anteriores, lo que permite (1) detectar errores y sesgos de datos más sutiles y (2) reducir la necesidad de etiquetado de datos reales al lograr una alta precisión al entrenar directamente con muestras artificiales.
Descripción
Consideramos el problema de mejorar la privacidad del usuario en tareas comunes de análisis de datos y desarrollo de aprendizaje automático, como la anotación e inspección de datos, sustituyendo los datos reales por muestras de una red generativa adversarial. Proponemos emplear la privacidad diferencial bayesiana como medio para lograr una garantía teórica rigurosa al tiempo que proporcionamos un mejor equilibrio entre privacidad y utilidad. Demostramos experimentalmente que nuestro enfoque produce muestras de mayor fidelidad en comparación con trabajos anteriores, lo que permite (1) detectar errores y sesgos de datos más sutiles y (2) reducir la necesidad de etiquetado de datos reales al lograr una alta precisión al entrenar directamente con muestras artificiales.