La privacidad diferencial en la publicación de datos de alta dimensionalidad basada en la selección de características y el agrupamiento
Autores: Chu, Zhiguang; He, Jingsha; Zhang, Xiaolei; Zhang, Xing; Zhu, Nafei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
La privacidad diferencial en la publicación de datos de alta dimensionalidad basada en la selección de características y el agrupamiento
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Privacidad
Usabilidad
Datos de alta dimensionalidad
Selección de características
Análisis de clusters
Utilidad de los datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Como producto de información social, la privacidad y la usabilidad de los datos de alta dimensionalidad son los problemas principales en el campo de la protección de la privacidad. La selección de características es una técnica de procesamiento de reducción de dimensionalidad comúnmente utilizada para datos de alta dimensionalidad. Algunos métodos de selección de características solo procesan algunas de las características seleccionadas por el algoritmo y no tienen en cuenta la información asociada con las características seleccionadas, lo que resulta en que la usabilidad de los resultados experimentales finales no sea alta. Este artículo propone un método híbrido basado en la selección de características y un análisis de clúster para resolver los problemas de utilidad de datos y privacidad de datos de alta dimensionalidad en el proceso de publicación real. El método propuesto se divide en tres etapas: (1) selección de características; (2) análisis de la agrupación de características; y (3) ruido adaptativo. Este artículo utiliza la base de datos de Diagnóstico de Cáncer de Mama de Wisconsin (WDBC) de la Biblioteca de Aprendizaje Automático de UCI. Utilizando la precisión de clasificación para evaluar el rendimiento del método propuesto, los experimentos muestran que los datos originales son procesados por el algoritmo en este artículo mientras se protege la información de datos sensible y se conserva la contribución de los datos a los resultados de diagnóstico.
Descripción
Como producto de información social, la privacidad y la usabilidad de los datos de alta dimensionalidad son los problemas principales en el campo de la protección de la privacidad. La selección de características es una técnica de procesamiento de reducción de dimensionalidad comúnmente utilizada para datos de alta dimensionalidad. Algunos métodos de selección de características solo procesan algunas de las características seleccionadas por el algoritmo y no tienen en cuenta la información asociada con las características seleccionadas, lo que resulta en que la usabilidad de los resultados experimentales finales no sea alta. Este artículo propone un método híbrido basado en la selección de características y un análisis de clúster para resolver los problemas de utilidad de datos y privacidad de datos de alta dimensionalidad en el proceso de publicación real. El método propuesto se divide en tres etapas: (1) selección de características; (2) análisis de la agrupación de características; y (3) ruido adaptativo. Este artículo utiliza la base de datos de Diagnóstico de Cáncer de Mama de Wisconsin (WDBC) de la Biblioteca de Aprendizaje Automático de UCI. Utilizando la precisión de clasificación para evaluar el rendimiento del método propuesto, los experimentos muestran que los datos originales son procesados por el algoritmo en este artículo mientras se protege la información de datos sensible y se conserva la contribución de los datos a los resultados de diagnóstico.