Enfoque de anonimización de datos de subárbol escalable, de alto rendimiento y generalizado para Apache Spark
Autores: Bazai, Sibghat Ullah; Jang-Jaccard, Julian; Alavizadeh, Hooman
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Enfoque de anonimización de datos de subárbol escalable, de alto rendimiento y generalizado para Apache Spark
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Anonimización de datos
Generalización de subárbol
Plataforma MapReduce
Implementación basada en RDD
Apache Spark
Enfoques de preservación de la privacidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Estrategias de anonimización de datos como la generalización de subárboles han sido aclamadas como técnicas que proporcionan una estrategia de generalización más eficiente en comparación con sus contrapartes de generalización de árboles completos. Muchas estrategias de generalización basadas en subárboles (por ejemplo, de arriba hacia abajo, de abajo hacia arriba y híbridas) se han implementado en la plataforma MapReduce para aprovechar la escalabilidad y el paralelismo. Sin embargo, MapReduce carece intrínsecamente de soporte para la implementación de algoritmos intensivos en iteraciones como la generalización de subárboles. Este artículo propone una implementación basada en Conjuntos de Datos Distribuidos (RDD) para una técnica de anonimización de datos basada en subárboles para Apache Spark para abordar los problemas asociados con las contrapartes basadas en MapReduce. Describimos nuestro enfoque basado en RDD que ofrece una gestión efectiva de particiones, un uso mejorado de la memoria que utiliza caché para valores intermedios referenciados con frecuencia y un soporte de iteración mejorado. Nuestros resultados experimentales proporcionan un alto rendimiento en comparación con los enfoques de preservación de privacidad del estado del arte existentes y garantizan la utilidad de los datos y los niveles de privacidad requeridos para cualquier técnica competitiva de anonimización de datos.
Descripción
Estrategias de anonimización de datos como la generalización de subárboles han sido aclamadas como técnicas que proporcionan una estrategia de generalización más eficiente en comparación con sus contrapartes de generalización de árboles completos. Muchas estrategias de generalización basadas en subárboles (por ejemplo, de arriba hacia abajo, de abajo hacia arriba y híbridas) se han implementado en la plataforma MapReduce para aprovechar la escalabilidad y el paralelismo. Sin embargo, MapReduce carece intrínsecamente de soporte para la implementación de algoritmos intensivos en iteraciones como la generalización de subárboles. Este artículo propone una implementación basada en Conjuntos de Datos Distribuidos (RDD) para una técnica de anonimización de datos basada en subárboles para Apache Spark para abordar los problemas asociados con las contrapartes basadas en MapReduce. Describimos nuestro enfoque basado en RDD que ofrece una gestión efectiva de particiones, un uso mejorado de la memoria que utiliza caché para valores intermedios referenciados con frecuencia y un soporte de iteración mejorado. Nuestros resultados experimentales proporcionan un alto rendimiento en comparación con los enfoques de preservación de privacidad del estado del arte existentes y garantizan la utilidad de los datos y los niveles de privacidad requeridos para cualquier técnica competitiva de anonimización de datos.