logo móvil
Contáctanos

Enfoque de anonimización de datos de subárbol escalable, de alto rendimiento y generalizado para Apache Spark

Autores: Bazai, Sibghat Ullah; Jang-Jaccard, Julian; Alavizadeh, Hooman

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Enfoque de anonimización de datos de subárbol escalable, de alto rendimiento y generalizado para Apache Spark


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Anonimización de datos
Generalización de subárbol
Plataforma MapReduce
Implementación basada en RDD
Apache Spark
Enfoques de preservación de la privacidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones


Descripción
Estrategias de anonimización de datos como la generalización de subárboles han sido aclamadas como técnicas que proporcionan una estrategia de generalización más eficiente en comparación con sus contrapartes de generalización de árboles completos. Muchas estrategias de generalización basadas en subárboles (por ejemplo, de arriba hacia abajo, de abajo hacia arriba y híbridas) se han implementado en la plataforma MapReduce para aprovechar la escalabilidad y el paralelismo. Sin embargo, MapReduce carece intrínsecamente de soporte para la implementación de algoritmos intensivos en iteraciones como la generalización de subárboles. Este artículo propone una implementación basada en Conjuntos de Datos Distribuidos (RDD) para una técnica de anonimización de datos basada en subárboles para Apache Spark para abordar los problemas asociados con las contrapartes basadas en MapReduce. Describimos nuestro enfoque basado en RDD que ofrece una gestión efectiva de particiones, un uso mejorado de la memoria que utiliza caché para valores intermedios referenciados con frecuencia y un soporte de iteración mejorado. Nuestros resultados experimentales proporcionan un alto rendimiento en comparación con los enfoques de preservación de privacidad del estado del arte existentes y garantizan la utilidad de los datos y los niveles de privacidad requeridos para cualquier técnica competitiva de anonimización de datos.

Otros recursos que podrían interesarte

Temas Virtualpro