Enfoque de anonimización de datos de subárbol escalable, de alto rendimiento y generalizado para Apache Spark

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Enfoque de anonimización de datos de subárbol escalable, de alto rendimiento y generalizado para Apache Spark

Autores: Bazai, Sibghat Ullah; Jang-Jaccard, Julian; Alavizadeh, Hooman

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Enfoque de anonimización de datos de subárbol escalable, de alto rendimiento y generalizado para Apache Spark

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Anonimización de datos

Generalización de subárbol

Plataforma MapReduce

Implementación basada en RDD

Apache Spark

Enfoques de preservación de la privacidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

Estrategias de anonimización de datos como la generalización de subárboles han sido aclamadas como técnicas que proporcionan una estrategia de generalización más eficiente en comparación con sus contrapartes de generalización de árboles completos. Muchas estrategias de generalización basadas en subárboles (por ejemplo, de arriba hacia abajo, de abajo hacia arriba y híbridas) se han implementado en la plataforma MapReduce para aprovechar la escalabilidad y el paralelismo. Sin embargo, MapReduce carece intrínsecamente de soporte para la implementación de algoritmos intensivos en iteraciones como la generalización de subárboles. Este artículo propone una implementación basada en Conjuntos de Datos Distribuidos (RDD) para una técnica de anonimización de datos basada en subárboles para Apache Spark para abordar los problemas asociados con las contrapartes basadas en MapReduce. Describimos nuestro enfoque basado en RDD que ofrece una gestión efectiva de particiones, un uso mejorado de la memoria que utiliza caché para valores intermedios referenciados con frecuencia y un soporte de iteración mejorado. Nuestros resultados experimentales proporcionan un alto rendimiento en comparación con los enfoques de preservación de privacidad del estado del arte existentes y garantizan la utilidad de los datos y los niveles de privacidad requeridos para cualquier técnica competitiva de anonimización de datos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro