Estrategias de particionamiento para la computación en paralelo de skylines flexibles
Autores: De Lorenzis, Emilio; Martinenghi, Davide
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Estrategias de particionamiento para la computación en paralelo de skylines flexibles
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Datos
Horizontes flexibles
Esquema de computación paralela
Marco de trabajo PySpark
Conjuntos de datos grandes
Pesos de atributos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Si bien las consultas de skyline clásicas identifican datos interesantes dentro de conjuntos de datos grandes, los skylines flexibles introducen preferencias a través de restricciones en los pesos de los atributos, y reducen aún más los datos devueltos. Sin embargo, calcular estas consultas puede ser consumidor de tiempo para conjuntos de datos grandes. Proponemos e implementamos un esquema de cálculo paralelo que consiste en una fase paralela seguida de una fase secuencial, y lo aplicamos a los skylines flexibles. Evaluamos el efecto adicional de una fase de filtrado inicial para reducir el tamaño del conjunto de datos antes del procesamiento paralelo, y la eliminación de la parte secuencial (la más consumidora de tiempo) por completo. Todos nuestros experimentos se ejecutan en el marco de PySpark para una serie de conjuntos de datos diferentes de tamaños y dimensiones variables.
Descripción
Si bien las consultas de skyline clásicas identifican datos interesantes dentro de conjuntos de datos grandes, los skylines flexibles introducen preferencias a través de restricciones en los pesos de los atributos, y reducen aún más los datos devueltos. Sin embargo, calcular estas consultas puede ser consumidor de tiempo para conjuntos de datos grandes. Proponemos e implementamos un esquema de cálculo paralelo que consiste en una fase paralela seguida de una fase secuencial, y lo aplicamos a los skylines flexibles. Evaluamos el efecto adicional de una fase de filtrado inicial para reducir el tamaño del conjunto de datos antes del procesamiento paralelo, y la eliminación de la parte secuencial (la más consumidora de tiempo) por completo. Todos nuestros experimentos se ejecutan en el marco de PySpark para una serie de conjuntos de datos diferentes de tamaños y dimensiones variables.