logo móvil
Contáctanos

Un Filtro de Bloom para Vectores de Alta Dimensión

Autores: Shuai, Chunyan; Yang, Hengcheng; Ouyang, Xin; Gong, Zeweiyi

Idioma: Inglés

Editor: MDPI

Año: 2018

Descargar PDF

Acceso abierto

Artículo científico
2018

Un Filtro de Bloom para Vectores de Alta Dimensión


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Filtros de Bloom tradicionales
Filtro de Bloom de alta dimensión
Hashes enteros
Vectores numéricos
Probabilidad de falsos positivos
Discretización de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Independientemente del tipo de datos, los filtros de Bloom tradicionales tratan cada elemento de un conjunto como una cadena, y al iterar cada carácter de la cadena, discretizan todos los datos de manera aleatoria y uniforme. Sin embargo, a medida que aumenta el tamaño y la dimensión de los datos, estas variantes son ineficientes. Para discretizar mejor los vectores con altas dimensiones numéricas, este artículo mejora los hashes de cadenas a hashes enteros. Basado en los hashes enteros y un arreglo de contadores, proponemos una nueva variante: el filtro de Bloom de alta dimensión (HDBF), para extender el filtro de Bloom a espacios de alta dimensión, que puede representar y consultar vectores numéricos de un gran conjunto con una baja probabilidad de falsos positivos. Este artículo analiza teóricamente la viabilidad de los hashes enteros en la discretización de datos y discute la relación de los parámetros del HDBF. Los experimentos ilustran que, en espacios numéricos de alta dimensión, el HDBF muestra mejor aleatoriedad en la distribución y la entropía que el filtro de Bloom de conteo. En comparación con los filtros de Bloom paralelos, para una probabilidad fija de falsos positivos, el HDBF muestra sobrecostos en tiempo y espacio, y es más adecuado para tratar con vectores numéricos de altas dimensiones.

Otros recursos que podrían interesarte

Temas Virtualpro