Un algoritmo de hashing basado en ranking en la plataforma distribuida Spark
Autores: Yang, Anbang; Qian, Jiangbo; Chen, Huahui; Dong, Yihong
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Un algoritmo de hashing basado en ranking en la plataforma distribuida Spark
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desarrollo rápido
Datos generados
Tecnología de hashing
Algoritmo basado en ranking
Marco de trabajo Spark
Eficiencia en el entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con el rápido desarrollo de la sociedad moderna, los datos generados han aumentado exponencialmente. Encontrar los datos requeridos de este enorme conjunto de datos es un problema urgente que necesita ser resuelto. La tecnología de hashing se utiliza ampliamente en búsquedas de similitud de datos a gran escala. Entre ellas, el algoritmo de hashing basado en ranking ha sido ampliamente estudiado debido a su precisión y velocidad en los resultados de búsqueda. En la actualidad, la mayoría de los algoritmos de hashing basados en ranking construyen funciones de pérdida comparando la consistencia de rango de los datos en los espacios euclidiano y de Hamming. Sin embargo, la mayoría de ellos tienen una alta complejidad temporal y largos tiempos de entrenamiento, lo que significa que no pueden cumplir con los requisitos. Para resolver estos problemas, este artículo introduce un marco distribuido de Spark e implementa el algoritmo de hashing basado en ranking en un entorno paralelo en múltiples máquinas. Los resultados experimentales muestran que el Spark-RLSH (Hashing de Supervisión de Lista de Ranking) puede reducir significativamente el tiempo de entrenamiento y mejorar la eficiencia del entrenamiento en comparación con otros algoritmos de hashing basados en ranking.
Descripción
Con el rápido desarrollo de la sociedad moderna, los datos generados han aumentado exponencialmente. Encontrar los datos requeridos de este enorme conjunto de datos es un problema urgente que necesita ser resuelto. La tecnología de hashing se utiliza ampliamente en búsquedas de similitud de datos a gran escala. Entre ellas, el algoritmo de hashing basado en ranking ha sido ampliamente estudiado debido a su precisión y velocidad en los resultados de búsqueda. En la actualidad, la mayoría de los algoritmos de hashing basados en ranking construyen funciones de pérdida comparando la consistencia de rango de los datos en los espacios euclidiano y de Hamming. Sin embargo, la mayoría de ellos tienen una alta complejidad temporal y largos tiempos de entrenamiento, lo que significa que no pueden cumplir con los requisitos. Para resolver estos problemas, este artículo introduce un marco distribuido de Spark e implementa el algoritmo de hashing basado en ranking en un entorno paralelo en múltiples máquinas. Los resultados experimentales muestran que el Spark-RLSH (Hashing de Supervisión de Lista de Ranking) puede reducir significativamente el tiempo de entrenamiento y mejorar la eficiencia del entrenamiento en comparación con otros algoritmos de hashing basados en ranking.