Doble Pruning de Cálculo de Distancia para Búsqueda de Similitud
Autores: Pola, Ives Renê Venturini; Pola, Fernanda Paula Barbosa; Eler, Danilo Medeiros
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Doble Pruning de Cálculo de Distancia para Búsqueda de Similitud
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aplicaciones modernas
Datos complejos
Recuperación de similitudes
Espacios métricos
Funciones de distancia
Eficiencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Muchas aplicaciones modernas manejan datos complejos, donde la recuperación por similitud juega un papel importante. Los principales mecanismos de comparación de datos complejos se basan en predicados de similitud. Por lo general, están inmersos en espacios métricos donde se emplean funciones de distancia para expresar la similitud y se utiliza una propiedad de límite inferior para prevenir cálculos de distancia. La recuperación por similitud se implementa mediante operadores unarios y binarios. La mayoría de los estudios están dirigidos a mejorar la eficiencia de los operadores unarios, ya sea utilizando métodos de acceso métrico o propiedades matemáticas para podar partes del espacio de búsqueda durante la respuesta a consultas. Los estudios sobre operadores binarios para resolver uniones de similitud tienen como objetivo mejorar la eficiencia y la mayoría de ellos utiliza solo la propiedad de límite inferior métrico para la poda. Sin embargo, dependen de los parámetros de la consulta, como el radio de rango. En este artículo, proponemos un concepto genérico que utiliza tanto propiedades de límite inferior como superior basadas en la Teoría de Espacios Métricos para aumentar la evitación de comparaciones de elementos. El concepto se puede aplicar a cualquier método de recuperación por similitud existente. Analizamos el aumento del poder de poda y mostramos un ejemplo de su aplicación en algoritmos clásicos de bucles anidados para uniones. La evaluación práctica sobre conjuntos de datos tanto sintéticos como reales muestra que nuestro método redujo el número de evaluaciones de distancia en uniones de similitud.
Descripción
Muchas aplicaciones modernas manejan datos complejos, donde la recuperación por similitud juega un papel importante. Los principales mecanismos de comparación de datos complejos se basan en predicados de similitud. Por lo general, están inmersos en espacios métricos donde se emplean funciones de distancia para expresar la similitud y se utiliza una propiedad de límite inferior para prevenir cálculos de distancia. La recuperación por similitud se implementa mediante operadores unarios y binarios. La mayoría de los estudios están dirigidos a mejorar la eficiencia de los operadores unarios, ya sea utilizando métodos de acceso métrico o propiedades matemáticas para podar partes del espacio de búsqueda durante la respuesta a consultas. Los estudios sobre operadores binarios para resolver uniones de similitud tienen como objetivo mejorar la eficiencia y la mayoría de ellos utiliza solo la propiedad de límite inferior métrico para la poda. Sin embargo, dependen de los parámetros de la consulta, como el radio de rango. En este artículo, proponemos un concepto genérico que utiliza tanto propiedades de límite inferior como superior basadas en la Teoría de Espacios Métricos para aumentar la evitación de comparaciones de elementos. El concepto se puede aplicar a cualquier método de recuperación por similitud existente. Analizamos el aumento del poder de poda y mostramos un ejemplo de su aplicación en algoritmos clásicos de bucles anidados para uniones. La evaluación práctica sobre conjuntos de datos tanto sintéticos como reales muestra que nuestro método redujo el número de evaluaciones de distancia en uniones de similitud.