logo móvil
Contáctanos

Reducción dramática de la búsqueda de patrones secuenciales de alta utilidad mediante el mantenimiento de listas de candidatos

Autores: Buffett, Scott

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Reducción dramática de la búsqueda de patrones secuenciales de alta utilidad mediante el mantenimiento de listas de candidatos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desafío
Minería de datos
Patrones frecuentes
Minería de patrones secuenciales
Utilidad
Reducción

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Un desafío ubicuo en todas las áreas de la minería de datos, particularmente en la minería de patrones frecuentes en grandes bases de datos, se centra en la necesidad de reducir el tiempo y el espacio requeridos para realizar la búsqueda. La magnitud de esta reducción facilita proporcionalmente la capacidad de identificar patrones de interés. La minería de patrones secuenciales de alta utilidad (HUSPM) busca identificar patrones frecuentes que son (1) secuenciales por naturaleza y (2) tienen una magnitud significativa de utilidad en una base de datos de secuencias, considerando el aspecto del valor o importancia del ítem. Mientras que la minería de patrones secuenciales tradicional se basa en la propiedad de cierre hacia abajo para reducir significativamente el espacio de búsqueda requerido, con HUSPM, esta propiedad no se sostiene. Para abordar esta desventaja, se propone un enfoque que establece un límite superior estricto sobre la utilidad de futuros patrones secuenciales candidatos al mantener una lista de ítems que se consideran candidatos potenciales para la concatenación. Tales candidatos son demostrablemente los únicos ítems que se necesitan para cualquier extensión de un patrón secuencial dado o sus descendientes en el árbol de búsqueda. Esta lista se explota luego para ajustar significativamente el límite superior sobre las utilidades de los patrones descendientes. Se propone una extensión de este trabajo que reduce significativamente el costo computacional de actualizar las utilidades de la base de datos cada vez que se elimina un ítem candidato de la lista, lo que resulta en una reducción masiva en el número de patrones secuenciales candidatos que deben generarse en la búsqueda. Se demuestran métodos de minería de patrones secuenciales que implementan estas nuevas técnicas para la reducción de límites y una mayor reducción de la lista de candidatos a través de la introducción de los algoritmos CRUSP y CRUSPPivot, respectivamente. La validación de las técnicas se llevó a cabo en seis conjuntos de datos públicos. Las pruebas muestran que el uso del algoritmo CRUSP resulta en una reducción significativa en el número total de patrones secuenciales candidatos que deben considerarse, y posteriormente una reducción significativa en el tiempo de ejecución, en comparación con el estado actual del arte en técnicas de limitación. Al emplear el algoritmo CRUSPPivot, se encontró que la reducción adicional en el tamaño del espacio de búsqueda fue dramática, con la reducción en el tiempo de ejecución considerada dramática a moderada, dependiendo del conjunto de datos. Demostrando la importancia práctica del trabajo, los experimentos mostraron que el tiempo requerido para un conjunto de datos particularmente complejo se redujo de muchas horas a menos de un minuto.

Otros recursos que podrían interesarte

Temas Virtualpro