Identificación Rápida de Conjuntos de Ítems de Alta Utilidad a partir de Candidatos
Autores: Qu, Jun-Feng; Liu, Mengchi; Xin, Chunsheng; Wu, Zhongbo
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Identificación Rápida de Conjuntos de Ítems de Alta Utilidad a partir de Candidatos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Conjuntos de alta utilidad
Algoritmos de minería
Generación de candidatos
Cálculo de utilidad
Estructura de árbol de candidatos
Identificación de HUI
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los conjuntos de ítems de alta utilidad (HUIs) son conjuntos de ítems con alta utilidad, como el beneficio, en una base de datos. La minería eficiente de conjuntos de ítems de alta utilidad es un problema importante en el área de minería de datos. Muchos algoritmos de minería adoptan un marco de dos fases. Primero generan un conjunto de conjuntos de ítems candidatos sobrestimando groseramente las utilidades de todos los conjuntos de ítems en una base de datos, y posteriormente calculan la utilidad exacta de cada candidato para identificar los HUIs. Por lo tanto, los principales costos en estos algoritmos provienen de la generación de candidatos y el cálculo de utilidades. Los trabajos anteriores se centran principalmente en cómo reducir el número de candidatos, sin dedicar mucha atención al cálculo de utilidades, hasta donde sabemos. Sin embargo, encontramos que, para una tarea de minería, el tiempo de cálculo de utilidades en los algoritmos de dos fases domina el tiempo total de ejecución de estos algoritmos. Por lo tanto, es importante optimizar el cálculo de utilidades. En este documento, primero presentamos un algoritmo básico para la identificación de HUIs, cuyo núcleo es un procedimiento de cálculo de utilidades. Posteriormente, se propone una nueva estructura de árbol de candidatos para almacenar conjuntos de ítems candidatos, y se desarrolla un algoritmo basado en árboles de candidatos para la identificación rápida de HUIs, en el que hay un procedimiento de cálculo de utilidades eficiente. Resultados experimentales extensos muestran que el algoritmo basado en árboles de candidatos supera al algoritmo básico y que el rendimiento de los algoritmos de dos fases, integrando el algoritmo de árbol de candidatos como su segundo paso, puede mejorarse significativamente.
Descripción
Los conjuntos de ítems de alta utilidad (HUIs) son conjuntos de ítems con alta utilidad, como el beneficio, en una base de datos. La minería eficiente de conjuntos de ítems de alta utilidad es un problema importante en el área de minería de datos. Muchos algoritmos de minería adoptan un marco de dos fases. Primero generan un conjunto de conjuntos de ítems candidatos sobrestimando groseramente las utilidades de todos los conjuntos de ítems en una base de datos, y posteriormente calculan la utilidad exacta de cada candidato para identificar los HUIs. Por lo tanto, los principales costos en estos algoritmos provienen de la generación de candidatos y el cálculo de utilidades. Los trabajos anteriores se centran principalmente en cómo reducir el número de candidatos, sin dedicar mucha atención al cálculo de utilidades, hasta donde sabemos. Sin embargo, encontramos que, para una tarea de minería, el tiempo de cálculo de utilidades en los algoritmos de dos fases domina el tiempo total de ejecución de estos algoritmos. Por lo tanto, es importante optimizar el cálculo de utilidades. En este documento, primero presentamos un algoritmo básico para la identificación de HUIs, cuyo núcleo es un procedimiento de cálculo de utilidades. Posteriormente, se propone una nueva estructura de árbol de candidatos para almacenar conjuntos de ítems candidatos, y se desarrolla un algoritmo basado en árboles de candidatos para la identificación rápida de HUIs, en el que hay un procedimiento de cálculo de utilidades eficiente. Resultados experimentales extensos muestran que el algoritmo basado en árboles de candidatos supera al algoritmo básico y que el rendimiento de los algoritmos de dos fases, integrando el algoritmo de árbol de candidatos como su segundo paso, puede mejorarse significativamente.