Diafm: un enfoque mejorado y novedoso para la minería incremental de conjuntos de elementos frecuentes
Autores: Shaikh, Mohsin; Akram, Sabina; Khan, Jawad; Khalid, Shah; Lee, Youngmoon
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Diafm: un enfoque mejorado y novedoso para la minería incremental de conjuntos de elementos frecuentes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Enfoques tradicionales
Minería de datos
Minería de conjuntos de elementos frecuentes
Algoritmo DIAFM
Aplicaciones a gran escala
Conjuntos de datos dinámicos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Los enfoques tradicionales para la minería de datos suelen estar diseñados para conjuntos de datos pequeños, centralizados y estáticos. Sin embargo, cuando un conjunto de datos crece a un ritmo enorme, los algoritmos se vuelven inviables en términos de un gran consumo de recursos computacionales y de E/S. La minería de conjuntos de elementos frecuentes (FIM) es uno de los algoritmos clave en la minería de datos y encuentra aplicaciones en una variedad de dominios; sin embargo, los algoritmos tradicionales enfrentan problemas al procesar eficientemente conjuntos de datos grandes y dinámicos. Esta investigación introduce un algoritmo de minería de conjuntos de elementos frecuentes aproximado incremental distribuido (DIAFM) que aborda los desafíos mencionados utilizando una aproximación basada en fragmentos dentro del marco de MapReduce. DIAFM minimiza la sobrecarga computacional de un programa al reducir las exploraciones de conjuntos de datos, al omitir comprobaciones exactas de soporte e incorporar umbrales de error a nivel de fragmento para lograr un equilibrio adecuado entre eficiencia y precisión. Experimentos extensos han demostrado que DIAFM reduce el tiempo de ejecución en un 40-60% en comparación con los métodos tradicionales con pérdidas de precisión de solo 1-5%, incluso para conjuntos de datos de más de 500,000 transacciones. Su naturaleza incremental garantiza que los incrementos de nuevos datos se manejen eficientemente sin necesidad de reprocesar todo el conjunto de datos, lo que lo hace particularmente adecuado para aplicaciones en tiempo real a gran escala, como el análisis de transacciones y flujos de datos de IoT. Estos resultados demuestran la escalabilidad, robustez y aplicabilidad práctica de DIAFM y lo establecen como una solución competitiva y eficiente para la minería de conjuntos de elementos frecuentes en entornos distribuidos y dinámicos.
Descripción
Los enfoques tradicionales para la minería de datos suelen estar diseñados para conjuntos de datos pequeños, centralizados y estáticos. Sin embargo, cuando un conjunto de datos crece a un ritmo enorme, los algoritmos se vuelven inviables en términos de un gran consumo de recursos computacionales y de E/S. La minería de conjuntos de elementos frecuentes (FIM) es uno de los algoritmos clave en la minería de datos y encuentra aplicaciones en una variedad de dominios; sin embargo, los algoritmos tradicionales enfrentan problemas al procesar eficientemente conjuntos de datos grandes y dinámicos. Esta investigación introduce un algoritmo de minería de conjuntos de elementos frecuentes aproximado incremental distribuido (DIAFM) que aborda los desafíos mencionados utilizando una aproximación basada en fragmentos dentro del marco de MapReduce. DIAFM minimiza la sobrecarga computacional de un programa al reducir las exploraciones de conjuntos de datos, al omitir comprobaciones exactas de soporte e incorporar umbrales de error a nivel de fragmento para lograr un equilibrio adecuado entre eficiencia y precisión. Experimentos extensos han demostrado que DIAFM reduce el tiempo de ejecución en un 40-60% en comparación con los métodos tradicionales con pérdidas de precisión de solo 1-5%, incluso para conjuntos de datos de más de 500,000 transacciones. Su naturaleza incremental garantiza que los incrementos de nuevos datos se manejen eficientemente sin necesidad de reprocesar todo el conjunto de datos, lo que lo hace particularmente adecuado para aplicaciones en tiempo real a gran escala, como el análisis de transacciones y flujos de datos de IoT. Estos resultados demuestran la escalabilidad, robustez y aplicabilidad práctica de DIAFM y lo establecen como una solución competitiva y eficiente para la minería de conjuntos de elementos frecuentes en entornos distribuidos y dinámicos.