Técnicas, aplicaciones y modelos de agrupamiento de flujos de datos: análisis comparativo y discusión
Autores: Kokate, Umesh; Deshpande, Arvind; Mahalle, Parikshit; Patil, Pramod
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Técnicas, aplicaciones y modelos de agrupamiento de flujos de datos: análisis comparativo y discusión
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Crecimiento de datos
Flujos de datos
Minería de datos
Respuesta en tiempo real
Detección de cambios de concepto
Algoritmos de agrupamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
El crecimiento de datos en el mundo actual es exponencial, muchas aplicaciones generan una gran cantidad de flujos de datos a una velocidad muy alta, como las redes inteligentes, las redes de sensores, la videovigilancia, los sistemas financieros, los datos científicos médicos, los flujos de clics web, los datos de red, etc. En el caso de la minería de datos tradicional, el conjunto de datos suele ser estático y está disponible muchas veces para su procesamiento y análisis. Sin embargo, la minería de flujos de datos debe cumplir con restricciones relacionadas con la respuesta en tiempo real, la memoria limitada y acotada, el paso único y la detección de cambios de concepto. El problema principal es identificar el patrón oculto y el conocimiento para comprender el contexto y así identificar tendencias en los flujos de datos continuos. En este documento, se revisan y evalúan varios métodos y algoritmos de flujos de datos en flujos de datos sintéticos estándar y flujos de datos reales. Se discuten los algoritmos de agrupamiento de microdensidad y de agrupamiento basados en cuadrícula de densidad, y se realiza un análisis comparativo en términos de varios métodos de evaluación de agrupamiento internos y externos. Se observó que un solo algoritmo no puede satisfacer todas las medidas de rendimiento. El rendimiento de estos algoritmos de agrupamiento de flujos de datos es específico del dominio y requiere muchos parámetros para umbrales de densidad y ruido.
Descripción
El crecimiento de datos en el mundo actual es exponencial, muchas aplicaciones generan una gran cantidad de flujos de datos a una velocidad muy alta, como las redes inteligentes, las redes de sensores, la videovigilancia, los sistemas financieros, los datos científicos médicos, los flujos de clics web, los datos de red, etc. En el caso de la minería de datos tradicional, el conjunto de datos suele ser estático y está disponible muchas veces para su procesamiento y análisis. Sin embargo, la minería de flujos de datos debe cumplir con restricciones relacionadas con la respuesta en tiempo real, la memoria limitada y acotada, el paso único y la detección de cambios de concepto. El problema principal es identificar el patrón oculto y el conocimiento para comprender el contexto y así identificar tendencias en los flujos de datos continuos. En este documento, se revisan y evalúan varios métodos y algoritmos de flujos de datos en flujos de datos sintéticos estándar y flujos de datos reales. Se discuten los algoritmos de agrupamiento de microdensidad y de agrupamiento basados en cuadrícula de densidad, y se realiza un análisis comparativo en términos de varios métodos de evaluación de agrupamiento internos y externos. Se observó que un solo algoritmo no puede satisfacer todas las medidas de rendimiento. El rendimiento de estos algoritmos de agrupamiento de flujos de datos es específico del dominio y requiere muchos parámetros para umbrales de densidad y ruido.