Método inteligente de identificación y corrección sensible al orden de valores atípicos de múltiples fuentes de datos basado en la minería de datos históricos
Autores: Chen, Guangyu; Zhu, Zhengyang; Yang, Li; Huang, Wenhao; Zhang, Yuzhuo; Lin, Gang; Zhang, Shengjie
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Método inteligente de identificación y corrección sensible al orden de valores atípicos de múltiples fuentes de datos basado en la minería de datos históricos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Valores atípicos
Análisis de grandes datos
Minería de datos históricos
Núcleo neuronal tangente
Datos de múltiples fuentes
Imputación de valores faltantes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
En los últimos años, los valores atípicos causados por errores de operación manual y fallas en la adquisición de equipos ocurren con frecuencia, lo que plantea desafíos para el análisis de grandes volúmenes de datos. Ante las dificultades para identificar y corregir valores atípicos en datos de múltiples fuentes, se propuso un método inteligente de identificación y corrección de valores atípicos de múltiples fuentes de datos basado en la minería de datos históricos. Primero, se propone un método inteligente de identificación de valores atípicos de datos de una sola fuente basado en el clustering K-means del núcleo tangente neuronal (NTKKM). Los datos originales se mapean a un espacio de características de alta dimensión utilizando el Núcleo Tangente Neuronal, donde las características de los valores atípicos se adquieren mediante el clustering K-means para realizar la identificación precisa de los valores atípicos. En segundo lugar, se propuso un marco de imputación de valores faltantes sensible al orden para datos de múltiples fuentes (OMSMVI). Se construyó un grafo de similitud de fuentes con datos faltantes basado en análisis de similitud multidimensional, y la decisión de orden de relleno se transformó en un problema de optimización para realizar la decisión óptima de orden de relleno de valores faltantes en datos de múltiples fuentes. Finalmente, se propone un algoritmo de imputación basado en vecindario (NI). Basado en el algoritmo de relleno tradicional KNN, se seleccionan de manera flexible nodos vecinos de fuentes con datos faltantes para lograr una corrección precisa de valores atípicos. El experimento de caso se realizó en datos reales de la red eléctrica, y los resultados muestran que el método de clustering propuesto puede identificar valores atípicos de manera más precisa, y la secuencia de imputación óptima determinada tiene una mayor precisión, lo que proporciona una nueva idea factible para la identificación y corrección de valores atípicos en el proceso de preprocesamiento de datos.
Descripción
En los últimos años, los valores atípicos causados por errores de operación manual y fallas en la adquisición de equipos ocurren con frecuencia, lo que plantea desafíos para el análisis de grandes volúmenes de datos. Ante las dificultades para identificar y corregir valores atípicos en datos de múltiples fuentes, se propuso un método inteligente de identificación y corrección de valores atípicos de múltiples fuentes de datos basado en la minería de datos históricos. Primero, se propone un método inteligente de identificación de valores atípicos de datos de una sola fuente basado en el clustering K-means del núcleo tangente neuronal (NTKKM). Los datos originales se mapean a un espacio de características de alta dimensión utilizando el Núcleo Tangente Neuronal, donde las características de los valores atípicos se adquieren mediante el clustering K-means para realizar la identificación precisa de los valores atípicos. En segundo lugar, se propuso un marco de imputación de valores faltantes sensible al orden para datos de múltiples fuentes (OMSMVI). Se construyó un grafo de similitud de fuentes con datos faltantes basado en análisis de similitud multidimensional, y la decisión de orden de relleno se transformó en un problema de optimización para realizar la decisión óptima de orden de relleno de valores faltantes en datos de múltiples fuentes. Finalmente, se propone un algoritmo de imputación basado en vecindario (NI). Basado en el algoritmo de relleno tradicional KNN, se seleccionan de manera flexible nodos vecinos de fuentes con datos faltantes para lograr una corrección precisa de valores atípicos. El experimento de caso se realizó en datos reales de la red eléctrica, y los resultados muestran que el método de clustering propuesto puede identificar valores atípicos de manera más precisa, y la secuencia de imputación óptima determinada tiene una mayor precisión, lo que proporciona una nueva idea factible para la identificación y corrección de valores atípicos en el proceso de preprocesamiento de datos.