Un novedoso algoritmo de detección de valores atípicos no supervisado basado en información mutua y agrupamiento espectral reducido
Autores: Huang, Yuehua; Liu, Wenfen; Li, Song; Guo, Ying; Chen, Wen
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un novedoso algoritmo de detección de valores atípicos no supervisado basado en información mutua y agrupamiento espectral reducido
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de valores atípicos
Minería de datos
Métodos no supervisados
Información mutua
Agrupamiento espectral
MISC-OD
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
La detección de valores atípicos es un campo de investigación esencial en la minería de datos, especialmente en áreas como la seguridad de redes, la detección de fraudes con tarjetas de crédito, la detección de fallas industriales, etc. Los algoritmos existentes de detección de valores atípicos, que pueden dividirse en métodos supervisados y no supervisados, sufren de los siguientes problemas: maldición de la dimensionalidad, falta de datos etiquetados y ajuste de hiperparámetros. Para abordar estos problemas, presentamos un novedoso algoritmo de detección de valores atípicos no supervisado basado en información mutua y agrupamiento espectral reducido, llamado MISC-OD (Detección de Valores Atípicos basada en Información Mutua y Agrupamiento Espectral reducido). MISC-OD primero construye una matriz de información mutua entre características, luego, aplicando agrupamiento espectral reducido, divide el conjunto de características en subconjuntos, utilizando el LOF (Factor de Valores Atípicos Locales) para la detección de valores atípicos dentro de cada subconjunto y combinando los puntajes de valores atípicos encontrados dentro de cada subconjunto. Finalmente, arroja el puntaje de valores atípicos. Nuestras contribuciones son las siguientes: (1) proponemos un nuevo método de detección de valores atípicos llamado MISC-OD con alta interpretabilidad y escalabilidad; (2) numerosos experimentos en 18 conjuntos de datos de referencia demuestran el rendimiento superior del algoritmo MISC-OD en comparación con ocho líneas base de vanguardia en términos de ROC (característica operativa del receptor) y AP (precisión promedio).
Descripción
La detección de valores atípicos es un campo de investigación esencial en la minería de datos, especialmente en áreas como la seguridad de redes, la detección de fraudes con tarjetas de crédito, la detección de fallas industriales, etc. Los algoritmos existentes de detección de valores atípicos, que pueden dividirse en métodos supervisados y no supervisados, sufren de los siguientes problemas: maldición de la dimensionalidad, falta de datos etiquetados y ajuste de hiperparámetros. Para abordar estos problemas, presentamos un novedoso algoritmo de detección de valores atípicos no supervisado basado en información mutua y agrupamiento espectral reducido, llamado MISC-OD (Detección de Valores Atípicos basada en Información Mutua y Agrupamiento Espectral reducido). MISC-OD primero construye una matriz de información mutua entre características, luego, aplicando agrupamiento espectral reducido, divide el conjunto de características en subconjuntos, utilizando el LOF (Factor de Valores Atípicos Locales) para la detección de valores atípicos dentro de cada subconjunto y combinando los puntajes de valores atípicos encontrados dentro de cada subconjunto. Finalmente, arroja el puntaje de valores atípicos. Nuestras contribuciones son las siguientes: (1) proponemos un nuevo método de detección de valores atípicos llamado MISC-OD con alta interpretabilidad y escalabilidad; (2) numerosos experimentos en 18 conjuntos de datos de referencia demuestran el rendimiento superior del algoritmo MISC-OD en comparación con ocho líneas base de vanguardia en términos de ROC (característica operativa del receptor) y AP (precisión promedio).