Algoritmo de detección de valores atípicos basado en vecindarios naturales de densidad-distancia
Autores: Zhang, Jiaxuan; Yang, Youlong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Algoritmo de detección de valores atípicos basado en vecindarios naturales de densidad-distancia
Categoría
Matemáticas
Subcategoría
Análisis matemático
Palabras clave
Detección de valores atípicos
Algoritmos
Basados en densidad
Basados en distancia
Configuración de parámetros
Algoritmo TPOD
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
La detección de valores atípicos es de gran importancia en el ámbito de la minería de datos. Su tarea es encontrar aquellos puntos objetivo que no son idénticos a la mayoría de los mecanismos de generación de objetos. Los algoritmos existentes se dividen principalmente en algoritmos basados en densidad y algoritmos basados en distancia. Sin embargo, ambos enfoques tienen algunas desventajas. El primero lucha por manejar modos de baja densidad, mientras que el segundo no puede detectar valores atípicos locales. Además, el algoritmo de detección de valores atípicos es muy sensible a la configuración de parámetros. Este documento propone un nuevo algoritmo de detección de valores atípicos de dos parámetros (TPOD). El método propuesto en este documento no necesita definir manualmente el número de vecinos, y la introducción de la distancia relativa también puede resolver el problema de baja densidad y detectar con precisión los valores atípicos. Se trata de un problema de optimización combinatoria. En primer lugar, se calcula de forma iterativa el número de vecinos naturales, y luego se calcula la densidad local del objeto objetivo mediante una estimación adaptativa de densidad de núcleo. En segundo lugar, la distancia relativa de los puntos objetivo se calcula a través de los vecinos naturales. Finalmente, estos dos parámetros se combinan para obtener el factor de valor atípico. Esto elimina la influencia de parámetros que requieren que los usuarios determinen el número de valores atípicos ellos mismos, es decir, el efecto top-n. Se utilizaron dos conjuntos de datos sintéticos y 17 conjuntos de datos reales para probar la efectividad de este método; también se proporciona una comparación con otros cinco algoritmos. El valor de AUC y la puntuación F1 en múltiples conjuntos de datos son más altos que en otros algoritmos, lo que indica que los valores atípicos pueden encontrarse con precisión, lo que demuestra que el algoritmo es efectivo.
Descripción
La detección de valores atípicos es de gran importancia en el ámbito de la minería de datos. Su tarea es encontrar aquellos puntos objetivo que no son idénticos a la mayoría de los mecanismos de generación de objetos. Los algoritmos existentes se dividen principalmente en algoritmos basados en densidad y algoritmos basados en distancia. Sin embargo, ambos enfoques tienen algunas desventajas. El primero lucha por manejar modos de baja densidad, mientras que el segundo no puede detectar valores atípicos locales. Además, el algoritmo de detección de valores atípicos es muy sensible a la configuración de parámetros. Este documento propone un nuevo algoritmo de detección de valores atípicos de dos parámetros (TPOD). El método propuesto en este documento no necesita definir manualmente el número de vecinos, y la introducción de la distancia relativa también puede resolver el problema de baja densidad y detectar con precisión los valores atípicos. Se trata de un problema de optimización combinatoria. En primer lugar, se calcula de forma iterativa el número de vecinos naturales, y luego se calcula la densidad local del objeto objetivo mediante una estimación adaptativa de densidad de núcleo. En segundo lugar, la distancia relativa de los puntos objetivo se calcula a través de los vecinos naturales. Finalmente, estos dos parámetros se combinan para obtener el factor de valor atípico. Esto elimina la influencia de parámetros que requieren que los usuarios determinen el número de valores atípicos ellos mismos, es decir, el efecto top-n. Se utilizaron dos conjuntos de datos sintéticos y 17 conjuntos de datos reales para probar la efectividad de este método; también se proporciona una comparación con otros cinco algoritmos. El valor de AUC y la puntuación F1 en múltiples conjuntos de datos son más altos que en otros algoritmos, lo que indica que los valores atípicos pueden encontrarse con precisión, lo que demuestra que el algoritmo es efectivo.