logo móvil
Contáctanos

Algoritmo de detección de valores atípicos basado en vecindarios naturales de densidad-distancia

Autores: Zhang, Jiaxuan; Yang, Youlong

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Algoritmo de detección de valores atípicos basado en vecindarios naturales de densidad-distancia


Categoría

Matemáticas

Subcategoría

Análisis matemático

Palabras clave

Detección de valores atípicos
Algoritmos
Basados en densidad
Basados en distancia
Configuración de parámetros
Algoritmo TPOD

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
La detección de valores atípicos es de gran importancia en el ámbito de la minería de datos. Su tarea es encontrar aquellos puntos objetivo que no son idénticos a la mayoría de los mecanismos de generación de objetos. Los algoritmos existentes se dividen principalmente en algoritmos basados en densidad y algoritmos basados en distancia. Sin embargo, ambos enfoques tienen algunas desventajas. El primero lucha por manejar modos de baja densidad, mientras que el segundo no puede detectar valores atípicos locales. Además, el algoritmo de detección de valores atípicos es muy sensible a la configuración de parámetros. Este documento propone un nuevo algoritmo de detección de valores atípicos de dos parámetros (TPOD). El método propuesto en este documento no necesita definir manualmente el número de vecinos, y la introducción de la distancia relativa también puede resolver el problema de baja densidad y detectar con precisión los valores atípicos. Se trata de un problema de optimización combinatoria. En primer lugar, se calcula de forma iterativa el número de vecinos naturales, y luego se calcula la densidad local del objeto objetivo mediante una estimación adaptativa de densidad de núcleo. En segundo lugar, la distancia relativa de los puntos objetivo se calcula a través de los vecinos naturales. Finalmente, estos dos parámetros se combinan para obtener el factor de valor atípico. Esto elimina la influencia de parámetros que requieren que los usuarios determinen el número de valores atípicos ellos mismos, es decir, el efecto top-n. Se utilizaron dos conjuntos de datos sintéticos y 17 conjuntos de datos reales para probar la efectividad de este método; también se proporciona una comparación con otros cinco algoritmos. El valor de AUC y la puntuación F1 en múltiples conjuntos de datos son más altos que en otros algoritmos, lo que indica que los valores atípicos pueden encontrarse con precisión, lo que demuestra que el algoritmo es efectivo.

Otros recursos que podrían interesarte

Temas Virtualpro