Distribución de densidad de similitud: un enfoque optimizado para la detección de valores atípicos
Autores: Quan, Li; Gong, Tao; Jiang, Kaida
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Distribución de densidad de similitud: un enfoque optimizado para la detección de valores atípicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Utilización de datos
Valores atípicos
Modelos no supervisados
Aprendizaje semisupervisado
Modelo de detección de verificación de densidad local
Precisión de detección
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
Cuando se trata de datos inciertos, los métodos tradicionales de construcción de modelos a menudo ignoran o filtran datos ruidosos para mejorar el rendimiento del modelo. Sin embargo, este enfoque simple puede llevar a una utilización insuficiente de datos, sesgo del modelo, capacidad de detección reducida y disminución de la robustez de los modelos de detección. Los valores atípicos pueden considerarse como datos que son inconsistentes con otros patrones en momentos específicos y no siempre son datos negativos, por lo que su aparición no siempre es mala. En el proceso de análisis de datos, los valores atípicos juegan un papel crucial en el reconocimiento de vectores de muestra, el procesamiento de valores faltantes y la verificación de la estabilidad del modelo. Además, los modelos no supervisados tienen costos computacionales muy altos al reconocer valores atípicos, especialmente los modelos no parametrizados. Para resolver los problemas mencionados, utilizamos procesos de aprendizaje semi-supervisado y usamos la similitud como criterio de selección negativo para proponer un modelo de detección de verificación de densidad local (Vd-LOD). Este modelo establece pseudoetiquetas de similitud para muestras de múltiples etiquetas y tipos, verifica la precisión de los valores atípicos basados en factores atípicos locales y aumenta la sensibilidad del detector a los valores atípicos. Los resultados experimentales muestran que bajo diferentes configuraciones de parámetros con cantidades variables de valores atípicos, Vd-LOD supera a otros modelos de detección en términos del aumento significativo en el consumo de tiempo promedio causado por verificar la presencia de relaciones, al mismo tiempo que logra una mejora aproximada del 6% en la precisión promedio de detección.
Descripción
Cuando se trata de datos inciertos, los métodos tradicionales de construcción de modelos a menudo ignoran o filtran datos ruidosos para mejorar el rendimiento del modelo. Sin embargo, este enfoque simple puede llevar a una utilización insuficiente de datos, sesgo del modelo, capacidad de detección reducida y disminución de la robustez de los modelos de detección. Los valores atípicos pueden considerarse como datos que son inconsistentes con otros patrones en momentos específicos y no siempre son datos negativos, por lo que su aparición no siempre es mala. En el proceso de análisis de datos, los valores atípicos juegan un papel crucial en el reconocimiento de vectores de muestra, el procesamiento de valores faltantes y la verificación de la estabilidad del modelo. Además, los modelos no supervisados tienen costos computacionales muy altos al reconocer valores atípicos, especialmente los modelos no parametrizados. Para resolver los problemas mencionados, utilizamos procesos de aprendizaje semi-supervisado y usamos la similitud como criterio de selección negativo para proponer un modelo de detección de verificación de densidad local (Vd-LOD). Este modelo establece pseudoetiquetas de similitud para muestras de múltiples etiquetas y tipos, verifica la precisión de los valores atípicos basados en factores atípicos locales y aumenta la sensibilidad del detector a los valores atípicos. Los resultados experimentales muestran que bajo diferentes configuraciones de parámetros con cantidades variables de valores atípicos, Vd-LOD supera a otros modelos de detección en términos del aumento significativo en el consumo de tiempo promedio causado por verificar la presencia de relaciones, al mismo tiempo que logra una mejora aproximada del 6% en la precisión promedio de detección.