Utilizando el clustering de vecinos más cercanos para abordar conjuntos de datos desequilibrados en bioingeniería
Autores: Huang, Chih-Ming; Lin, Chun-Hung; Hung, Chuan-Sheng; Zeng, Wun-Hui; Zheng, You-Cheng; Tsai, Chih-Min
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Utilizando el clustering de vecinos más cercanos para abordar conjuntos de datos desequilibrados en bioingeniería
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Desequilibrio
Clasificación
De una clase
Algoritmo
Valor atípico
Datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La clasificación de desequilibrio es común en escenarios como el diagnóstico de fallas, la detección de intrusiones y el diagnóstico médico, donde obtener datos anormales es difícil. Este artículo aborda un problema de una sola clase, implementando y refinando el algoritmo de Vecino más Cercano de una Sola Clase (OCNN). El mecanismo original de rango intercuartílico se reemplaza con el algoritmo K-means con eliminación de outliers (KMOR) para una identificación eficiente de outliers en la clase objetivo. Los parámetros se optimizan tratando a estos outliers como muestras que no pertenecen a la clase objetivo. Un nuevo algoritmo, el algoritmo de Vecino más Cercano basado en la Ubicación (LBNN), agrupa datos de entrenamiento de una sola clase utilizando KMOR y calcula la distancia más lejana y el percentil para cada punto de datos de prueba para determinar si pertenece a la clase objetivo. Los experimentos cubren estudios de parámetros, validación en ocho conjuntos de datos desequilibrados estándar de KEEL y tres aplicaciones en conjuntos de datos médicos reales desequilibrados. Los resultados muestran un rendimiento superior en precisión, recall y G-means en comparación con modelos de clasificación tradicionales, lo que lo hace efectivo para manejar los desafíos de datos desequilibrados.
Descripción
La clasificación de desequilibrio es común en escenarios como el diagnóstico de fallas, la detección de intrusiones y el diagnóstico médico, donde obtener datos anormales es difícil. Este artículo aborda un problema de una sola clase, implementando y refinando el algoritmo de Vecino más Cercano de una Sola Clase (OCNN). El mecanismo original de rango intercuartílico se reemplaza con el algoritmo K-means con eliminación de outliers (KMOR) para una identificación eficiente de outliers en la clase objetivo. Los parámetros se optimizan tratando a estos outliers como muestras que no pertenecen a la clase objetivo. Un nuevo algoritmo, el algoritmo de Vecino más Cercano basado en la Ubicación (LBNN), agrupa datos de entrenamiento de una sola clase utilizando KMOR y calcula la distancia más lejana y el percentil para cada punto de datos de prueba para determinar si pertenece a la clase objetivo. Los experimentos cubren estudios de parámetros, validación en ocho conjuntos de datos desequilibrados estándar de KEEL y tres aplicaciones en conjuntos de datos médicos reales desequilibrados. Los resultados muestran un rendimiento superior en precisión, recall y G-means en comparación con modelos de clasificación tradicionales, lo que lo hace efectivo para manejar los desafíos de datos desequilibrados.