Supervisado densidad-basado en aprendizaje métrico basado en distancia de Bhattacharya para problemas de clasificación de datos desequilibrados
Autores: Jalali Mojahed, Atena; Moattar, Mohammad Hossein; Ghaffari, Hamidreza
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Supervisado densidad-basado en aprendizaje métrico basado en distancia de Bhattacharya para problemas de clasificación de datos desequilibrados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Aprendizaje de métricas de distancia
Conjuntos de datos desequilibrados
Densidad de clase
Aprendizaje de métricas de distancia
Mezclas gaussianas
Clasificación desequilibrada
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
Aprender métricas de distancia y distinguir entre muestras de diferentes clases son temas muy importantes en el aprendizaje automático. Este artículo propone un nuevo enfoque de aprendizaje de métricas de distancia diseñado para conjuntos de datos altamente desequilibrados. Los conjuntos de datos desequilibrados sufren de una falta de datos en la clase minoritaria, y las diferencias en la densidad de clase afectan fuertemente la eficiencia de los algoritmos de clasificación. Por lo tanto, la densidad de las clases se considera la base principal para aprender la nueva métrica de distancia. Es posible que los datos de una clase estén compuestos por varias densidades, es decir, la clase es una combinación de varias distribuciones normales con diferentes medias y varianzas. En este artículo, considerando que las clases pueden ser multimodales, se asume que la distribución de cada clase está en forma de una mezcla de densidades gaussianas multivariadas. Se utiliza un algoritmo de agrupamiento basado en densidad para determinar el número de componentes seguido por la estimación de los parámetros de los componentes gaussianos utilizando la estimación de densidad a posteriori máxima. Luego, la distancia de Bhattacharya entre las mezclas gaussianas de las clases se maximiza utilizando un esquema iterativo. Para lograr un margen entre clases grande, se aumenta la distancia entre los componentes externos mientras se disminuye la distancia entre los componentes internos. El método propuesto se evalúa en 15 conjuntos de datos desequilibrados utilizando el clasificador de k-vecinos más cercanos (KNN). Los resultados de los experimentos muestran que el uso del método propuesto mejora significativamente la eficiencia del clasificador en problemas de clasificación desequilibrados. Además, cuando la proporción de desequilibrio es muy alta y no es posible identificar correctamente las muestras de la clase minoritaria, el método propuesto todavía proporciona un rendimiento aceptable.
Descripción
Aprender métricas de distancia y distinguir entre muestras de diferentes clases son temas muy importantes en el aprendizaje automático. Este artículo propone un nuevo enfoque de aprendizaje de métricas de distancia diseñado para conjuntos de datos altamente desequilibrados. Los conjuntos de datos desequilibrados sufren de una falta de datos en la clase minoritaria, y las diferencias en la densidad de clase afectan fuertemente la eficiencia de los algoritmos de clasificación. Por lo tanto, la densidad de las clases se considera la base principal para aprender la nueva métrica de distancia. Es posible que los datos de una clase estén compuestos por varias densidades, es decir, la clase es una combinación de varias distribuciones normales con diferentes medias y varianzas. En este artículo, considerando que las clases pueden ser multimodales, se asume que la distribución de cada clase está en forma de una mezcla de densidades gaussianas multivariadas. Se utiliza un algoritmo de agrupamiento basado en densidad para determinar el número de componentes seguido por la estimación de los parámetros de los componentes gaussianos utilizando la estimación de densidad a posteriori máxima. Luego, la distancia de Bhattacharya entre las mezclas gaussianas de las clases se maximiza utilizando un esquema iterativo. Para lograr un margen entre clases grande, se aumenta la distancia entre los componentes externos mientras se disminuye la distancia entre los componentes internos. El método propuesto se evalúa en 15 conjuntos de datos desequilibrados utilizando el clasificador de k-vecinos más cercanos (KNN). Los resultados de los experimentos muestran que el uso del método propuesto mejora significativamente la eficiencia del clasificador en problemas de clasificación desequilibrados. Además, cuando la proporción de desequilibrio es muy alta y no es posible identificar correctamente las muestras de la clase minoritaria, el método propuesto todavía proporciona un rendimiento aceptable.