logo móvil
Contáctanos

Supervisado densidad-basado en aprendizaje métrico basado en distancia de Bhattacharya para problemas de clasificación de datos desequilibrados

Autores: Jalali Mojahed, Atena; Moattar, Mohammad Hossein; Ghaffari, Hamidreza

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Supervisado densidad-basado en aprendizaje métrico basado en distancia de Bhattacharya para problemas de clasificación de datos desequilibrados


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Aprendizaje de métricas de distancia
Conjuntos de datos desequilibrados
Densidad de clase
Aprendizaje de métricas de distancia
Mezclas gaussianas
Clasificación desequilibrada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 45

Citaciones: Sin citaciones


Descripción
Aprender métricas de distancia y distinguir entre muestras de diferentes clases son temas muy importantes en el aprendizaje automático. Este artículo propone un nuevo enfoque de aprendizaje de métricas de distancia diseñado para conjuntos de datos altamente desequilibrados. Los conjuntos de datos desequilibrados sufren de una falta de datos en la clase minoritaria, y las diferencias en la densidad de clase afectan fuertemente la eficiencia de los algoritmos de clasificación. Por lo tanto, la densidad de las clases se considera la base principal para aprender la nueva métrica de distancia. Es posible que los datos de una clase estén compuestos por varias densidades, es decir, la clase es una combinación de varias distribuciones normales con diferentes medias y varianzas. En este artículo, considerando que las clases pueden ser multimodales, se asume que la distribución de cada clase está en forma de una mezcla de densidades gaussianas multivariadas. Se utiliza un algoritmo de agrupamiento basado en densidad para determinar el número de componentes seguido por la estimación de los parámetros de los componentes gaussianos utilizando la estimación de densidad a posteriori máxima. Luego, la distancia de Bhattacharya entre las mezclas gaussianas de las clases se maximiza utilizando un esquema iterativo. Para lograr un margen entre clases grande, se aumenta la distancia entre los componentes externos mientras se disminuye la distancia entre los componentes internos. El método propuesto se evalúa en 15 conjuntos de datos desequilibrados utilizando el clasificador de k-vecinos más cercanos (KNN). Los resultados de los experimentos muestran que el uso del método propuesto mejora significativamente la eficiencia del clasificador en problemas de clasificación desequilibrados. Además, cuando la proporción de desequilibrio es muy alta y no es posible identificar correctamente las muestras de la clase minoritaria, el método propuesto todavía proporciona un rendimiento aceptable.

Otros recursos que podrían interesarte

Temas Virtualpro