Agrupación basada en densidad para tratar con datos altamente desequilibrados en problemas de múltiples clases
Autores: Munguía Mondragón, Julio Cesar; Rendón Lara, Eréndira; Alejo Eleuterio, Roberto; Granda Gutirrez, Everardo Efrén; Del Razo López, Federico
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Agrupación basada en densidad para tratar con datos altamente desequilibrados en problemas de múltiples clases
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje automático
Desequilibrio de clases
Técnicas de muestreo
Problemas de múltiples clases
Algoritmos de agrupamiento
Aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
En aplicaciones de aprendizaje automático y minería de datos, una distribución desequilibrada de clases en el conjunto de datos de entrenamiento puede afectar drásticamente el rendimiento de los modelos de aprendizaje. El problema del desequilibrio de clases se observa con frecuencia durante tareas de clasificación en escenarios del mundo real cuando las instancias disponibles de una clase son mucho menores que la cantidad de datos disponibles en otras clases. Los algoritmos de aprendizaje automático que no consideran el desequilibrio de clases podrían introducir un fuerte sesgo hacia la clase mayoritaria, mientras que la clase minoritaria suele ser despreciada. Por lo tanto, las técnicas de muestreo se han utilizado ampliamente en varios estudios para superar los desequilibrios de clases, principalmente basadas en métodos de submuestreo y sobremuestreo aleatorios. Sin embargo, todavía no hay una solución final, especialmente en el dominio de problemas de múltiples clases. En este trabajo se estudia una estrategia que combina algoritmos de clustering basados en densidad con técnicas de submuestreo y sobremuestreo aleatorios. Para analizar el rendimiento del método estudiado, se logró una validación experimental en una colección de imágenes de teledetección hiperespectrales, y se utilizó una red neuronal de aprendizaje profundo como clasificador. Esta base de datos contiene seis conjuntos de datos con diferentes ratios de desequilibrio, desde leves hasta severos. Los resultados experimentales superan la clasificación medida por la media geométrica de la precisión en comparación con otros métodos de vanguardia, principalmente para conjuntos de datos altamente desequilibrados.
Descripción
En aplicaciones de aprendizaje automático y minería de datos, una distribución desequilibrada de clases en el conjunto de datos de entrenamiento puede afectar drásticamente el rendimiento de los modelos de aprendizaje. El problema del desequilibrio de clases se observa con frecuencia durante tareas de clasificación en escenarios del mundo real cuando las instancias disponibles de una clase son mucho menores que la cantidad de datos disponibles en otras clases. Los algoritmos de aprendizaje automático que no consideran el desequilibrio de clases podrían introducir un fuerte sesgo hacia la clase mayoritaria, mientras que la clase minoritaria suele ser despreciada. Por lo tanto, las técnicas de muestreo se han utilizado ampliamente en varios estudios para superar los desequilibrios de clases, principalmente basadas en métodos de submuestreo y sobremuestreo aleatorios. Sin embargo, todavía no hay una solución final, especialmente en el dominio de problemas de múltiples clases. En este trabajo se estudia una estrategia que combina algoritmos de clustering basados en densidad con técnicas de submuestreo y sobremuestreo aleatorios. Para analizar el rendimiento del método estudiado, se logró una validación experimental en una colección de imágenes de teledetección hiperespectrales, y se utilizó una red neuronal de aprendizaje profundo como clasificador. Esta base de datos contiene seis conjuntos de datos con diferentes ratios de desequilibrio, desde leves hasta severos. Los resultados experimentales superan la clasificación medida por la media geométrica de la precisión en comparación con otros métodos de vanguardia, principalmente para conjuntos de datos altamente desequilibrados.