Un conjunto de árboles mejorado para clasificación en presencia de un desequilibrio extremo de clases
Autores: Safi, Samir K.; Gul, Sheema
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un conjunto de árboles mejorado para clasificación en presencia de un desequilibrio extremo de clases
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desafíos
Desequilibrio de clases
Aprendizaje automático
Métodos de conjunto
Clase minoritaria
Selección de árboles
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Los investigadores que utilizan métodos de aprendizaje automático para la clasificación pueden enfrentar desafíos debido al desequilibrio de clases, donde una clase en particular está subrepresentada. El sobre o sub-muestreo de observaciones de la clase minoritaria o mayoritaria, o depender únicamente de la selección de modelos para los métodos de conjunto, puede resultar ineficaz cuando la proporción de desequilibrio de clases es extremadamente alta. Para abordar este problema, este documento propone un método llamado mejora de conjunto de árboles (ETE), basado en la generación de datos sintéticos para observaciones de la clase minoritaria en conjunción con la selección de árboles basada en su rendimiento en los datos de entrenamiento. El método propuesto primero genera instancias de la clase minoritaria para equilibrar los datos de entrenamiento y luego utiliza la idea de selección de árboles aprovechando las observaciones out-of-bag (fuera de la bolsa) y sub-muestras, respectivamente. La eficacia del método propuesto se evalúa utilizando veinte problemas de referencia para la clasificación binaria con desequilibrio de clase moderado a extremo, comparándolo con otros métodos conocidos como conjunto de árboles óptimo (OTE), bosque aleatorio SMOTE, bosque aleatorio de sobre-muestreo, bosque aleatorio de sub-muestreo, k-vecinos más cercanos (k-NN), máquina de vectores de soporte (SVM), árbol y red neuronal artificial (ANN). Se utilizan métricas de rendimiento como la tasa de error de clasificación y la precisión con fines de evaluación. El análisis del estudio reveló que el método propuesto, basado en el equilibrio de datos y la selección de modelos, produjo mejores resultados que los otros métodos.
Descripción
Los investigadores que utilizan métodos de aprendizaje automático para la clasificación pueden enfrentar desafíos debido al desequilibrio de clases, donde una clase en particular está subrepresentada. El sobre o sub-muestreo de observaciones de la clase minoritaria o mayoritaria, o depender únicamente de la selección de modelos para los métodos de conjunto, puede resultar ineficaz cuando la proporción de desequilibrio de clases es extremadamente alta. Para abordar este problema, este documento propone un método llamado mejora de conjunto de árboles (ETE), basado en la generación de datos sintéticos para observaciones de la clase minoritaria en conjunción con la selección de árboles basada en su rendimiento en los datos de entrenamiento. El método propuesto primero genera instancias de la clase minoritaria para equilibrar los datos de entrenamiento y luego utiliza la idea de selección de árboles aprovechando las observaciones out-of-bag (fuera de la bolsa) y sub-muestras, respectivamente. La eficacia del método propuesto se evalúa utilizando veinte problemas de referencia para la clasificación binaria con desequilibrio de clase moderado a extremo, comparándolo con otros métodos conocidos como conjunto de árboles óptimo (OTE), bosque aleatorio SMOTE, bosque aleatorio de sobre-muestreo, bosque aleatorio de sub-muestreo, k-vecinos más cercanos (k-NN), máquina de vectores de soporte (SVM), árbol y red neuronal artificial (ANN). Se utilizan métricas de rendimiento como la tasa de error de clasificación y la precisión con fines de evaluación. El análisis del estudio reveló que el método propuesto, basado en el equilibrio de datos y la selección de modelos, produjo mejores resultados que los otros métodos.