logo móvil
Contáctanos

Un conjunto de árboles mejorado para clasificación en presencia de un desequilibrio extremo de clases

Autores: Safi, Samir K.; Gul, Sheema

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un conjunto de árboles mejorado para clasificación en presencia de un desequilibrio extremo de clases


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desafíos
Desequilibrio de clases
Aprendizaje automático
Métodos de conjunto
Clase minoritaria
Selección de árboles

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
Los investigadores que utilizan métodos de aprendizaje automático para la clasificación pueden enfrentar desafíos debido al desequilibrio de clases, donde una clase en particular está subrepresentada. El sobre o sub-muestreo de observaciones de la clase minoritaria o mayoritaria, o depender únicamente de la selección de modelos para los métodos de conjunto, puede resultar ineficaz cuando la proporción de desequilibrio de clases es extremadamente alta. Para abordar este problema, este documento propone un método llamado mejora de conjunto de árboles (ETE), basado en la generación de datos sintéticos para observaciones de la clase minoritaria en conjunción con la selección de árboles basada en su rendimiento en los datos de entrenamiento. El método propuesto primero genera instancias de la clase minoritaria para equilibrar los datos de entrenamiento y luego utiliza la idea de selección de árboles aprovechando las observaciones out-of-bag (fuera de la bolsa) y sub-muestras, respectivamente. La eficacia del método propuesto se evalúa utilizando veinte problemas de referencia para la clasificación binaria con desequilibrio de clase moderado a extremo, comparándolo con otros métodos conocidos como conjunto de árboles óptimo (OTE), bosque aleatorio SMOTE, bosque aleatorio de sobre-muestreo, bosque aleatorio de sub-muestreo, k-vecinos más cercanos (k-NN), máquina de vectores de soporte (SVM), árbol y red neuronal artificial (ANN). Se utilizan métricas de rendimiento como la tasa de error de clasificación y la precisión con fines de evaluación. El análisis del estudio reveló que el método propuesto, basado en el equilibrio de datos y la selección de modelos, produjo mejores resultados que los otros métodos.

Otros recursos que podrían interesarte

Temas Virtualpro