logo móvil
Contáctanos

Rdpvr: partición aleatoria de datos con regla de votación para aprendizaje automático de conjuntos de datos desequilibrados de clase

Autores: Hassanat, Ahmad B.; Tarawneh, Ahmad S.; Abed, Samer Subhi; Altarawneh, Ghada Awad; Alrashidi, Malek; Alghamdi, Mansoor

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Rdpvr: partición aleatoria de datos con regla de votación para aprendizaje automático de conjuntos de datos desequilibrados de clase


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Desequilibrio de clases
Sobre-muestreo
Sub-muestreo
Método de remuestreo
Regla de votación mayoritaria
Aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
Dado que la mayoría de los clasificadores están sesgados hacia la clase dominante, el desequilibrio de clases es un problema desafiante en el aprendizaje automático. Los enfoques más populares para resolver este problema incluyen el sobremuestreo de ejemplos de la minoría y el submuestreo de ejemplos de la mayoría. El sobremuestreo puede aumentar la probabilidad de sobreajuste, mientras que el submuestreo elimina ejemplos que pueden ser cruciales para el proceso de aprendizaje. Presentamos un método de re-muestreo de tiempo lineal basado en la partición aleatoria de datos y una regla de votación mayoritaria para abordar ambas preocupaciones, donde un conjunto de datos desequilibrado se divide en varios subconjuntos pequeños, cada uno de los cuales debe estar equilibrado en clases. Después de eso, se entrena un clasificador específico para cada subconjunto de datos, y el resultado final de la clasificación se establece aplicando la regla de votación mayoritaria a los resultados de todos los modelos entrenados. Comparamos el rendimiento del método propuesto con algunos de los métodos de sobremuestreo y submuestreo más conocidos, empleando una variedad de clasificadores, en 33 conjuntos de datos de aprendizaje automático de referencia con desequilibrio de clases. Los resultados de clasificación producidos por los clasificadores empleados en los datos generados por el método propuesto fueron comparables a la mayoría de los métodos de re-muestreo probados, con la excepción de SMOTEFUNA, que es un método de sobremuestreo que aumenta la probabilidad de sobreajuste. El método propuesto produjo resultados comparables al método de submuestreo Easy Ensemble (EE). Por lo tanto, para resolver el desafío del aprendizaje automático a partir de conjuntos de datos con desequilibrio de clases, abogamos por el uso de EE o nuestro método.

Otros recursos que podrían interesarte

Temas Virtualpro