Rdpvr: partición aleatoria de datos con regla de votación para aprendizaje automático de conjuntos de datos desequilibrados de clase
Autores: Hassanat, Ahmad B.; Tarawneh, Ahmad S.; Abed, Samer Subhi; Altarawneh, Ghada Awad; Alrashidi, Malek; Alghamdi, Mansoor
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Rdpvr: partición aleatoria de datos con regla de votación para aprendizaje automático de conjuntos de datos desequilibrados de clase
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Desequilibrio de clases
Sobre-muestreo
Sub-muestreo
Método de remuestreo
Regla de votación mayoritaria
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Dado que la mayoría de los clasificadores están sesgados hacia la clase dominante, el desequilibrio de clases es un problema desafiante en el aprendizaje automático. Los enfoques más populares para resolver este problema incluyen el sobremuestreo de ejemplos de la minoría y el submuestreo de ejemplos de la mayoría. El sobremuestreo puede aumentar la probabilidad de sobreajuste, mientras que el submuestreo elimina ejemplos que pueden ser cruciales para el proceso de aprendizaje. Presentamos un método de re-muestreo de tiempo lineal basado en la partición aleatoria de datos y una regla de votación mayoritaria para abordar ambas preocupaciones, donde un conjunto de datos desequilibrado se divide en varios subconjuntos pequeños, cada uno de los cuales debe estar equilibrado en clases. Después de eso, se entrena un clasificador específico para cada subconjunto de datos, y el resultado final de la clasificación se establece aplicando la regla de votación mayoritaria a los resultados de todos los modelos entrenados. Comparamos el rendimiento del método propuesto con algunos de los métodos de sobremuestreo y submuestreo más conocidos, empleando una variedad de clasificadores, en 33 conjuntos de datos de aprendizaje automático de referencia con desequilibrio de clases. Los resultados de clasificación producidos por los clasificadores empleados en los datos generados por el método propuesto fueron comparables a la mayoría de los métodos de re-muestreo probados, con la excepción de SMOTEFUNA, que es un método de sobremuestreo que aumenta la probabilidad de sobreajuste. El método propuesto produjo resultados comparables al método de submuestreo Easy Ensemble (EE). Por lo tanto, para resolver el desafío del aprendizaje automático a partir de conjuntos de datos con desequilibrio de clases, abogamos por el uso de EE o nuestro método.
Descripción
Dado que la mayoría de los clasificadores están sesgados hacia la clase dominante, el desequilibrio de clases es un problema desafiante en el aprendizaje automático. Los enfoques más populares para resolver este problema incluyen el sobremuestreo de ejemplos de la minoría y el submuestreo de ejemplos de la mayoría. El sobremuestreo puede aumentar la probabilidad de sobreajuste, mientras que el submuestreo elimina ejemplos que pueden ser cruciales para el proceso de aprendizaje. Presentamos un método de re-muestreo de tiempo lineal basado en la partición aleatoria de datos y una regla de votación mayoritaria para abordar ambas preocupaciones, donde un conjunto de datos desequilibrado se divide en varios subconjuntos pequeños, cada uno de los cuales debe estar equilibrado en clases. Después de eso, se entrena un clasificador específico para cada subconjunto de datos, y el resultado final de la clasificación se establece aplicando la regla de votación mayoritaria a los resultados de todos los modelos entrenados. Comparamos el rendimiento del método propuesto con algunos de los métodos de sobremuestreo y submuestreo más conocidos, empleando una variedad de clasificadores, en 33 conjuntos de datos de aprendizaje automático de referencia con desequilibrio de clases. Los resultados de clasificación producidos por los clasificadores empleados en los datos generados por el método propuesto fueron comparables a la mayoría de los métodos de re-muestreo probados, con la excepción de SMOTEFUNA, que es un método de sobremuestreo que aumenta la probabilidad de sobreajuste. El método propuesto produjo resultados comparables al método de submuestreo Easy Ensemble (EE). Por lo tanto, para resolver el desafío del aprendizaje automático a partir de conjuntos de datos con desequilibrio de clases, abogamos por el uso de EE o nuestro método.