La generación de datos sintéticos basada en áspero-difuso explora la región límite de los conjuntos ásperos para abordar el problema de desequilibrio de clases
Autores: Naushin, Mehwish; Das, Asit Kumar; Nayak, Janmenjoy; Pelusi, Danilo
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
La generación de datos sintéticos basada en áspero-difuso explora la región límite de los conjuntos ásperos para abordar el problema de desequilibrio de clases
Categoría
Matemáticas
Subcategoría
Análisis matemático
Palabras clave
Desequilibrio de clases
Técnicas de aprendizaje automático
Teoría áspera-difusa
Aprendizaje de datos desequilibrados
Datos sintéticos
Valores atípicos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
El desequilibrio de clases es un problema prevalente que no solo reduce el rendimiento de las técnicas de aprendizaje automático, sino que también provoca la falta de las complejidades inherentes de los datos. Aunque los investigadores han propuesto diversas formas de abordar el problema, aún no han considerado cómo seleccionar un tratamiento adecuado, especialmente cuando los niveles de incertidumbre son altos. Aplicar la teoría áspero-difusa al problema de aprendizaje de datos desequilibrados podría ser una dirección de investigación prometedora que genere datos sintéticos y elimine los valores atípicos. El trabajo propuesto identifica las regiones positivas, de límites y negativas del conjunto objetivo utilizando la teoría de conjuntos ásperos y elimina los objetos en la región negativa como valores atípicos. También explora las regiones positivas y de límites del conjunto áspero aplicando la teoría difusa para generar muestras de la clase minoritaria y eliminar las muestras de la clase mayoritaria. Por lo tanto, el enfoque áspero-difuso propuesto realiza tanto el sobremuestreo como el submuestreo para manejar el problema de desequilibrio de clases. Los resultados experimentales demuestran que la técnica novedosa permite el manejo cualitativo y cuantitativo de los datos.
Descripción
El desequilibrio de clases es un problema prevalente que no solo reduce el rendimiento de las técnicas de aprendizaje automático, sino que también provoca la falta de las complejidades inherentes de los datos. Aunque los investigadores han propuesto diversas formas de abordar el problema, aún no han considerado cómo seleccionar un tratamiento adecuado, especialmente cuando los niveles de incertidumbre son altos. Aplicar la teoría áspero-difusa al problema de aprendizaje de datos desequilibrados podría ser una dirección de investigación prometedora que genere datos sintéticos y elimine los valores atípicos. El trabajo propuesto identifica las regiones positivas, de límites y negativas del conjunto objetivo utilizando la teoría de conjuntos ásperos y elimina los objetos en la región negativa como valores atípicos. También explora las regiones positivas y de límites del conjunto áspero aplicando la teoría difusa para generar muestras de la clase minoritaria y eliminar las muestras de la clase mayoritaria. Por lo tanto, el enfoque áspero-difuso propuesto realiza tanto el sobremuestreo como el submuestreo para manejar el problema de desequilibrio de clases. Los resultados experimentales demuestran que la técnica novedosa permite el manejo cualitativo y cuantitativo de los datos.