logo móvil
Contáctanos

Smote-enc: un método novedoso basado en smote para generar datos sintéticos de características nominales y continuas

Autores: Mukherjee, Mimi; Khushi, Matloob

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Smote-enc: un método novedoso basado en smote para generar datos sintéticos de características nominales y continuas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Conjuntos de datos del mundo real
Sesgados
Algoritmos de aprendizaje automático
Métodos sintéticos de sobremuestreo de minorías
SMOTE-ENC
Características nominales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
Los conjuntos de datos del mundo real están fuertemente sesgados donde algunas clases están significativamente superadas en número por las otras clases. En estas situaciones, los algoritmos de aprendizaje automático no logran alcanzar una eficacia sustancial al predecir estas instancias subrepresentadas. Para resolver este problema, se han propuesto muchas variaciones de métodos de sobremuestreo sintético de minorías (SMOTE) para equilibrar conjuntos de datos que tratan con características continuas. Sin embargo, para conjuntos de datos con características nominales y continuas, SMOTE-NC es la única técnica de sobremuestreo basada en SMOTE para equilibrar los datos. En este documento, presentamos un nuevo método de sobremuestreo de minorías, SMOTE-ENC (SMOTE Codificado Nominal y Continuo), en el que las características nominales se codifican como valores numéricos y la diferencia entre dos de estos valores numéricos refleja la cantidad de cambio de asociación con la clase minoritaria. Nuestros experimentos muestran que los modelos de clasificación que utilizan el método SMOTE-ENC ofrecen una mejor predicción que los modelos que utilizan SMOTE-NC cuando el conjunto de datos tiene un número sustancial de características nominales y también cuando existe alguna asociación entre las características categóricas y la clase objetivo. Además, nuestro método propuesto abordó una de las principales limitaciones del algoritmo SMOTE-NC. SMOTE-NC solo se puede aplicar en conjuntos de datos mixtos que tienen características que consisten en características continuas y nominales y no puede funcionar si todas las características del conjunto de datos son nominales. Nuestro método novedoso se ha generalizado para ser aplicado tanto a conjuntos de datos mixtos como a conjuntos de datos solo nominales.

Otros recursos que podrían interesarte

Temas Virtualpro