Smote-enc: un método novedoso basado en smote para generar datos sintéticos de características nominales y continuas
Autores: Mukherjee, Mimi; Khushi, Matloob
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Smote-enc: un método novedoso basado en smote para generar datos sintéticos de características nominales y continuas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Conjuntos de datos del mundo real
Sesgados
Algoritmos de aprendizaje automático
Métodos sintéticos de sobremuestreo de minorías
SMOTE-ENC
Características nominales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Los conjuntos de datos del mundo real están fuertemente sesgados donde algunas clases están significativamente superadas en número por las otras clases. En estas situaciones, los algoritmos de aprendizaje automático no logran alcanzar una eficacia sustancial al predecir estas instancias subrepresentadas. Para resolver este problema, se han propuesto muchas variaciones de métodos de sobremuestreo sintético de minorías (SMOTE) para equilibrar conjuntos de datos que tratan con características continuas. Sin embargo, para conjuntos de datos con características nominales y continuas, SMOTE-NC es la única técnica de sobremuestreo basada en SMOTE para equilibrar los datos. En este documento, presentamos un nuevo método de sobremuestreo de minorías, SMOTE-ENC (SMOTE Codificado Nominal y Continuo), en el que las características nominales se codifican como valores numéricos y la diferencia entre dos de estos valores numéricos refleja la cantidad de cambio de asociación con la clase minoritaria. Nuestros experimentos muestran que los modelos de clasificación que utilizan el método SMOTE-ENC ofrecen una mejor predicción que los modelos que utilizan SMOTE-NC cuando el conjunto de datos tiene un número sustancial de características nominales y también cuando existe alguna asociación entre las características categóricas y la clase objetivo. Además, nuestro método propuesto abordó una de las principales limitaciones del algoritmo SMOTE-NC. SMOTE-NC solo se puede aplicar en conjuntos de datos mixtos que tienen características que consisten en características continuas y nominales y no puede funcionar si todas las características del conjunto de datos son nominales. Nuestro método novedoso se ha generalizado para ser aplicado tanto a conjuntos de datos mixtos como a conjuntos de datos solo nominales.
Descripción
Los conjuntos de datos del mundo real están fuertemente sesgados donde algunas clases están significativamente superadas en número por las otras clases. En estas situaciones, los algoritmos de aprendizaje automático no logran alcanzar una eficacia sustancial al predecir estas instancias subrepresentadas. Para resolver este problema, se han propuesto muchas variaciones de métodos de sobremuestreo sintético de minorías (SMOTE) para equilibrar conjuntos de datos que tratan con características continuas. Sin embargo, para conjuntos de datos con características nominales y continuas, SMOTE-NC es la única técnica de sobremuestreo basada en SMOTE para equilibrar los datos. En este documento, presentamos un nuevo método de sobremuestreo de minorías, SMOTE-ENC (SMOTE Codificado Nominal y Continuo), en el que las características nominales se codifican como valores numéricos y la diferencia entre dos de estos valores numéricos refleja la cantidad de cambio de asociación con la clase minoritaria. Nuestros experimentos muestran que los modelos de clasificación que utilizan el método SMOTE-ENC ofrecen una mejor predicción que los modelos que utilizan SMOTE-NC cuando el conjunto de datos tiene un número sustancial de características nominales y también cuando existe alguna asociación entre las características categóricas y la clase objetivo. Además, nuestro método propuesto abordó una de las principales limitaciones del algoritmo SMOTE-NC. SMOTE-NC solo se puede aplicar en conjuntos de datos mixtos que tienen características que consisten en características continuas y nominales y no puede funcionar si todas las características del conjunto de datos son nominales. Nuestro método novedoso se ha generalizado para ser aplicado tanto a conjuntos de datos mixtos como a conjuntos de datos solo nominales.