Smote-enc: un método novedoso basado en smote para generar datos sintéticos de características nominales y continuas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Smote-enc: un método novedoso basado en smote para generar datos sintéticos de características nominales y continuas

Autores: Mukherjee, Mimi; Khushi, Matloob

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Smote-enc: un método novedoso basado en smote para generar datos sintéticos de características nominales y continuas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Conjuntos de datos del mundo real

Sesgados

Algoritmos de aprendizaje automático

Métodos sintéticos de sobremuestreo de minorías

SMOTE-ENC

Características nominales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones

Los conjuntos de datos del mundo real están fuertemente sesgados donde algunas clases están significativamente superadas en número por las otras clases. En estas situaciones, los algoritmos de aprendizaje automático no logran alcanzar una eficacia sustancial al predecir estas instancias subrepresentadas. Para resolver este problema, se han propuesto muchas variaciones de métodos de sobremuestreo sintético de minorías (SMOTE) para equilibrar conjuntos de datos que tratan con características continuas. Sin embargo, para conjuntos de datos con características nominales y continuas, SMOTE-NC es la única técnica de sobremuestreo basada en SMOTE para equilibrar los datos. En este documento, presentamos un nuevo método de sobremuestreo de minorías, SMOTE-ENC (SMOTE Codificado Nominal y Continuo), en el que las características nominales se codifican como valores numéricos y la diferencia entre dos de estos valores numéricos refleja la cantidad de cambio de asociación con la clase minoritaria. Nuestros experimentos muestran que los modelos de clasificación que utilizan el método SMOTE-ENC ofrecen una mejor predicción que los modelos que utilizan SMOTE-NC cuando el conjunto de datos tiene un número sustancial de características nominales y también cuando existe alguna asociación entre las características categóricas y la clase objetivo. Además, nuestro método propuesto abordó una de las principales limitaciones del algoritmo SMOTE-NC. SMOTE-NC solo se puede aplicar en conjuntos de datos mixtos que tienen características que consisten en características continuas y nominales y no puede funcionar si todas las características del conjunto de datos son nominales. Nuestro método novedoso se ha generalizado para ser aplicado tanto a conjuntos de datos mixtos como a conjuntos de datos solo nominales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro