Mejorando el Recall de la Clase Minoritaria a través de una Nueva Técnica de Sobremuestreo Basada en Clústeres
Autores: Prexawanprasut, Takorn; Banditwattanawong, Thepparit
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejorando el Recall de la Clase Minoritaria a través de una Nueva Técnica de Sobremuestreo Basada en Clústeres
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estudio
Errores de falsos negativos
Recuperación de la clase minoritaria
Conjuntos de datos desbalanceados
Técnica de sobremuestreo
Entropía de la información
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En este estudio, proponemos un enfoque para abordar el problema urgente de los errores de falsos negativos al mejorar el recall de la clase minoritaria dentro de conjuntos de datos desbalanceados comúnmente encontrados en aplicaciones de aprendizaje automático. A través de la utilización de una técnica de sobremuestreo basada en clústeres junto con una evaluación de la entropía de la información, nuestro enfoque apunta efectivamente a las áreas de ambigüedad inherentes en el conjunto de datos. Una evaluación extensa a través de una amplia gama de conjuntos de datos del mundo real caracterizados por la complejidad entre clústeres demuestra el rendimiento superior de nuestro método en comparación con las técnicas de sobremuestreo existentes. Es particularmente notable su mejora significativa dentro del conjunto de datos de Delincuencia Telecom, donde logra un aumento notable de hasta el 30.54 por ciento en el recall de la clase minoritaria en comparación con el conjunto de datos original. Esta notable reducción en los errores de falsos negativos subraya la importancia de nuestra metodología para identificar y clasificar con precisión instancias de clases subrepresentadas, mejorando así el rendimiento del modelo en escenarios de datos desbalanceados.
Descripción
En este estudio, proponemos un enfoque para abordar el problema urgente de los errores de falsos negativos al mejorar el recall de la clase minoritaria dentro de conjuntos de datos desbalanceados comúnmente encontrados en aplicaciones de aprendizaje automático. A través de la utilización de una técnica de sobremuestreo basada en clústeres junto con una evaluación de la entropía de la información, nuestro enfoque apunta efectivamente a las áreas de ambigüedad inherentes en el conjunto de datos. Una evaluación extensa a través de una amplia gama de conjuntos de datos del mundo real caracterizados por la complejidad entre clústeres demuestra el rendimiento superior de nuestro método en comparación con las técnicas de sobremuestreo existentes. Es particularmente notable su mejora significativa dentro del conjunto de datos de Delincuencia Telecom, donde logra un aumento notable de hasta el 30.54 por ciento en el recall de la clase minoritaria en comparación con el conjunto de datos original. Esta notable reducción en los errores de falsos negativos subraya la importancia de nuestra metodología para identificar y clasificar con precisión instancias de clases subrepresentadas, mejorando así el rendimiento del modelo en escenarios de datos desbalanceados.