Aprendizaje en conjunto basado en KDE para datos desequilibrados
Autores: Kamalov, Firuz; Moussa, Sherif; Avante Reyes, Jorge
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje en conjunto basado en KDE para datos desequilibrados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Distribución desequilibrada de clases
Aprendizaje automático
Clasificación de conjunto
Datos desequilibrados
Estimación de densidad de núcleo
Clasificadores de referencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La distribución desequilibrada de clases afecta a muchas aplicaciones en el aprendizaje automático, incluyendo diagnósticos médicos, clasificación de texto, detección de intrusiones y muchas otras. En este documento, proponemos un método de clasificación de conjunto novedoso diseñado para tratar con datos desequilibrados. El método propuesto entrena cada árbol en el conjunto utilizando datos sintéticamente equilibrados generados de forma única. El equilibrio de datos se lleva a cabo a través de la estimación de densidad kernel, que ofrece un enfoque natural y efectivo para generar nuevos puntos de muestra. Mostramos que el método propuesto resulta en una menor varianza del estimador del modelo. El método propuesto se prueba contra clasificadores de referencia en una variedad de datos simulados y de la vida real. Los resultados de los experimentos muestran que el clasificador propuesto supera significativamente a los métodos de referencia.
Descripción
La distribución desequilibrada de clases afecta a muchas aplicaciones en el aprendizaje automático, incluyendo diagnósticos médicos, clasificación de texto, detección de intrusiones y muchas otras. En este documento, proponemos un método de clasificación de conjunto novedoso diseñado para tratar con datos desequilibrados. El método propuesto entrena cada árbol en el conjunto utilizando datos sintéticamente equilibrados generados de forma única. El equilibrio de datos se lleva a cabo a través de la estimación de densidad kernel, que ofrece un enfoque natural y efectivo para generar nuevos puntos de muestra. Mostramos que el método propuesto resulta en una menor varianza del estimador del modelo. El método propuesto se prueba contra clasificadores de referencia en una variedad de datos simulados y de la vida real. Los resultados de los experimentos muestran que el clasificador propuesto supera significativamente a los métodos de referencia.