logo móvil
Contáctanos

Modelos de aprendizaje automático basados en muestreo para detección de intrusiones en conjuntos de datos desequilibrados

Autores: Fan, Zongwen; Sohail, Shaleeza; Sabrina, Fariza; Gu, Xin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Modelos de aprendizaje automático basados en muestreo para detección de intrusiones en conjuntos de datos desequilibrados


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Ciberseguridad
Dispositivos IoT
Modelos de aprendizaje automático
Técnicas de sobremuestreo
Técnicas de submuestreo
Modelo XGBoost

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
La ciberseguridad es una de las consideraciones importantes al adoptar dispositivos IoT en aplicaciones inteligentes. Aunque hay un gran volumen de datos disponibles, los datos relacionados con los ataques suelen estar en una proporción significativamente menor. Aunque los modelos de aprendizaje automático se han aplicado con éxito para detectar ataques de seguridad en aplicaciones inteligentes, su rendimiento se ve afectado por el problema de dicho desequilibrio de datos. En este caso, el modelo de predicción es preferible para la clase mayoritaria, mientras que el rendimiento para predecir la clase minoritaria es pobre. Para abordar tales problemas, aplicamos dos técnicas de sobremuestreo y dos técnicas de submuestreo para equilibrar los datos en diferentes categorías. Para verificar su rendimiento, se utilizan cinco modelos de aprendizaje automático, a saber, el árbol de decisiones, percepción de varias capas, bosque aleatorio, XGBoost y CatBoost, en los experimentos basados en la búsqueda en cuadrícula con validación cruzada de 10 pliegues para ajuste de parámetros. Los resultados muestran que tanto las técnicas de sobremuestreo como de submuestreo pueden mejorar el rendimiento de los modelos de predicción utilizados. Según los resultados, el modelo XGBoost basado en SMOTE tiene el mejor rendimiento en términos de precisión al 75%, precisión promedio ponderada al 82%, recall promedio ponderado al 75%, puntuación F1 promedio ponderada al 78% y coeficiente de correlación de Matthews al 72%. Esto indica que esta técnica de sobremuestreo es efectiva para la predicción de múltiples ataques en un escenario de desequilibrio de datos.

Otros recursos que podrían interesarte

Temas Virtualpro