Re-muestreo para clasificar tácticas de ataque raras en UWF-ZeekData22
Autores: Bagui, Sikha S.; Mink, Dustin; Bagui, Subhash C.; Subramaniam, Sakthivel
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Re-muestreo para clasificar tácticas de ataque raras en UWF-ZeekData22
Categoría
Gestión y administración
Subcategoría
Gestión del conocimiento
Palabras clave
Principales problemas
Desequilibrio de clases
Técnicas de remuestreo
UWF-ZeekData22
Tácticas de ataque
Técnicas de sobremuestreo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 15
Citaciones: Sin citaciones
Uno de los principales problemas en la clasificación de tácticas de ataque en redes es la naturaleza desequilibrada de los datos. Los conjuntos de datos de redes típicos tienen un porcentaje extremadamente alto de tráfico normal o benigno y los algoritmos de aprendizaje automático están sesgados hacia las clases con más datos; por lo tanto, los datos de ataque permanecen clasificados incorrectamente. Este artículo aborda el problema del desequilibrio de clases utilizando técnicas de re-muestreo en un conjunto de datos recién creado, UWF-ZeekData22. Este es el primer conjunto de datos con etiquetas de tácticas, etiquetadas según el marco MITRE ATT&CK. Este conjunto de datos contiene aproximadamente la mitad de datos benignos y la mitad de datos de tácticas de ataque, pero tácticas específicas tienen un número escaso de ocurrencias dentro de las tácticas de ataque. Nuestro objetivo en este artículo fue utilizar técnicas de re-muestreo para clasificar dos tácticas raras, escalada de privilegios y acceso a credenciales, que nunca antes habían sido clasificadas. El estudio también analiza el orden de sobre-muestreo y sub-muestreo. Se utilizaron diferentes proporciones de re-muestreo con técnicas de sobre-muestreo como BSMOTE y SVM-SMOTE, y se utilizó sub-muestreo aleatorio sin reemplazo. Basado en los resultados, se puede observar que el orden de sobre-muestreo y sub-muestreo importa y, en muchos casos, incluso una proporción de sobre-muestreo del 10% de los datos mayoritarios es suficiente para obtener los mejores resultados.
Descripción
Uno de los principales problemas en la clasificación de tácticas de ataque en redes es la naturaleza desequilibrada de los datos. Los conjuntos de datos de redes típicos tienen un porcentaje extremadamente alto de tráfico normal o benigno y los algoritmos de aprendizaje automático están sesgados hacia las clases con más datos; por lo tanto, los datos de ataque permanecen clasificados incorrectamente. Este artículo aborda el problema del desequilibrio de clases utilizando técnicas de re-muestreo en un conjunto de datos recién creado, UWF-ZeekData22. Este es el primer conjunto de datos con etiquetas de tácticas, etiquetadas según el marco MITRE ATT&CK. Este conjunto de datos contiene aproximadamente la mitad de datos benignos y la mitad de datos de tácticas de ataque, pero tácticas específicas tienen un número escaso de ocurrencias dentro de las tácticas de ataque. Nuestro objetivo en este artículo fue utilizar técnicas de re-muestreo para clasificar dos tácticas raras, escalada de privilegios y acceso a credenciales, que nunca antes habían sido clasificadas. El estudio también analiza el orden de sobre-muestreo y sub-muestreo. Se utilizaron diferentes proporciones de re-muestreo con técnicas de sobre-muestreo como BSMOTE y SVM-SMOTE, y se utilizó sub-muestreo aleatorio sin reemplazo. Basado en los resultados, se puede observar que el orden de sobre-muestreo y sub-muestreo importa y, en muchos casos, incluso una proporción de sobre-muestreo del 10% de los datos mayoritarios es suficiente para obtener los mejores resultados.