Un método de optimización basado en la nube para la detección de amenazas de día cero utilizando algoritmos genéticos y aprendizaje de conjunto
Autores: Nkongolo, Mike; van Deventer, Jacobus Philippus; Kasongo, Sydney Mambwe; Zahra, Syeda Rabab; Kipongo, Joseph
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un método de optimización basado en la nube para la detección de amenazas de día cero utilizando algoritmos genéticos y aprendizaje de conjunto
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Basado en la nube
Ataques 0-day
Aprendizaje Automático
Aprendizaje en Conjunto
Algoritmo Genético
UGRansome1819
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Este artículo presenta un método basado en la nube para clasificar ataques de día cero a partir de un nuevo conjunto de datos llamado UGRansome1819. El objetivo principal de la investigación es clasificar posibles amenazas desconocidas utilizando algoritmos de Aprendizaje Automático (ML) y servicios en la nube. Nuestra contribución al estudio utiliza un nuevo conjunto de datos de detección de anomalías que contiene ataques de día cero para entrenar y probar algoritmos de ML utilizando Amazon Web Services como S3 bucket y SageMaker. El método propuesto utiliza Aprendizaje en Conjunto con un Optimizador de Algoritmo Genético (GA) que tiene tres algoritmos de ML como Naive Bayes (NB), Random Forest (RF) y Máquina de Vectores de Soporte (SVM). Estos algoritmos analizan el conjunto de datos combinando cada clasificador y evaluando la precisión de clasificación de amenazas de día cero. Hemos implementado varias métricas como Precisión, Puntuación F1, Matriz de Confusión, Recuperación y Precisión para evaluar el rendimiento de los algoritmos seleccionados. Luego comparamos la complejidad del rendimiento de UGRansome1819 con conjuntos de datos existentes utilizando la misma configuración de optimización. La implementación de RF (antes y después de la optimización) se mantiene constante en UGRansome1819, superando a los conjuntos de datos CAIDA y UNSWNB-15. La técnica de optimización solo mejoró en Precisión en los conjuntos de datos UNSWNB-15 y CAIDA, pero se logró un rendimiento suficiente en términos de Puntuación F1 con UGRansome1819 utilizando un esquema de clasificación multi-clase. Los resultados experimentales muestran una proporción de clasificación de UGRansome1819 del 1% antes y después de la optimización. En comparación con los conjuntos de datos UNSWNB-15 y CAIDA, UGRansome1819 alcanza el valor de precisión más alto del 99.6% (antes de la optimización). El Algoritmo Genético se utilizó como selector de características y eliminó cinco atributos de UGRansome1819, lo que causó una disminución en el tiempo computacional y el sobreajuste. La forma más sencilla de mejorar el rendimiento del modelo para aumentar su precisión después de la optimización es agregar más muestras de datos al conjunto de datos de entrenamiento. Hacerlo agregará más detalles a los datos y ajustar el modelo resultará en un rendimiento más preciso y optimizado. Los experimentos demuestran la inestabilidad de los clasificadores individuales como SVM y NB y sugieren la técnica de validación optimizada propuesta que puede agregar clasificadores débiles (por ejemplo, SVM y NB) en un conjunto del optimizador genético para mejorar el rendimiento de clasificación. La especificidad y sensibilidad del modelo UGRansome1819 se estimaron en un 100% con tres predictores de clases amenazantes (Firma, Firma Sintética y Anomalía). Por último, la precisión de clasificación de prueba del modelo SVM mejoró un 6% después de la optimización.
Descripción
Este artículo presenta un método basado en la nube para clasificar ataques de día cero a partir de un nuevo conjunto de datos llamado UGRansome1819. El objetivo principal de la investigación es clasificar posibles amenazas desconocidas utilizando algoritmos de Aprendizaje Automático (ML) y servicios en la nube. Nuestra contribución al estudio utiliza un nuevo conjunto de datos de detección de anomalías que contiene ataques de día cero para entrenar y probar algoritmos de ML utilizando Amazon Web Services como S3 bucket y SageMaker. El método propuesto utiliza Aprendizaje en Conjunto con un Optimizador de Algoritmo Genético (GA) que tiene tres algoritmos de ML como Naive Bayes (NB), Random Forest (RF) y Máquina de Vectores de Soporte (SVM). Estos algoritmos analizan el conjunto de datos combinando cada clasificador y evaluando la precisión de clasificación de amenazas de día cero. Hemos implementado varias métricas como Precisión, Puntuación F1, Matriz de Confusión, Recuperación y Precisión para evaluar el rendimiento de los algoritmos seleccionados. Luego comparamos la complejidad del rendimiento de UGRansome1819 con conjuntos de datos existentes utilizando la misma configuración de optimización. La implementación de RF (antes y después de la optimización) se mantiene constante en UGRansome1819, superando a los conjuntos de datos CAIDA y UNSWNB-15. La técnica de optimización solo mejoró en Precisión en los conjuntos de datos UNSWNB-15 y CAIDA, pero se logró un rendimiento suficiente en términos de Puntuación F1 con UGRansome1819 utilizando un esquema de clasificación multi-clase. Los resultados experimentales muestran una proporción de clasificación de UGRansome1819 del 1% antes y después de la optimización. En comparación con los conjuntos de datos UNSWNB-15 y CAIDA, UGRansome1819 alcanza el valor de precisión más alto del 99.6% (antes de la optimización). El Algoritmo Genético se utilizó como selector de características y eliminó cinco atributos de UGRansome1819, lo que causó una disminución en el tiempo computacional y el sobreajuste. La forma más sencilla de mejorar el rendimiento del modelo para aumentar su precisión después de la optimización es agregar más muestras de datos al conjunto de datos de entrenamiento. Hacerlo agregará más detalles a los datos y ajustar el modelo resultará en un rendimiento más preciso y optimizado. Los experimentos demuestran la inestabilidad de los clasificadores individuales como SVM y NB y sugieren la técnica de validación optimizada propuesta que puede agregar clasificadores débiles (por ejemplo, SVM y NB) en un conjunto del optimizador genético para mejorar el rendimiento de clasificación. La especificidad y sensibilidad del modelo UGRansome1819 se estimaron en un 100% con tres predictores de clases amenazantes (Firma, Firma Sintética y Anomalía). Por último, la precisión de clasificación de prueba del modelo SVM mejoró un 6% después de la optimización.