mejora del rendimiento de la clasificación de un modelo de detección de intrusiones para tráfico de ataques raros y desconocidos
Autores: Han, Sangsoo; Kim, Youngwon; Lee, Soojin
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
mejora del rendimiento de la clasificación de un modelo de detección de intrusiones para tráfico de ataques raros y desconocidos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Datos raros
Datos desconocidos
Rendimiento de clasificación
Conjuntos de validación
Sobreajuste
Generación de modelos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Cómo lidiar con datos raros y desconocidos en la clasificación de tráfico tiene una influencia decisiva en el rendimiento de la clasificación. Los datos raros dificultan la generación de conjuntos de datos de validación para prevenir el sobreajuste, y los datos desconocidos interfieren con el aprendizaje y degradan el rendimiento del modelo. Este artículo presenta un método de generación de modelos que clasifica con precisión datos raros y nuevos tipos de ataques, sin resultar en sobreajuste. Primero, utilizamos métodos de sobremuestreo para resolver el desequilibrio de datos causado por los datos raros. Separamos el conjunto de datos de prueba en un conjunto de datos de entrenamiento y un conjunto de datos de validación. Se crea un modelo utilizando conjuntos de datos de entrenamiento y validación separados. Además, el conjunto de datos de prueba se utiliza solo para evaluar las capacidades de rendimiento de los modelos de clasificación, con el fin de hacer que el conjunto de datos de prueba sea independiente del aprendizaje. También utilizamos una función softmax que indica numéricamente la probabilidad de que los resultados predictivos del modelo sean precisos en la detección de nuevos ataques desconocidos. En consecuencia, al aplicar el método propuesto al conjunto de datos NSL_KDD, la precisión es del 91.66%, una mejora del 6-16% en comparación con los métodos existentes.
Descripción
Cómo lidiar con datos raros y desconocidos en la clasificación de tráfico tiene una influencia decisiva en el rendimiento de la clasificación. Los datos raros dificultan la generación de conjuntos de datos de validación para prevenir el sobreajuste, y los datos desconocidos interfieren con el aprendizaje y degradan el rendimiento del modelo. Este artículo presenta un método de generación de modelos que clasifica con precisión datos raros y nuevos tipos de ataques, sin resultar en sobreajuste. Primero, utilizamos métodos de sobremuestreo para resolver el desequilibrio de datos causado por los datos raros. Separamos el conjunto de datos de prueba en un conjunto de datos de entrenamiento y un conjunto de datos de validación. Se crea un modelo utilizando conjuntos de datos de entrenamiento y validación separados. Además, el conjunto de datos de prueba se utiliza solo para evaluar las capacidades de rendimiento de los modelos de clasificación, con el fin de hacer que el conjunto de datos de prueba sea independiente del aprendizaje. También utilizamos una función softmax que indica numéricamente la probabilidad de que los resultados predictivos del modelo sean precisos en la detección de nuevos ataques desconocidos. En consecuencia, al aplicar el método propuesto al conjunto de datos NSL_KDD, la precisión es del 91.66%, una mejora del 6-16% en comparación con los métodos existentes.