Análisis de conjunto de datos de intrusión en red CCD-IDSv1 con modelos de aprendizaje automático y aprendizaje profundo
Autores: Thapa, Niraj; Liu, Zhipeng; Shaver, Addison; Esterline, Albert; Gokaraju, Balakrishna; Roy, Kaushik
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Análisis de conjunto de datos de intrusión en red CCD-IDSv1 con modelos de aprendizaje automático y aprendizaje profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de anomalías
Clasificación de ataques múltiples
Sistemas de detección de intrusiones
Aprendizaje automático
Aprendizaje profundo
Defensa cibernética
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La detección de anomalías y la clasificación de ataques múltiples son preocupaciones importantes para la defensa cibernética. Varios conjuntos de datos públicamente disponibles se han utilizado ampliamente para la evaluación de Sistemas de Detección de Intrusiones (IDS). Sin embargo, la mayoría de los conjuntos de datos públicamente disponibles pueden no contener escenarios de ataque basados en amenazas en evolución. El desarrollo de un conjunto de datos robusto de intrusión en red es vital para el análisis y mitigación de amenazas en red. Se requieren IDS proactivos para hacer frente a las amenazas en constante crecimiento en el ciberespacio. Los modelos de aprendizaje automático (ML) y aprendizaje profundo (DL) se han implementado recientemente para detectar los diversos tipos de ciberataques. Sin embargo, los IDS actuales luchan por lograr tanto una alta tasa de detección como una baja tasa de falsas alarmas. Para abordar estos problemas, primero desarrollamos un conjunto de datos etiquetado de flujo basado en Center for Cyber Defense (CCD)-IDSv1 en un entorno de OpenStack. Se implementan cinco ataques diferentes con uso normal imitando el uso en la vida real. El número de características de red se incrementa para superar las deficiencias de los conjuntos de datos anteriores basados en flujos de red como CIDDS y CIC-IDS2017. En segundo lugar, este artículo presenta un análisis comparativo sobre la efectividad de diferentes modelos de ML y DL en nuestro conjunto de datos CCD-IDSv1. En este estudio, consideramos tanto la detección de anomalías cibernéticas como la clasificación de ataques múltiples. Para mejorar el rendimiento, desarrollamos dos modelos de conjunto basados en DL: Ensemble-CNN-10 y Ensemble-CNN-LSTM. Ensemble-CNN-10 combina 10 modelos de CNN desarrollados a partir de validación cruzada de 10 pliegues, mientras que Ensemble-CNN-LSTM combina modelos base de CNN y LSTM. Este artículo también presenta la importancia de las características tanto para la detección de anomalías como para la clasificación de ataques múltiples. En general, los modelos de conjunto propuestos tuvieron un buen desempeño tanto en la validación cruzada de 10 pliegues como en las pruebas independientes en nuestro conjunto de datos. En conjunto, estos resultados sugieren la solidez y efectividad de los IDS propuestos basados en modelos de ML y DL en el conjunto de datos de detección de intrusión CCD-IDSv1.
Descripción
La detección de anomalías y la clasificación de ataques múltiples son preocupaciones importantes para la defensa cibernética. Varios conjuntos de datos públicamente disponibles se han utilizado ampliamente para la evaluación de Sistemas de Detección de Intrusiones (IDS). Sin embargo, la mayoría de los conjuntos de datos públicamente disponibles pueden no contener escenarios de ataque basados en amenazas en evolución. El desarrollo de un conjunto de datos robusto de intrusión en red es vital para el análisis y mitigación de amenazas en red. Se requieren IDS proactivos para hacer frente a las amenazas en constante crecimiento en el ciberespacio. Los modelos de aprendizaje automático (ML) y aprendizaje profundo (DL) se han implementado recientemente para detectar los diversos tipos de ciberataques. Sin embargo, los IDS actuales luchan por lograr tanto una alta tasa de detección como una baja tasa de falsas alarmas. Para abordar estos problemas, primero desarrollamos un conjunto de datos etiquetado de flujo basado en Center for Cyber Defense (CCD)-IDSv1 en un entorno de OpenStack. Se implementan cinco ataques diferentes con uso normal imitando el uso en la vida real. El número de características de red se incrementa para superar las deficiencias de los conjuntos de datos anteriores basados en flujos de red como CIDDS y CIC-IDS2017. En segundo lugar, este artículo presenta un análisis comparativo sobre la efectividad de diferentes modelos de ML y DL en nuestro conjunto de datos CCD-IDSv1. En este estudio, consideramos tanto la detección de anomalías cibernéticas como la clasificación de ataques múltiples. Para mejorar el rendimiento, desarrollamos dos modelos de conjunto basados en DL: Ensemble-CNN-10 y Ensemble-CNN-LSTM. Ensemble-CNN-10 combina 10 modelos de CNN desarrollados a partir de validación cruzada de 10 pliegues, mientras que Ensemble-CNN-LSTM combina modelos base de CNN y LSTM. Este artículo también presenta la importancia de las características tanto para la detección de anomalías como para la clasificación de ataques múltiples. En general, los modelos de conjunto propuestos tuvieron un buen desempeño tanto en la validación cruzada de 10 pliegues como en las pruebas independientes en nuestro conjunto de datos. En conjunto, estos resultados sugieren la solidez y efectividad de los IDS propuestos basados en modelos de ML y DL en el conjunto de datos de detección de intrusión CCD-IDSv1.