Bosque de Aislamiento Extendido para Detección de Intrusiones en Datos de Zeek
Autores: Moomtaheen, Fariha; Bagui, Sikha S.; Bagui, Subhash C.; Mink, Dustin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Bosque de Aislamiento Extendido para Detección de Intrusiones en Datos de Zeek
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Hiperparámetros
Bosque de Aislamiento Extendido
Actividades maliciosas
Tráfico de red
Anomalías
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La novedad de este artículo radica en determinar y utilizar hiperparámetros para mejorar el algoritmo de Bosque de Aislamiento Extendido (EIF), un algoritmo relativamente nuevo, para detectar actividades maliciosas en el tráfico de red. El algoritmo EIF es una variación del algoritmo de Bosque de Aislamiento, conocido por su eficacia en la detección de anomalías en datos de alta dimensión. Nuestra investigación evalúa el rendimiento del modelo EIF en un conjunto de datos recién creado compuesto por Registros de Conexión de Zeek, UWF-ZeekDataFall22. Para manejar el enorme volumen de datos involucrados en esta investigación, se emplea el Sistema de Archivos Distribuido de Hadoop (HDFS) para un almacenamiento eficiente y tolerante a fallos, y se utiliza el marco de trabajo Apache Spark, una poderosa plataforma de análisis de Big Data de código abierto, para tareas de aprendizaje automático (ML). Los mejores resultados para el algoritmo EIF provinieron del nivel de 0-extensión. Obtuvimos una precisión del 82.3% para la táctica de Desarrollo de Recursos, 82.21% para la táctica de Reconocimiento y 78.3% para la táctica de Descubrimiento.
Descripción
La novedad de este artículo radica en determinar y utilizar hiperparámetros para mejorar el algoritmo de Bosque de Aislamiento Extendido (EIF), un algoritmo relativamente nuevo, para detectar actividades maliciosas en el tráfico de red. El algoritmo EIF es una variación del algoritmo de Bosque de Aislamiento, conocido por su eficacia en la detección de anomalías en datos de alta dimensión. Nuestra investigación evalúa el rendimiento del modelo EIF en un conjunto de datos recién creado compuesto por Registros de Conexión de Zeek, UWF-ZeekDataFall22. Para manejar el enorme volumen de datos involucrados en esta investigación, se emplea el Sistema de Archivos Distribuido de Hadoop (HDFS) para un almacenamiento eficiente y tolerante a fallos, y se utiliza el marco de trabajo Apache Spark, una poderosa plataforma de análisis de Big Data de código abierto, para tareas de aprendizaje automático (ML). Los mejores resultados para el algoritmo EIF provinieron del nivel de 0-extensión. Obtuvimos una precisión del 82.3% para la táctica de Desarrollo de Recursos, 82.21% para la táctica de Reconocimiento y 78.3% para la táctica de Descubrimiento.