Detección de Anomalías en el Tráfico Web Usando Bosque de Aislamiento
Autores: Chua, Wilson; Pajas, Arsenn Lorette Diamond; Castro, Crizelle Shane; Panganiban, Sean Patrick; Pasuquin, April Joy; Purganan, Merwin Jan; Malupeng, Rica; Pingad, Divine Jessa; Orolfo, John Paul; Lua, Haron Hakeen; Velasco, Lemuel Clark
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detección de Anomalías en el Tráfico Web Usando Bosque de Aislamiento
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Empresas
Transformación digital
Activos de datos
Hackers
Weblogs
Bosque de Aislamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
A medida que las empresas experimentan una transformación digital, el valor de sus activos de datos también aumenta, haciéndolos aún más atractivos para los hackers. El gran volumen de registros web justifica el uso de metodologías de clasificación avanzadas para que los especialistas en ciberseguridad puedan identificar anomalías en el tráfico web. Este estudio tiene como objetivo implementar Isolation Forest, una metodología de aprendizaje automático no supervisado en la identificación de tráfico web anómalo y no anómalo. El conjunto de datos de registros web disponible públicamente de un sitio web de comercio electrónico pasó por una preparación de datos a través de un proceso sistemático que involucró la ingestión de datos, conversión de tipos de datos, limpieza de datos y normalización. Esto llevó a la adición de columnas derivadas en el conjunto de entrenamiento y en el conjunto de prueba etiquetado manualmente que luego se utilizó para comparar el rendimiento de detección de anomalías del modelo Isolation Forest con el de expertos en ciberseguridad. El modelo Isolation Forest desarrollado se implementó utilizando la biblioteca Scikit-learn de Python y mostró una precisión superior del 93%, una precisión del 95%, un recall del 90% y un F1-Score del 92%. A través de una preparación de datos adecuada, desarrollo de modelos, implementación de modelos y evaluación de modelos, este estudio demuestra que Isolation Forest puede ser una solución viable para la detección de anomalías en el tráfico web con alta precisión.
Descripción
A medida que las empresas experimentan una transformación digital, el valor de sus activos de datos también aumenta, haciéndolos aún más atractivos para los hackers. El gran volumen de registros web justifica el uso de metodologías de clasificación avanzadas para que los especialistas en ciberseguridad puedan identificar anomalías en el tráfico web. Este estudio tiene como objetivo implementar Isolation Forest, una metodología de aprendizaje automático no supervisado en la identificación de tráfico web anómalo y no anómalo. El conjunto de datos de registros web disponible públicamente de un sitio web de comercio electrónico pasó por una preparación de datos a través de un proceso sistemático que involucró la ingestión de datos, conversión de tipos de datos, limpieza de datos y normalización. Esto llevó a la adición de columnas derivadas en el conjunto de entrenamiento y en el conjunto de prueba etiquetado manualmente que luego se utilizó para comparar el rendimiento de detección de anomalías del modelo Isolation Forest con el de expertos en ciberseguridad. El modelo Isolation Forest desarrollado se implementó utilizando la biblioteca Scikit-learn de Python y mostró una precisión superior del 93%, una precisión del 95%, un recall del 90% y un F1-Score del 92%. A través de una preparación de datos adecuada, desarrollo de modelos, implementación de modelos y evaluación de modelos, este estudio demuestra que Isolation Forest puede ser una solución viable para la detección de anomalías en el tráfico web con alta precisión.