Equilibrando la escala: técnicas de aumento de datos para mejorar el aprendizaje supervisado en la detección de ciberataques
Autores: Medvedieva, Kateryna; Tosi, Tommaso; Barbierato, Enrico; Gatti, Alice
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Equilibrando la escala: técnicas de aumento de datos para mejorar el aprendizaje supervisado en la detección de ciberataques
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería General
Palabras clave
Sofisticación
Ciberataques
Sistemas de detección
Técnicas de aumento de datos
Conjunto de datos desequilibrado
Importancia de las características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
El aumento de la sofisticación de los ciberataques requiere el desarrollo de sistemas avanzados de detección capaces de identificar y mitigar de manera precisa posibles amenazas. Este estudio aborda el desafío crítico de la detección de ciberataques mediante la aplicación de un enfoque integral que incluye la generación de un conjunto de datos realista pero desequilibrado que simula varios tipos de ciberataques. Reconociendo las limitaciones inherentes de los datos desequilibrados, exploramos múltiples técnicas de aumento de datos para mejorar la efectividad de aprendizaje del modelo y garantizar un rendimiento robusto en diferentes escenarios de ataque. En primer lugar, construimos un conjunto de datos detallado que refleja las condiciones del mundo real de las intrusiones en redes al simular una variedad de tipos de ciberataques, asegurando que refleje los desequilibrios típicos observados en amenazas genuinas de ciberseguridad. Posteriormente, aplicamos varias técnicas de aumento de datos, incluyendo SMOTE y ADASYN, para abordar la falta de distribución de clases, proporcionando así un conjunto de datos más equilibrado para entrenar modelos de aprendizaje supervisado. Nuestra evaluación de estas técnicas en varios modelos, como Bosques Aleatorios y Redes Neuronales, demuestra mejoras significativas en las capacidades de detección. Además, el análisis se extiende a la investigación de la importancia de las características, proporcionando ideas críticas sobre qué atributos influyen de manera más significativa en los resultados predictivos de los modelos. Esto no solo mejora la interpretabilidad de los modelos, sino que también ayuda a refinar los procesos de ingeniería y selección de características para optimizar el rendimiento.
Descripción
El aumento de la sofisticación de los ciberataques requiere el desarrollo de sistemas avanzados de detección capaces de identificar y mitigar de manera precisa posibles amenazas. Este estudio aborda el desafío crítico de la detección de ciberataques mediante la aplicación de un enfoque integral que incluye la generación de un conjunto de datos realista pero desequilibrado que simula varios tipos de ciberataques. Reconociendo las limitaciones inherentes de los datos desequilibrados, exploramos múltiples técnicas de aumento de datos para mejorar la efectividad de aprendizaje del modelo y garantizar un rendimiento robusto en diferentes escenarios de ataque. En primer lugar, construimos un conjunto de datos detallado que refleja las condiciones del mundo real de las intrusiones en redes al simular una variedad de tipos de ciberataques, asegurando que refleje los desequilibrios típicos observados en amenazas genuinas de ciberseguridad. Posteriormente, aplicamos varias técnicas de aumento de datos, incluyendo SMOTE y ADASYN, para abordar la falta de distribución de clases, proporcionando así un conjunto de datos más equilibrado para entrenar modelos de aprendizaje supervisado. Nuestra evaluación de estas técnicas en varios modelos, como Bosques Aleatorios y Redes Neuronales, demuestra mejoras significativas en las capacidades de detección. Además, el análisis se extiende a la investigación de la importancia de las características, proporcionando ideas críticas sobre qué atributos influyen de manera más significativa en los resultados predictivos de los modelos. Esto no solo mejora la interpretabilidad de los modelos, sino que también ayuda a refinar los procesos de ingeniería y selección de características para optimizar el rendimiento.