diseño y evaluación de modelos de aprendizaje automático no supervisado para detección de anomalías en registros de ciberseguridad en tiempo real
Autores: Sánchez-Zas, Carmen; Larriva-Novo, Xavier; Villagrá, Víctor A.; Rodrigo, Mario Sanz; Moreno, José Ignacio
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
diseño y evaluación de modelos de aprendizaje automático no supervisado para detección de anomalías en registros de ciberseguridad en tiempo real
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Grandes cantidades de datos
Dispositivos
Tiempo real
Anomalías
Ciberseguridad
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Las empresas, instituciones o gobiernos procesan grandes cantidades de datos para el desarrollo de sus actividades. Este conocimiento suele provenir de dispositivos que recopilan datos de diversas fuentes. Procesarlos en tiempo real es esencial para garantizar el flujo de información sobre el estado actual de la infraestructura, ya que este conocimiento es la base para la gestión y la toma de decisiones en caso de un ataque o situaciones anómalas. Por lo tanto, este artículo expone tres modelos de aprendizaje automático no supervisado basados en técnicas de agrupamiento y definiciones de umbrales para detectar anomalías a partir de fuentes heterogéneas de datos de ciberseguridad en streaming. Tras la evaluación, este documento presenta un caso de dispositivos de ciberseguridad heterogéneos, comparando métricas de WSSSE, Silhouette y tiempo de entrenamiento para todos los modelos, donde K-Means fue definido como el algoritmo óptimo para la detección de anomalías en el procesamiento de datos en streaming. La precisión en la detección de anomalías lograda también es significativamente alta. También se realiza una comparación con otros estudios de investigación, frente a los cuales el método propuesto demostró sus puntos fuertes.
Descripción
Las empresas, instituciones o gobiernos procesan grandes cantidades de datos para el desarrollo de sus actividades. Este conocimiento suele provenir de dispositivos que recopilan datos de diversas fuentes. Procesarlos en tiempo real es esencial para garantizar el flujo de información sobre el estado actual de la infraestructura, ya que este conocimiento es la base para la gestión y la toma de decisiones en caso de un ataque o situaciones anómalas. Por lo tanto, este artículo expone tres modelos de aprendizaje automático no supervisado basados en técnicas de agrupamiento y definiciones de umbrales para detectar anomalías a partir de fuentes heterogéneas de datos de ciberseguridad en streaming. Tras la evaluación, este documento presenta un caso de dispositivos de ciberseguridad heterogéneos, comparando métricas de WSSSE, Silhouette y tiempo de entrenamiento para todos los modelos, donde K-Means fue definido como el algoritmo óptimo para la detección de anomalías en el procesamiento de datos en streaming. La precisión en la detección de anomalías lograda también es significativamente alta. También se realiza una comparación con otros estudios de investigación, frente a los cuales el método propuesto demostró sus puntos fuertes.