Detección de Actividad Maliciosa de Usuarios Basada en Conjuntos de Datos BGP Utilizando Aprendizaje Automático
Autores: Park, Hansol; Kim, Kookjin; Shin, Dongil; Shin, Dongkyoo
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Detección de Actividad Maliciosa de Usuarios Basada en Conjuntos de Datos BGP Utilizando Aprendizaje Automático
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Avances
Internet
Ciberataques
Aprendizaje automático
Datos BGP
Detección de anomalías
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los recientes avances en Internet y la tecnología digital han traído una amplia variedad de actividades al ciberespacio, pero también han provocado un aumento en los ciberataques, lo que hace más importante que nunca detectar y prevenir estos ataques. En este estudio, se propone un método para detectar anomalías en el ciberespacio consolidando datos de BGP (Protocolo de Puerta de Enlace Fronteriza) en datos numéricos que pueden ser entrenados por aprendizaje automático (ML) a través de un tokenizador. Los datos de BGP comprenden una mezcla de datos numéricos y textuales, lo que dificulta el aprendizaje de los modelos de ML. Para convertir los datos en un formato numérico, se empleó un tokenizador, una técnica de preprocesamiento del Procesamiento de Lenguaje Natural (NLP). Este proceso va más allá de simplemente reemplazar letras por números; su objetivo es preservar los patrones y características de los datos. Posteriormente, se aplicó la Técnica de Sobremuestreo de Minorías Sintéticas (SMOTE) para abordar el problema de los datos desbalanceados. Se realizaron experimentos de detección de anomalías en el modelo utilizando varios algoritmos de ML como Máquina de Vectores de Soporte de Una Clase (One-SVM), Red Neuronal Convolucional-Red de Memoria a Largo Corto (CNN-LSTM), Bosque Aleatorio (RF) y Autoencoder (AE), y se demostró un excelente rendimiento en la detección. En los experimentos, tuvo el mejor desempeño con el modelo AE, con un F1-Score de 0.99. En términos del Área Bajo la Curva de Características Operativas del Receptor (AUROC), todos los modelos de ML lograron un buen rendimiento, con un promedio de más del 90%. Se espera que esta investigación contribuya a mejorar la ciberseguridad, ya que permite la detección y monitoreo de anomalías cibernéticas de usuarios maliciosos a través de datos de BGP.
Descripción
Los recientes avances en Internet y la tecnología digital han traído una amplia variedad de actividades al ciberespacio, pero también han provocado un aumento en los ciberataques, lo que hace más importante que nunca detectar y prevenir estos ataques. En este estudio, se propone un método para detectar anomalías en el ciberespacio consolidando datos de BGP (Protocolo de Puerta de Enlace Fronteriza) en datos numéricos que pueden ser entrenados por aprendizaje automático (ML) a través de un tokenizador. Los datos de BGP comprenden una mezcla de datos numéricos y textuales, lo que dificulta el aprendizaje de los modelos de ML. Para convertir los datos en un formato numérico, se empleó un tokenizador, una técnica de preprocesamiento del Procesamiento de Lenguaje Natural (NLP). Este proceso va más allá de simplemente reemplazar letras por números; su objetivo es preservar los patrones y características de los datos. Posteriormente, se aplicó la Técnica de Sobremuestreo de Minorías Sintéticas (SMOTE) para abordar el problema de los datos desbalanceados. Se realizaron experimentos de detección de anomalías en el modelo utilizando varios algoritmos de ML como Máquina de Vectores de Soporte de Una Clase (One-SVM), Red Neuronal Convolucional-Red de Memoria a Largo Corto (CNN-LSTM), Bosque Aleatorio (RF) y Autoencoder (AE), y se demostró un excelente rendimiento en la detección. En los experimentos, tuvo el mejor desempeño con el modelo AE, con un F1-Score de 0.99. En términos del Área Bajo la Curva de Características Operativas del Receptor (AUROC), todos los modelos de ML lograron un buen rendimiento, con un promedio de más del 90%. Se espera que esta investigación contribuya a mejorar la ciberseguridad, ya que permite la detección y monitoreo de anomalías cibernéticas de usuarios maliciosos a través de datos de BGP.