Inteligente detección de URL de phishing cibernético basada en aprendizaje profundo de máquinas con extracción de características de BERT
Autores: Elsadig, Muna; Ibrahim, Ashraf Osman; Basheer, Shakila; Alohali, Manal Abdullah; Alshunaifi, Sara; Alqahtani, Haya; Alharbi, Nihal; Nagmeldin, Wamda
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Inteligente detección de URL de phishing cibernético basada en aprendizaje profundo de máquinas con extracción de características de BERT
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Ataques de phishing
Seguridad cibernética
Fraude
URL
Método de aprendizaje profundo
Extracción de características de BERT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Recientemente, los ataques de phishing han sido una amenaza crucial para la seguridad cibernética. El phishing es una forma de fraude que atrae a personas y empresas para acceder a uniform resource locators (URLs) maliciosos y enviar su información sensible como contraseñas, números de tarjetas de crédito e información personal. Enormes ataques inteligentes son lanzados dinámicamente con el objetivo de engañar a los usuarios haciéndoles creer que están accediendo a un sitio web confiable o una aplicación en línea para adquirir información de cuenta. Los investigadores en el ciberespacio están motivados a crear modelos inteligentes y ofrecer servicios seguros en la web a medida que el phishing se vuelve más inteligente y malicioso cada día. En este documento, se introduce una novedosa técnica de detección de phishing de URL basada en la extracción de características de BERT y un método de aprendizaje profundo. BERT se utilizó para extraer el texto de las URLs del conjunto de datos Phishing Site Predict. Luego, se aplicó un algoritmo de procesamiento del lenguaje natural (NLP) a la columna de datos única y se extrajo una gran cantidad de características útiles en términos de información de texto significativa. A continuación, se utilizó un método de red neuronal convolucional profunda para detectar URLs de phishing. Se utilizó para constituir palabras o n-gramas con el fin de extraer características de nivel superior. Luego, los datos se clasificaron en URLs legítimas y de phishing. Para evaluar el método propuesto, se utilizó un famoso conjunto de datos de URLs de sitios web de phishing públicos, con un total de 549,346 entradas. Sin embargo, se desarrollaron tres escenarios para comparar los resultados del método propuesto utilizando conjuntos de datos similares. El proceso de extracción de características depende de técnicas de procesamiento del lenguaje natural. Los experimentos mostraron que el método propuesto había logrado una precisión del 96.66% en los resultados, y luego los resultados obtenidos se compararon con otros trabajos de revisión de literatura. Los resultados mostraron que el método propuesto era eficiente y válido en la detección de URLs de sitios web de phishing.
Descripción
Recientemente, los ataques de phishing han sido una amenaza crucial para la seguridad cibernética. El phishing es una forma de fraude que atrae a personas y empresas para acceder a uniform resource locators (URLs) maliciosos y enviar su información sensible como contraseñas, números de tarjetas de crédito e información personal. Enormes ataques inteligentes son lanzados dinámicamente con el objetivo de engañar a los usuarios haciéndoles creer que están accediendo a un sitio web confiable o una aplicación en línea para adquirir información de cuenta. Los investigadores en el ciberespacio están motivados a crear modelos inteligentes y ofrecer servicios seguros en la web a medida que el phishing se vuelve más inteligente y malicioso cada día. En este documento, se introduce una novedosa técnica de detección de phishing de URL basada en la extracción de características de BERT y un método de aprendizaje profundo. BERT se utilizó para extraer el texto de las URLs del conjunto de datos Phishing Site Predict. Luego, se aplicó un algoritmo de procesamiento del lenguaje natural (NLP) a la columna de datos única y se extrajo una gran cantidad de características útiles en términos de información de texto significativa. A continuación, se utilizó un método de red neuronal convolucional profunda para detectar URLs de phishing. Se utilizó para constituir palabras o n-gramas con el fin de extraer características de nivel superior. Luego, los datos se clasificaron en URLs legítimas y de phishing. Para evaluar el método propuesto, se utilizó un famoso conjunto de datos de URLs de sitios web de phishing públicos, con un total de 549,346 entradas. Sin embargo, se desarrollaron tres escenarios para comparar los resultados del método propuesto utilizando conjuntos de datos similares. El proceso de extracción de características depende de técnicas de procesamiento del lenguaje natural. Los experimentos mostraron que el método propuesto había logrado una precisión del 96.66% en los resultados, y luego los resultados obtenidos se compararon con otros trabajos de revisión de literatura. Los resultados mostraron que el método propuesto era eficiente y válido en la detección de URLs de sitios web de phishing.