Selección de características de URL optimizada basada en aprendizaje profundo incrustado en algoritmos genéticos para la detección de sitios web de phishing
Autores: Bu, Seok-Jun; Kim, Hae-Jung
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Selección de características de URL optimizada basada en aprendizaje profundo incrustado en algoritmos genéticos para la detección de sitios web de phishing
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Phishing
Modelos de aprendizaje profundo
Clasificación de URL
Recall
Proceso de optimización
Selección de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Los modelos de aprendizaje profundo para la clasificación de URL de phishing basados en características de URL a nivel de caracteres y palabras logran el mejor rendimiento en términos de precisión. Diversas mejoras han sido propuestas a través de parámetros de aprendizaje profundo, incluyendo la estructura y estrategia de aprendizaje. Sin embargo, el enfoque de aprendizaje profundo existente muestra una degradación en la recuperación de acuerdo con la naturaleza de un ataque de phishing que es inmediatamente descartado después de ser reportado. Un proceso de optimización adicional que puede minimizar los falsos negativos seleccionando las características principales de las URL de phishing es un camino prometedor para mejorar. Para buscar el conjunto óptimo de características de URL y explotarlo completamente, proponemos una estrategia combinada de búsqueda y aprendizaje que modela eficazmente el clasificador de URL para la recuperación. Al incorporar el clasificador de URL basado en aprendizaje profundo con el algoritmo genético para buscar el conjunto óptimo de características que minimizan los falsos negativos, se obtuvo un clasificador optimizado que garantiza el mejor rendimiento. Experimentos extensos en tres conjuntos de datos del mundo real que consisten en 222,541 URL mostraron el mayor índice de recuperación entre los modelos de aprendizaje profundo. Demostramos la superioridad del método mediante validación cruzada de 10 pliegues y confirmamos que la recuperación mejoró en comparación con el último método de aprendizaje profundo. En particular, la precisión y la recuperación mejoraron en 4.13%p y 7.07%p, respectivamente, en comparación con la red neuronal convolucional-recurrente en la que se omitió la optimización de selección de características.
Descripción
Los modelos de aprendizaje profundo para la clasificación de URL de phishing basados en características de URL a nivel de caracteres y palabras logran el mejor rendimiento en términos de precisión. Diversas mejoras han sido propuestas a través de parámetros de aprendizaje profundo, incluyendo la estructura y estrategia de aprendizaje. Sin embargo, el enfoque de aprendizaje profundo existente muestra una degradación en la recuperación de acuerdo con la naturaleza de un ataque de phishing que es inmediatamente descartado después de ser reportado. Un proceso de optimización adicional que puede minimizar los falsos negativos seleccionando las características principales de las URL de phishing es un camino prometedor para mejorar. Para buscar el conjunto óptimo de características de URL y explotarlo completamente, proponemos una estrategia combinada de búsqueda y aprendizaje que modela eficazmente el clasificador de URL para la recuperación. Al incorporar el clasificador de URL basado en aprendizaje profundo con el algoritmo genético para buscar el conjunto óptimo de características que minimizan los falsos negativos, se obtuvo un clasificador optimizado que garantiza el mejor rendimiento. Experimentos extensos en tres conjuntos de datos del mundo real que consisten en 222,541 URL mostraron el mayor índice de recuperación entre los modelos de aprendizaje profundo. Demostramos la superioridad del método mediante validación cruzada de 10 pliegues y confirmamos que la recuperación mejoró en comparación con el último método de aprendizaje profundo. En particular, la precisión y la recuperación mejoraron en 4.13%p y 7.07%p, respectivamente, en comparación con la red neuronal convolucional-recurrente en la que se omitió la optimización de selección de características.