Análisis del impacto en el rendimiento de un modelo de aprendizaje automático ajustado para la detección de URL de phishing
Autores: Abdul Samad, Saleem Raja; Balasubaramanian, Sundarvadivazhagan; Al-Kaabi, Amna Salim; Sharma, Bhisham; Chowdhury, Subrata; Mehbodniya, Abolfazl; Webber, Julian L.; Bostani, Ali
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Análisis del impacto en el rendimiento de un modelo de aprendizaje automático ajustado para la detección de URL de phishing
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Phishing
Correo electrónico
Ciberdelincuente
Ingeniería social
Aprendizaje automático
Conjuntos de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
El phishing aprovecha la tendencia de las personas a compartir información personal en línea. Los ataques de phishing a menudo comienzan con un correo electrónico y pueden ser utilizados para una variedad de propósitos. El ciberdelincuente empleará técnicas de ingeniería social para hacer que el objetivo haga clic en el enlace del correo electrónico de phishing, que los llevará al sitio web infectado. Estos ataques se vuelven más complejos a medida que los piratas informáticos personalizan su fraude y proporcionan mensajes convincentes. El phishing con una URL maliciosa es un tipo avanzado de cibercrimen. Puede ser desafiante incluso para usuarios cautelosos detectar las URL de phishing. Los investigadores mostraron diferentes técnicas para abordar este desafío. Los modelos de aprendizaje automático mejoran la detección utilizando URL, contenido de la página web y características externas. Este artículo presenta los hallazgos de un estudio experimental que intentó mejorar el rendimiento de los modelos de aprendizaje automático para obtener una mayor precisión para los dos conjuntos de datos de phishing que se utilizan más comúnmente. Tres tipos distintos de factores de ajuste son utilizados, incluyendo el equilibrio de datos, la optimización de hiperparámetros y la selección de características. El experimento utiliza los ocho métodos de aprendizaje automático más prevalentes y dos conjuntos de datos distintos obtenidos de fuentes en línea, como el repositorio UCI y el repositorio Mendeley. El resultado demuestra que el equilibrio de datos mejora la precisión marginalmente, mientras que el ajuste de hiperparámetros y la selección de características mejoran significativamente la precisión. El rendimiento de los algoritmos de aprendizaje automático se mejora al combinar todos los factores ajustados finamente, superando los trabajos de investigación existentes. El resultado muestra que los factores de ajuste mejoran la eficiencia de los algoritmos de aprendizaje automático. Para el Conjunto de Datos-1, Random Forest (RF) y Gradient Boosting (XGB) logran tasas de precisión del 97.44% y 97.47%, respectivamente. Gradient Boosting (GB) y Extreme Gradient Boosting (XGB) logran valores de precisión del 98.27% y 98.21%, respectivamente, para el Conjunto de Datos-2.
Descripción
El phishing aprovecha la tendencia de las personas a compartir información personal en línea. Los ataques de phishing a menudo comienzan con un correo electrónico y pueden ser utilizados para una variedad de propósitos. El ciberdelincuente empleará técnicas de ingeniería social para hacer que el objetivo haga clic en el enlace del correo electrónico de phishing, que los llevará al sitio web infectado. Estos ataques se vuelven más complejos a medida que los piratas informáticos personalizan su fraude y proporcionan mensajes convincentes. El phishing con una URL maliciosa es un tipo avanzado de cibercrimen. Puede ser desafiante incluso para usuarios cautelosos detectar las URL de phishing. Los investigadores mostraron diferentes técnicas para abordar este desafío. Los modelos de aprendizaje automático mejoran la detección utilizando URL, contenido de la página web y características externas. Este artículo presenta los hallazgos de un estudio experimental que intentó mejorar el rendimiento de los modelos de aprendizaje automático para obtener una mayor precisión para los dos conjuntos de datos de phishing que se utilizan más comúnmente. Tres tipos distintos de factores de ajuste son utilizados, incluyendo el equilibrio de datos, la optimización de hiperparámetros y la selección de características. El experimento utiliza los ocho métodos de aprendizaje automático más prevalentes y dos conjuntos de datos distintos obtenidos de fuentes en línea, como el repositorio UCI y el repositorio Mendeley. El resultado demuestra que el equilibrio de datos mejora la precisión marginalmente, mientras que el ajuste de hiperparámetros y la selección de características mejoran significativamente la precisión. El rendimiento de los algoritmos de aprendizaje automático se mejora al combinar todos los factores ajustados finamente, superando los trabajos de investigación existentes. El resultado muestra que los factores de ajuste mejoran la eficiencia de los algoritmos de aprendizaje automático. Para el Conjunto de Datos-1, Random Forest (RF) y Gradient Boosting (XGB) logran tasas de precisión del 97.44% y 97.47%, respectivamente. Gradient Boosting (GB) y Extreme Gradient Boosting (XGB) logran valores de precisión del 98.27% y 98.21%, respectivamente, para el Conjunto de Datos-2.