Detección efectiva de uniform resource locator (URL) maliciosos utilizando técnicas de aprendizaje profundo
Autores: Munaye, Yirga Yayeh; Workneh, Aneas Bekele; Chekol, Yenework Belayneh; Mekonen, Atinkut Molla
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Detección efectiva de uniform resource locator (URL) maliciosos utilizando técnicas de aprendizaje profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Internet
Amenazas cibernéticas
Aprendizaje profundo
URL maliciosas
Modelo de detección
Ciberseguridad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
El rápido crecimiento del uso de internet en la vida diaria ha llevado a un aumento significativo de las amenazas cibernéticas, siendo las URL maliciosas un delito cibernético común. Los métodos de detección tradicionales a menudo sufren de altas tasas de falsas alarmas y luchan por mantenerse al día con las amenazas en evolución debido a técnicas de extracción de características y conjuntos de datos obsoletos. Para abordar estas limitaciones, proponemos un enfoque basado en el aprendizaje profundo destinado a desarrollar un modelo efectivo para detectar URL maliciosas. Nuestro método propuesto, el modelo Char2B, aprovecha una fusión de BERT y el incrustado CharBiGRU, mejorado aún más por una capa Conv1D con un tamaño de kernel de tres y un relleno y paso de tamaño unitario. Después de combinar el incrustado, utilizamos el modelo BERT como referencia para la comparación. El estudio implicó la recopilación de un conjunto de datos de 87,216 URL, que comprendía muestras benignas y maliciosas obtenidas del directorio del proyecto abierto (DMOZ), PhishTank y Any.Run. Los modelos fueron entrenados utilizando el conjunto de entrenamiento y evaluados en el conjunto de pruebas utilizando métricas estándar, incluida la precisión, la recuperación y la puntuación F1. A través de un refinamiento iterativo, optimizamos el rendimiento del modelo para maximizar su efectividad. Como resultado, nuestro modelo propuesto logró una precisión del 98.50%, una precisión del 98.27%, una recuperación del 98.69% y una puntuación F1 del 98.48%, superando al modelo de referencia BERT. Además, la tasa de falsos positivos de nuestro modelo fue 0.017 mejor que el 0.018 del modelo de referencia. Al extraer y utilizar de manera efectiva características informativas, el modelo clasificó con precisión las URL en categorías benignas y maliciosas, mejorando así las capacidades de detección. Este estudio destaca la importancia de nuestro enfoque de aprendizaje profundo en el fortalecimiento de la ciberseguridad al integrar algoritmos avanzados que mejoran la precisión de detección, refuerzan los mecanismos de defensa y contribuyen a un entorno digital más seguro.
Descripción
El rápido crecimiento del uso de internet en la vida diaria ha llevado a un aumento significativo de las amenazas cibernéticas, siendo las URL maliciosas un delito cibernético común. Los métodos de detección tradicionales a menudo sufren de altas tasas de falsas alarmas y luchan por mantenerse al día con las amenazas en evolución debido a técnicas de extracción de características y conjuntos de datos obsoletos. Para abordar estas limitaciones, proponemos un enfoque basado en el aprendizaje profundo destinado a desarrollar un modelo efectivo para detectar URL maliciosas. Nuestro método propuesto, el modelo Char2B, aprovecha una fusión de BERT y el incrustado CharBiGRU, mejorado aún más por una capa Conv1D con un tamaño de kernel de tres y un relleno y paso de tamaño unitario. Después de combinar el incrustado, utilizamos el modelo BERT como referencia para la comparación. El estudio implicó la recopilación de un conjunto de datos de 87,216 URL, que comprendía muestras benignas y maliciosas obtenidas del directorio del proyecto abierto (DMOZ), PhishTank y Any.Run. Los modelos fueron entrenados utilizando el conjunto de entrenamiento y evaluados en el conjunto de pruebas utilizando métricas estándar, incluida la precisión, la recuperación y la puntuación F1. A través de un refinamiento iterativo, optimizamos el rendimiento del modelo para maximizar su efectividad. Como resultado, nuestro modelo propuesto logró una precisión del 98.50%, una precisión del 98.27%, una recuperación del 98.69% y una puntuación F1 del 98.48%, superando al modelo de referencia BERT. Además, la tasa de falsos positivos de nuestro modelo fue 0.017 mejor que el 0.018 del modelo de referencia. Al extraer y utilizar de manera efectiva características informativas, el modelo clasificó con precisión las URL en categorías benignas y maliciosas, mejorando así las capacidades de detección. Este estudio destaca la importancia de nuestro enfoque de aprendizaje profundo en el fortalecimiento de la ciberseguridad al integrar algoritmos avanzados que mejoran la precisión de detección, refuerzan los mecanismos de defensa y contribuyen a un entorno digital más seguro.