logo móvil
Contáctanos

PhishCluster: Descubrimiento en Tiempo Real, Basado en Densidad de Campañas de URL Maliciosas a partir de Embeddings Semánticos

Autores: Karapiperis, Dimitrios; Feretzakis, Georgios; Mitropoulos, Sarandis

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

PhishCluster: Descubrimiento en Tiempo Real, Basado en Densidad de Campañas de URL Maliciosas a partir de Embeddings Semánticos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

URLs maliciosos generados algorítmicamente
Sistemas de inteligencia de amenazas
Descubrimiento automatizado de campañas
Marco PhishCluster
Búsqueda de vecinos más cercanos aproximados
Agrupamiento basado en densidad.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La proliferación de URL maliciosas generadas algorítmicamente ha abrumado a los sistemas tradicionales de inteligencia de amenazas, lo que requiere un cambio de paradigma de un análisis reactivo y de instancia única a un descubrimiento de campañas proactivo y automatizado. Los sistemas existentes sobresalen en encontrar URL semánticamente similares dado un semilla maliciosa conocida, pero no logran proporcionar una vista en tiempo real y macroscópica de las campañas de ataque emergentes y en evolución a partir de flujos de datos de alta velocidad. Este documento presenta PhishCluster, un marco novedoso diseñado para cerrar esta brecha crítica. PhishCluster implementa una arquitectura en dos fases, en línea y fuera de línea, que combina sinérgicamente la búsqueda de Vecinos Más Cercanos Aproximados (ANN) a gran escala con un agrupamiento avanzado basado en densidad. La fase en línea emplea un algoritmo de mantenimiento acelerado por ANN para procesar un flujo de incrustaciones de URL a un rendimiento sin precedentes, resumiendo los datos en Micro-Clusters de Campañas (CMC) compactos y en evolución. La fase fuera de línea, bajo demanda, aplica entonces un algoritmo jerárquico basado en densidad a estos CMC, permitiendo el descubrimiento de campañas de forma arbitraria y de densidad variable sin conocimiento previo de su número. Nuestra evaluación experimental integral en un conjunto de datos sintético de mil millones de puntos, diseñado para imitar la dinámica de campañas del mundo real, demuestra que la arquitectura de PhishCluster resuelve la compensación fundamental entre velocidad y calidad en el análisis de datos en streaming. Los resultados validan que PhishCluster logra una mejora de un orden de magnitud en el rendimiento de procesamiento sobre las líneas base de agrupamiento en streaming de última generación, al mismo tiempo que alcanza una calidad de agrupamiento superior y una fidelidad en la detección de campañas.

Otros recursos que podrían interesarte

Temas Virtualpro