PhishCluster: Descubrimiento en Tiempo Real, Basado en Densidad de Campañas de URL Maliciosas a partir de Embeddings Semánticos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

PhishCluster: Descubrimiento en Tiempo Real, Basado en Densidad de Campañas de URL Maliciosas a partir de Embeddings Semánticos

Autores: Karapiperis, Dimitrios; Feretzakis, Georgios; Mitropoulos, Sarandis

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

PhishCluster: Descubrimiento en Tiempo Real, Basado en Densidad de Campañas de URL Maliciosas a partir de Embeddings Semánticos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

URLs maliciosos generados algorítmicamente

Sistemas de inteligencia de amenazas

Descubrimiento automatizado de campañas

Marco PhishCluster

Búsqueda de vecinos más cercanos aproximados

Agrupamiento basado en densidad.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La proliferación de URL maliciosas generadas algorítmicamente ha abrumado a los sistemas tradicionales de inteligencia de amenazas, lo que requiere un cambio de paradigma de un análisis reactivo y de instancia única a un descubrimiento de campañas proactivo y automatizado. Los sistemas existentes sobresalen en encontrar URL semánticamente similares dado un semilla maliciosa conocida, pero no logran proporcionar una vista en tiempo real y macroscópica de las campañas de ataque emergentes y en evolución a partir de flujos de datos de alta velocidad. Este documento presenta PhishCluster, un marco novedoso diseñado para cerrar esta brecha crítica. PhishCluster implementa una arquitectura en dos fases, en línea y fuera de línea, que combina sinérgicamente la búsqueda de Vecinos Más Cercanos Aproximados (ANN) a gran escala con un agrupamiento avanzado basado en densidad. La fase en línea emplea un algoritmo de mantenimiento acelerado por ANN para procesar un flujo de incrustaciones de URL a un rendimiento sin precedentes, resumiendo los datos en Micro-Clusters de Campañas (CMC) compactos y en evolución. La fase fuera de línea, bajo demanda, aplica entonces un algoritmo jerárquico basado en densidad a estos CMC, permitiendo el descubrimiento de campañas de forma arbitraria y de densidad variable sin conocimiento previo de su número. Nuestra evaluación experimental integral en un conjunto de datos sintético de mil millones de puntos, diseñado para imitar la dinámica de campañas del mundo real, demuestra que la arquitectura de PhishCluster resuelve la compensación fundamental entre velocidad y calidad en el análisis de datos en streaming. Los resultados validan que PhishCluster logra una mejora de un orden de magnitud en el rendimiento de procesamiento sobre las líneas base de agrupamiento en streaming de última generación, al mismo tiempo que alcanza una calidad de agrupamiento superior y una fidelidad en la detección de campañas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro