logo móvil
Contáctanos

Evaluación comparativa de 21 modelos de lenguaje de código abierto de gran tamaño para la detección de enlaces de phishing con ingeniería de indicaciones

Autores: Nasution, Arbi Haza; Monika, Winda; Onan, Aytug; Murakami, Yohei

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Evaluación comparativa de 21 modelos de lenguaje de código abierto de gran tamaño para la detección de enlaces de phishing con ingeniería de indicaciones


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Phishing
Detección de URL
Modelos de lenguaje grandes
Estudio de referencia
Técnicas de ingeniería de prompts
Prompting de pocos ejemplos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La detección de URL de phishing es crítica debido a las graves amenazas de ciberseguridad que representan los ataques de phishing. Mientras que los métodos tradicionales dependen en gran medida de características elaboradas a mano y aprendizaje automático supervisado, los recientes avances en modelos de lenguaje grande (LLMs) ofrecen alternativas prometedoras. Este documento presenta un estudio de referencia integral de 21 LLMs de código abierto de última generación, incluyendo Llama3, Gemma, Qwen, Phi, DeepSeek y Mistral, para la detección de URL de phishing. Evaluamos cuatro técnicas clave de ingeniería de prompts: cero disparos, interpretación de roles, cadena de pensamiento y pocos disparos, utilizando un conjunto de datos de URL de phishing equilibrado y disponible públicamente, sin ajuste fino ni entrenamiento adicional de los modelos, reforzando la naturaleza basada en prompts y cero disparos como un aspecto distintivo de nuestro estudio. Los resultados demuestran que los grandes LLMs de código abierto (>=27B parámetros) logran un rendimiento que supera el 90% de F1-score sin ajuste fino, igualando de cerca a los modelos propietarios. Entre las estrategias de prompts, el prompting de pocos disparos ofrece consistentemente la mayor precisión (91.24% F1 con Llama3.3_70b), mientras que la cadena de pensamiento reduce significativamente la precisión y aumenta el tiempo de inferencia. Además, nuestro análisis destaca que los modelos más pequeños (7B-27B parámetros) ofrecen un rendimiento sólido con costos computacionales sustancialmente reducidos. Este estudio subraya el potencial práctico de los LLMs de código abierto para la detección de phishing y proporciona información para una ingeniería de prompts efectiva en aplicaciones de ciberseguridad.

Otros recursos que podrían interesarte

Temas Virtualpro