logo móvil
Contáctanos

Benchmarking Comparativo de Arquitecturas de Aprendizaje Profundo para Detectar Ataques Adversariales en Modelos de Lenguaje de Gran Tamaño

Autores: Kushnerov, Oleksandr; Shevchuk, Ruslan; Yevseiev, Serhii; Karpinski, Mikoaj

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Benchmarking Comparativo de Arquitecturas de Aprendizaje Profundo para Detectar Ataques Adversariales en Modelos de Lenguaje de Gran Tamaño


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Preocupaciones de seguridad
Ataques de inyección de prompts
Arquitecturas de redes neuronales
Detección de prompts maliciosos
Perturbaciones adversariales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La rápida adopción de modelos de lenguaje grandes (LLMs) en sistemas corporativos y gubernamentales ha planteado preocupaciones críticas de seguridad, particularmente los ataques de inyección de comandos que explotan la incapacidad de los LLMs para diferenciar las instrucciones de control de las entradas de usuario no confiables. Este estudio evalúa sistemáticamente arquitecturas de redes neuronales para la detección de comandos maliciosos, enfatizando la robustez contra perturbaciones adversariales a nivel de caracteres, un aspecto que sigue siendo relativamente subestimado en el contexto específico de la detección de inyección de comandos a pesar de su importancia establecida en el procesamiento del lenguaje natural adversarial en general. Utilizando el Conjunto de Datos de Detección de Comandos Maliciosos (MPDD) que contiene 39,234 instancias etiquetadas, se evaluaron ocho arquitecturas: DNN densa, CNN, BiLSTM, BiGRU, Transformer, ResNet y variantes a nivel de caracteres de CNN y BiLSTM, basándose en métricas de rendimiento estándar (precisión, F1 y AUC-ROC), coeficientes de robustez adversarial contra perturbaciones de espaciado y homoglifos, y latencia de inferencia. Los resultados indican que el BiLSTM 3_Word a nivel de palabras logró el mejor rendimiento en muestras limpias (precisión = 0.9681, F1 = 0.9681), mientras que el Transformer mostró una precisión más baja (0.9190) y una vulnerabilidad significativa a los ataques de espaciado (robustez adversarial espaciado = 0.61). Por el contrario, el BiLSTM a nivel de caracteres demostró una resiliencia superior (espaciado = 1.0, homoglifos = 0.98), manteniendo una alta precisión (0.9599) y generalización en conjuntos de datos externos con solo un 2-4% de disminución en el rendimiento. Estos hallazgos destacan que las representaciones a nivel de caracteres proporcionan una robustez intrínseca contra ataques de ofuscación, sugiriendo que Char_BiLSTM es un componente confiable en estrategias de defensa en profundidad para sistemas integrados con LLM.

Otros recursos que podrían interesarte

Temas Virtualpro