Benchmarking Comparativo de Arquitecturas de Aprendizaje Profundo para Detectar Ataques Adversariales en Modelos de Lenguaje de Gran Tamaño
Autores: Kushnerov, Oleksandr; Shevchuk, Ruslan; Yevseiev, Serhii; Karpinski, Mikoaj
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Benchmarking Comparativo de Arquitecturas de Aprendizaje Profundo para Detectar Ataques Adversariales en Modelos de Lenguaje de Gran Tamaño
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Preocupaciones de seguridad
Ataques de inyección de prompts
Arquitecturas de redes neuronales
Detección de prompts maliciosos
Perturbaciones adversariales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La rápida adopción de modelos de lenguaje grandes (LLMs) en sistemas corporativos y gubernamentales ha planteado preocupaciones críticas de seguridad, particularmente los ataques de inyección de comandos que explotan la incapacidad de los LLMs para diferenciar las instrucciones de control de las entradas de usuario no confiables. Este estudio evalúa sistemáticamente arquitecturas de redes neuronales para la detección de comandos maliciosos, enfatizando la robustez contra perturbaciones adversariales a nivel de caracteres, un aspecto que sigue siendo relativamente subestimado en el contexto específico de la detección de inyección de comandos a pesar de su importancia establecida en el procesamiento del lenguaje natural adversarial en general. Utilizando el Conjunto de Datos de Detección de Comandos Maliciosos (MPDD) que contiene 39,234 instancias etiquetadas, se evaluaron ocho arquitecturas: DNN densa, CNN, BiLSTM, BiGRU, Transformer, ResNet y variantes a nivel de caracteres de CNN y BiLSTM, basándose en métricas de rendimiento estándar (precisión, F1 y AUC-ROC), coeficientes de robustez adversarial contra perturbaciones de espaciado y homoglifos, y latencia de inferencia. Los resultados indican que el BiLSTM 3_Word a nivel de palabras logró el mejor rendimiento en muestras limpias (precisión = 0.9681, F1 = 0.9681), mientras que el Transformer mostró una precisión más baja (0.9190) y una vulnerabilidad significativa a los ataques de espaciado (robustez adversarial espaciado = 0.61). Por el contrario, el BiLSTM a nivel de caracteres demostró una resiliencia superior (espaciado = 1.0, homoglifos = 0.98), manteniendo una alta precisión (0.9599) y generalización en conjuntos de datos externos con solo un 2-4% de disminución en el rendimiento. Estos hallazgos destacan que las representaciones a nivel de caracteres proporcionan una robustez intrínseca contra ataques de ofuscación, sugiriendo que Char_BiLSTM es un componente confiable en estrategias de defensa en profundidad para sistemas integrados con LLM.
Descripción
La rápida adopción de modelos de lenguaje grandes (LLMs) en sistemas corporativos y gubernamentales ha planteado preocupaciones críticas de seguridad, particularmente los ataques de inyección de comandos que explotan la incapacidad de los LLMs para diferenciar las instrucciones de control de las entradas de usuario no confiables. Este estudio evalúa sistemáticamente arquitecturas de redes neuronales para la detección de comandos maliciosos, enfatizando la robustez contra perturbaciones adversariales a nivel de caracteres, un aspecto que sigue siendo relativamente subestimado en el contexto específico de la detección de inyección de comandos a pesar de su importancia establecida en el procesamiento del lenguaje natural adversarial en general. Utilizando el Conjunto de Datos de Detección de Comandos Maliciosos (MPDD) que contiene 39,234 instancias etiquetadas, se evaluaron ocho arquitecturas: DNN densa, CNN, BiLSTM, BiGRU, Transformer, ResNet y variantes a nivel de caracteres de CNN y BiLSTM, basándose en métricas de rendimiento estándar (precisión, F1 y AUC-ROC), coeficientes de robustez adversarial contra perturbaciones de espaciado y homoglifos, y latencia de inferencia. Los resultados indican que el BiLSTM 3_Word a nivel de palabras logró el mejor rendimiento en muestras limpias (precisión = 0.9681, F1 = 0.9681), mientras que el Transformer mostró una precisión más baja (0.9190) y una vulnerabilidad significativa a los ataques de espaciado (robustez adversarial espaciado = 0.61). Por el contrario, el BiLSTM a nivel de caracteres demostró una resiliencia superior (espaciado = 1.0, homoglifos = 0.98), manteniendo una alta precisión (0.9599) y generalización en conjuntos de datos externos con solo un 2-4% de disminución en el rendimiento. Estos hallazgos destacan que las representaciones a nivel de caracteres proporcionan una robustez intrínseca contra ataques de ofuscación, sugiriendo que Char_BiLSTM es un componente confiable en estrategias de defensa en profundidad para sistemas integrados con LLM.