Benchmarking Comparativo de Arquitecturas de Aprendizaje Profundo para Detectar Ataques Adversariales en Modelos de Lenguaje de Gran Tamaño

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Benchmarking Comparativo de Arquitecturas de Aprendizaje Profundo para Detectar Ataques Adversariales en Modelos de Lenguaje de Gran Tamaño

Autores: Kushnerov, Oleksandr; Shevchuk, Ruslan; Yevseiev, Serhii; Karpinski, Mikoaj

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Benchmarking Comparativo de Arquitecturas de Aprendizaje Profundo para Detectar Ataques Adversariales en Modelos de Lenguaje de Gran Tamaño

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes

Preocupaciones de seguridad

Ataques de inyección de prompts

Arquitecturas de redes neuronales

Detección de prompts maliciosos

Perturbaciones adversariales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La rápida adopción de modelos de lenguaje grandes (LLMs) en sistemas corporativos y gubernamentales ha planteado preocupaciones críticas de seguridad, particularmente los ataques de inyección de comandos que explotan la incapacidad de los LLMs para diferenciar las instrucciones de control de las entradas de usuario no confiables. Este estudio evalúa sistemáticamente arquitecturas de redes neuronales para la detección de comandos maliciosos, enfatizando la robustez contra perturbaciones adversariales a nivel de caracteres, un aspecto que sigue siendo relativamente subestimado en el contexto específico de la detección de inyección de comandos a pesar de su importancia establecida en el procesamiento del lenguaje natural adversarial en general. Utilizando el Conjunto de Datos de Detección de Comandos Maliciosos (MPDD) que contiene 39,234 instancias etiquetadas, se evaluaron ocho arquitecturas: DNN densa, CNN, BiLSTM, BiGRU, Transformer, ResNet y variantes a nivel de caracteres de CNN y BiLSTM, basándose en métricas de rendimiento estándar (precisión, F1 y AUC-ROC), coeficientes de robustez adversarial contra perturbaciones de espaciado y homoglifos, y latencia de inferencia. Los resultados indican que el BiLSTM 3_Word a nivel de palabras logró el mejor rendimiento en muestras limpias (precisión = 0.9681, F1 = 0.9681), mientras que el Transformer mostró una precisión más baja (0.9190) y una vulnerabilidad significativa a los ataques de espaciado (robustez adversarial espaciado = 0.61). Por el contrario, el BiLSTM a nivel de caracteres demostró una resiliencia superior (espaciado = 1.0, homoglifos = 0.98), manteniendo una alta precisión (0.9599) y generalización en conjuntos de datos externos con solo un 2-4% de disminución en el rendimiento. Estos hallazgos destacan que las representaciones a nivel de caracteres proporcionan una robustez intrínseca contra ataques de ofuscación, sugiriendo que Char_BiLSTM es un componente confiable en estrategias de defensa en profundidad para sistemas integrados con LLM.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro