Ataque adversarial textual con consultas limitadas
Autores: Zhang, Yu; Yang, Junan; Li, Xiaoshuai; Liu, Hui; Shao, Kun
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Ataque adversarial textual con consultas limitadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estudios
Procesamiento de lenguaje natural
Modelos de PLN
Ejemplos adversarios
Método de ataque
Modelo objetivo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
Estudios recientes han demostrado que los modelos de procesamiento del lenguaje natural (NLP) son vulnerables a ejemplos adversarios, que están diseñados maliciosamente añadiendo pequeñas perturbaciones a entradas benignas que son imperceptibles para el ojo humano, lo que lleva a predicciones falsas por parte del modelo objetivo. En comparación con los ataques adversarios textuales a nivel de caracteres y oraciones, un ataque a nivel de palabra puede generar ejemplos adversarios de mayor calidad, especialmente en un entorno de caja negra. Sin embargo, los métodos de ataque existentes suelen requerir un gran número de consultas para engañar con éxito al modelo objetivo, lo que es costoso en un escenario adversario real. Por lo tanto, encontrar modelos adecuados es difícil. Por lo tanto, proponemos un nuevo método de ataque, cuya idea principal es utilizar completamente los ejemplos adversarios generados por el modelo local y transferir parte del ataque al modelo local para completar antes de tiempo, reduciendo así los costos relacionados con el ataque al modelo objetivo. Experimentos extensos realizados en tres bancos de pruebas públicos muestran que nuestro método de ataque no solo puede mejorar la tasa de éxito, sino también reducir el costo, superando significativamente a los valores de referencia.
Descripción
Estudios recientes han demostrado que los modelos de procesamiento del lenguaje natural (NLP) son vulnerables a ejemplos adversarios, que están diseñados maliciosamente añadiendo pequeñas perturbaciones a entradas benignas que son imperceptibles para el ojo humano, lo que lleva a predicciones falsas por parte del modelo objetivo. En comparación con los ataques adversarios textuales a nivel de caracteres y oraciones, un ataque a nivel de palabra puede generar ejemplos adversarios de mayor calidad, especialmente en un entorno de caja negra. Sin embargo, los métodos de ataque existentes suelen requerir un gran número de consultas para engañar con éxito al modelo objetivo, lo que es costoso en un escenario adversario real. Por lo tanto, encontrar modelos adecuados es difícil. Por lo tanto, proponemos un nuevo método de ataque, cuya idea principal es utilizar completamente los ejemplos adversarios generados por el modelo local y transferir parte del ataque al modelo local para completar antes de tiempo, reduciendo así los costos relacionados con el ataque al modelo objetivo. Experimentos extensos realizados en tres bancos de pruebas públicos muestran que nuestro método de ataque no solo puede mejorar la tasa de éxito, sino también reducir el costo, superando significativamente a los valores de referencia.