logo móvil
Contáctanos

Ataque adversarial textual con consultas limitadas

Autores: Zhang, Yu; Yang, Junan; Li, Xiaoshuai; Liu, Hui; Shao, Kun

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Ataque adversarial textual con consultas limitadas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Estudios
Procesamiento de lenguaje natural
Modelos de PLN
Ejemplos adversarios
Método de ataque
Modelo objetivo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones


Descripción
Estudios recientes han demostrado que los modelos de procesamiento del lenguaje natural (NLP) son vulnerables a ejemplos adversarios, que están diseñados maliciosamente añadiendo pequeñas perturbaciones a entradas benignas que son imperceptibles para el ojo humano, lo que lleva a predicciones falsas por parte del modelo objetivo. En comparación con los ataques adversarios textuales a nivel de caracteres y oraciones, un ataque a nivel de palabra puede generar ejemplos adversarios de mayor calidad, especialmente en un entorno de caja negra. Sin embargo, los métodos de ataque existentes suelen requerir un gran número de consultas para engañar con éxito al modelo objetivo, lo que es costoso en un escenario adversario real. Por lo tanto, encontrar modelos adecuados es difícil. Por lo tanto, proponemos un nuevo método de ataque, cuya idea principal es utilizar completamente los ejemplos adversarios generados por el modelo local y transferir parte del ataque al modelo local para completar antes de tiempo, reduciendo así los costos relacionados con el ataque al modelo objetivo. Experimentos extensos realizados en tres bancos de pruebas públicos muestran que nuestro método de ataque no solo puede mejorar la tasa de éxito, sino también reducir el costo, superando significativamente a los valores de referencia.

Otros recursos que podrían interesarte

Temas Virtualpro