Mejorando la transferibilidad de los ataques dirigidos con la transformación de perturbación adversarial
Autores: Deng, Zhengjie; Xiao, Wen; Li, Xiyan; He, Shuqian; Wang, Yizhen
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando la transferibilidad de los ataques dirigidos con la transformación de perturbación adversarial
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transferibilidad
Ejemplos adversarios
Ataques dirigidos
Algoritmos de iteración de gradiente
Transformación de Perturbación Adversaria
Eficiencia computacional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
La transferibilidad de ejemplos adversarios ha demostrado ser una herramienta potente para ataques exitosos a modelos objetivo, incluso en entornos desafiantes de caja negra. Sin embargo, la mayoría de las investigaciones actuales se centran en ataques no dirigidos, lo que dificulta mejorar la transferibilidad de ataques dirigidos utilizando métodos tradicionales. Este documento identifica un problema crucial en los algoritmos de iteración de gradiente existentes que generan perturbaciones adversarias de manera fija. Estas perturbaciones tienen un impacto perjudicial en cálculos de gradiente posteriores, lo que resulta en inestabilidad de la dirección de actualización después de la acumulación de momento. En consecuencia, la transferibilidad de ejemplos adversarios se ve afectada negativamente. Para superar este problema, proponemos un enfoque llamado Transformación de Perturbación Adversaria (APT) que introduce una transformación a las perturbaciones en cada iteración. APT muestrea aleatoriamente parches limpios de la imagen original y reemplaza los parches correspondientes en la imagen de salida iterativa. Esta imagen transformada se utiliza luego para calcular el próximo momento. Además, APT podría integrarse fácilmente con otros algoritmos iterativos basados en gradiente, incurriendo en un mínimo costo computacional adicional. Los resultados experimentales demuestran que APT mejora significativamente la transferibilidad de ataques dirigidos cuando se combina con métodos tradicionales. Nuestro enfoque logra esta mejora manteniendo la eficiencia computacional.
Descripción
La transferibilidad de ejemplos adversarios ha demostrado ser una herramienta potente para ataques exitosos a modelos objetivo, incluso en entornos desafiantes de caja negra. Sin embargo, la mayoría de las investigaciones actuales se centran en ataques no dirigidos, lo que dificulta mejorar la transferibilidad de ataques dirigidos utilizando métodos tradicionales. Este documento identifica un problema crucial en los algoritmos de iteración de gradiente existentes que generan perturbaciones adversarias de manera fija. Estas perturbaciones tienen un impacto perjudicial en cálculos de gradiente posteriores, lo que resulta en inestabilidad de la dirección de actualización después de la acumulación de momento. En consecuencia, la transferibilidad de ejemplos adversarios se ve afectada negativamente. Para superar este problema, proponemos un enfoque llamado Transformación de Perturbación Adversaria (APT) que introduce una transformación a las perturbaciones en cada iteración. APT muestrea aleatoriamente parches limpios de la imagen original y reemplaza los parches correspondientes en la imagen de salida iterativa. Esta imagen transformada se utiliza luego para calcular el próximo momento. Además, APT podría integrarse fácilmente con otros algoritmos iterativos basados en gradiente, incurriendo en un mínimo costo computacional adicional. Los resultados experimentales demuestran que APT mejora significativamente la transferibilidad de ataques dirigidos cuando se combina con métodos tradicionales. Nuestro enfoque logra esta mejora manteniendo la eficiencia computacional.