Método de Generación de Ejemplos Adversariales Basado en Transformada Wavelet
Autores: Bi, Meng; Liang, Xiaoguo; Wang, Baiyu; Liu, Longxin; Yin, Xin; Liu, Jiafeng
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Método de Generación de Ejemplos Adversariales Basado en Transformada Wavelet
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Ejemplos adversariales
Redes neuronales profundas
Redes Generativas Antagónicas
Wavelet-AdvGAN
Escasez
Transferibilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los ejemplos adversariales son herramientas cruciales para evaluar la robustez de las redes neuronales profundas (DNN) y revelar posibles vulnerabilidades de seguridad. Los métodos de generación de ejemplos adversariales basados en Redes Generativas Antagónicas (GAN) han progresado significativamente en la generación de ejemplos adversariales de imágenes, pero aún sufren de insuficiente escasez y transferibilidad. Para abordar estos problemas, este estudio propone un nuevo método de generación de ejemplos adversariales no dirigidos semi-caja blanca llamado Wavelet-AdvGAN, con un modelo de amenaza explícito definido de la siguiente manera. Específicamente, el ataque es estrictamente no dirigido sin categorías de objetivo predefinidas, con el único objetivo de engañar a las DNN para que clasifiquen ejemplos adversariales en cualquier categoría que no sea la etiqueta original. Adopta un entorno semi-caja blanca donde se niega a los atacantes el acceso a la información privada del modelo objetivo. En cuanto a la dependencia de información del generador, la fase de entrenamiento solo utiliza recursos públicos (es decir, la arquitectura pública del modelo objetivo y los datos de entrenamiento públicos de CIFAR-10), mientras que la fase de prueba genera ejemplos adversariales a través de una alimentación directa de imágenes limpias sin interactuar con el modelo objetivo. El método incorpora un módulo de Diferencia de Sub-banda de Frecuencia (FSD) y un módulo de Extracción de Características Locales de Transformada de Wavelet (WTLF), evaluando las diferencias entre ejemplos originales y adversariales desde la perspectiva del dominio de frecuencia. Este enfoque restringe la magnitud de las perturbaciones, refuerza las regiones de características y mejora aún más la efectividad del ataque, mejorando así la escasez y transferibilidad de los ejemplos adversariales. Los resultados experimentales demuestran que el método Wavelet-AdvGAN logra un aumento promedio del 1.26% en las tasas de éxito del ataque bajo dos estrategias de defensa: aumento de datos y entrenamiento adversarial. Además, la transferibilidad adversarial mejora en un promedio del 2.7%. Además, el método propuesto exhibe una menor norma l0, lo que indica una mejor escasez de perturbaciones. En consecuencia, evalúa efectivamente la robustez de las redes neuronales profundas.
Descripción
Los ejemplos adversariales son herramientas cruciales para evaluar la robustez de las redes neuronales profundas (DNN) y revelar posibles vulnerabilidades de seguridad. Los métodos de generación de ejemplos adversariales basados en Redes Generativas Antagónicas (GAN) han progresado significativamente en la generación de ejemplos adversariales de imágenes, pero aún sufren de insuficiente escasez y transferibilidad. Para abordar estos problemas, este estudio propone un nuevo método de generación de ejemplos adversariales no dirigidos semi-caja blanca llamado Wavelet-AdvGAN, con un modelo de amenaza explícito definido de la siguiente manera. Específicamente, el ataque es estrictamente no dirigido sin categorías de objetivo predefinidas, con el único objetivo de engañar a las DNN para que clasifiquen ejemplos adversariales en cualquier categoría que no sea la etiqueta original. Adopta un entorno semi-caja blanca donde se niega a los atacantes el acceso a la información privada del modelo objetivo. En cuanto a la dependencia de información del generador, la fase de entrenamiento solo utiliza recursos públicos (es decir, la arquitectura pública del modelo objetivo y los datos de entrenamiento públicos de CIFAR-10), mientras que la fase de prueba genera ejemplos adversariales a través de una alimentación directa de imágenes limpias sin interactuar con el modelo objetivo. El método incorpora un módulo de Diferencia de Sub-banda de Frecuencia (FSD) y un módulo de Extracción de Características Locales de Transformada de Wavelet (WTLF), evaluando las diferencias entre ejemplos originales y adversariales desde la perspectiva del dominio de frecuencia. Este enfoque restringe la magnitud de las perturbaciones, refuerza las regiones de características y mejora aún más la efectividad del ataque, mejorando así la escasez y transferibilidad de los ejemplos adversariales. Los resultados experimentales demuestran que el método Wavelet-AdvGAN logra un aumento promedio del 1.26% en las tasas de éxito del ataque bajo dos estrategias de defensa: aumento de datos y entrenamiento adversarial. Además, la transferibilidad adversarial mejora en un promedio del 2.7%. Además, el método propuesto exhibe una menor norma l0, lo que indica una mejor escasez de perturbaciones. En consecuencia, evalúa efectivamente la robustez de las redes neuronales profundas.