Método iterativo simple para generar perturbaciones adversariales universales dirigidas
Autores: Hirano, Hokuto; Takemoto, Kazuhiro
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Método iterativo simple para generar perturbaciones adversariales universales dirigidas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Redes neuronales profundas
Ataques adversariales
Perturbación adversarial universal
Ataques dirigidos
Método iterativo
Método de signo de gradiente rápido
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Las redes neuronales profundas (DNNs) son vulnerables a los ataques adversariales. En particular, una sola perturbación conocida como la perturbación adversarial universal (UAP) puede arruinar la mayoría de las tareas de clasificación realizadas por las DNNs. Por lo tanto, se requieren diferentes métodos para generar UAPs a fin de evaluar completamente la vulnerabilidad de las DNNs. Una evaluación realista sería con casos que consideren ataques dirigidos; en los cuales el UAP generado hace que la DNN clasifique una entrada en una clase específica. Sin embargo, el desarrollo de UAPs para ataques dirigidos ha quedado en gran medida rezagado con respecto al de UAPs para ataques no dirigidos. Por lo tanto, proponemos un método iterativo simple para generar UAPs para ataques dirigidos. Nuestro método combina el método iterativo simple para generar UAPs no dirigidos y el método de signo de gradiente rápido para generar una perturbación adversarial dirigida para una entrada. Aplicamos el método propuesto a modelos de DNN de vanguardia para clasificación de imágenes y demostramos la existencia de UAPs casi imperceptibles para ataques dirigidos; además, demostramos que tales UAPs pueden generarse fácilmente.
Descripción
Las redes neuronales profundas (DNNs) son vulnerables a los ataques adversariales. En particular, una sola perturbación conocida como la perturbación adversarial universal (UAP) puede arruinar la mayoría de las tareas de clasificación realizadas por las DNNs. Por lo tanto, se requieren diferentes métodos para generar UAPs a fin de evaluar completamente la vulnerabilidad de las DNNs. Una evaluación realista sería con casos que consideren ataques dirigidos; en los cuales el UAP generado hace que la DNN clasifique una entrada en una clase específica. Sin embargo, el desarrollo de UAPs para ataques dirigidos ha quedado en gran medida rezagado con respecto al de UAPs para ataques no dirigidos. Por lo tanto, proponemos un método iterativo simple para generar UAPs para ataques dirigidos. Nuestro método combina el método iterativo simple para generar UAPs no dirigidos y el método de signo de gradiente rápido para generar una perturbación adversarial dirigida para una entrada. Aplicamos el método propuesto a modelos de DNN de vanguardia para clasificación de imágenes y demostramos la existencia de UAPs casi imperceptibles para ataques dirigidos; además, demostramos que tales UAPs pueden generarse fácilmente.