DIPA: Ataque adversarial en DNNs mediante la eliminación de información y ataque a nivel de píxel en la atención
Autores: Liu, Jing; Liu, Huailin; Wang, Pengju; Wu, Yang; Li, Keqin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
DIPA: Ataque adversarial en DNNs mediante la eliminación de información y ataque a nivel de píxel en la atención
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Redes neuronales
Muestras adversariales
DIPA
Métodos de ataque
Mecanismo de atención
Información de alta frecuencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las redes neuronales profundas (DNN) han mostrado un rendimiento notable en una amplia gama de campos, incluyendo el reconocimiento de imágenes, el procesamiento del lenguaje natural y el procesamiento del habla. Sin embargo, estudios recientes indican que las DNN son altamente vulnerables a muestras adversariales bien elaboradas, que pueden causar clasificaciones y predicciones incorrectas. Estas muestras son tan similares a las originales que son casi indetectables para la visión humana, lo que representa un riesgo de seguridad significativo para las DNN en el mundo real debido al impacto de los ataques adversariales. Actualmente, los métodos de ataque adversarial más comunes añaden explícitamente perturbaciones adversariales a las muestras de imagen, lo que a menudo resulta en muestras adversariales que son más fáciles de distinguir por los humanos. Para abordar este problema, estamos motivados a desarrollar métodos más efectivos para generar muestras adversariales que permanezcan indetectables para la visión humana. Este artículo propone un método de ataque adversarial a nivel de píxel basado en un mecanismo de atención y separación de información de alta frecuencia, llamado DIPA. Específicamente, nuestro enfoque implica construir una función de pérdida de supresión de atención y utilizar información de gradiente para identificar y perturbar píxeles sensibles. Al suprimir la atención del modelo hacia las clases correctas, la red neuronal es engañada para centrarse en clases irrelevantes, lo que lleva a juicios incorrectos. A diferencia de estudios anteriores, DIPA mejora el ataque de muestras adversariales al separar los detalles imperceptibles en las muestras de imagen para ocultar más efectivamente la perturbación adversarial mientras se asegura una tasa de éxito de ataque más alta. Nuestros resultados experimentales demuestran que bajo el escenario extremo de ataque de un solo píxel, DIPA logra tasas de éxito de ataque más altas para modelos de redes neuronales con diversas arquitecturas. Además, los resultados de visualización y las métricas cuantitativas ilustran que DIPA puede generar perturbaciones adversariales más imperceptibles.
Descripción
Las redes neuronales profundas (DNN) han mostrado un rendimiento notable en una amplia gama de campos, incluyendo el reconocimiento de imágenes, el procesamiento del lenguaje natural y el procesamiento del habla. Sin embargo, estudios recientes indican que las DNN son altamente vulnerables a muestras adversariales bien elaboradas, que pueden causar clasificaciones y predicciones incorrectas. Estas muestras son tan similares a las originales que son casi indetectables para la visión humana, lo que representa un riesgo de seguridad significativo para las DNN en el mundo real debido al impacto de los ataques adversariales. Actualmente, los métodos de ataque adversarial más comunes añaden explícitamente perturbaciones adversariales a las muestras de imagen, lo que a menudo resulta en muestras adversariales que son más fáciles de distinguir por los humanos. Para abordar este problema, estamos motivados a desarrollar métodos más efectivos para generar muestras adversariales que permanezcan indetectables para la visión humana. Este artículo propone un método de ataque adversarial a nivel de píxel basado en un mecanismo de atención y separación de información de alta frecuencia, llamado DIPA. Específicamente, nuestro enfoque implica construir una función de pérdida de supresión de atención y utilizar información de gradiente para identificar y perturbar píxeles sensibles. Al suprimir la atención del modelo hacia las clases correctas, la red neuronal es engañada para centrarse en clases irrelevantes, lo que lleva a juicios incorrectos. A diferencia de estudios anteriores, DIPA mejora el ataque de muestras adversariales al separar los detalles imperceptibles en las muestras de imagen para ocultar más efectivamente la perturbación adversarial mientras se asegura una tasa de éxito de ataque más alta. Nuestros resultados experimentales demuestran que bajo el escenario extremo de ataque de un solo píxel, DIPA logra tasas de éxito de ataque más altas para modelos de redes neuronales con diversas arquitecturas. Además, los resultados de visualización y las métricas cuantitativas ilustran que DIPA puede generar perturbaciones adversariales más imperceptibles.