Canary: una plataforma de evaluación de robustez adversarial para modelos de aprendizaje profundo en clasificación de imágenes
Autores: Sun, Jiazheng; Chen, Li; Xia, Chenxiao; Zhang, Da; Huang, Rong; Qiu, Zhi; Xiong, Wenqi; Zheng, Jun; Tan, Yu-An
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Canary: una plataforma de evaluación de robustez adversarial para modelos de aprendizaje profundo en clasificación de imágenes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Vulnerabilidad
Modelos de clasificación de imágenes basados en aprendizaje profundo
Robustez adversarial
Plataforma Canary
Teoría de Respuesta al Ítem
Evaluación de la robustez del modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La vulnerabilidad de los modelos de clasificación de imágenes basados en aprendizaje profundo a conclusiones erróneas en presencia de pequeñas perturbaciones creadas por atacantes ha llamado la atención sobre el nivel de robustez de los modelos. Sin embargo, la pregunta sobre cómo medir de manera exhaustiva y justa la robustez adversarial de modelos con diferentes estructuras y defensas, así como el rendimiento de diferentes métodos de ataque, nunca ha sido respondida con precisión. En este trabajo, presentamos el diseño, implementación y evaluación de Canary, una plataforma que tiene como objetivo responder a esta pregunta. Canary utiliza un marco de puntuación común que incluye 4 dimensiones con 26 métricas para la evaluación. Primero, Canary genera y selecciona ejemplos adversariales válidos y recopila datos métricos a través de una serie de pruebas. Luego utiliza una estrategia de evaluación bidireccional para guiar la organización de los datos y finalmente integra todos los datos para dar las puntuaciones de la robustez del modelo y la efectividad del ataque. En este proceso, utilizamos por primera vez la Teoría de la Respuesta al Ítem (IRT) para garantizar que todas las métricas puedan calcularse de manera justa en una puntuación que pueda medir visualmente la capacidad. Para demostrar completamente la efectividad de Canary, realizamos pruebas a gran escala de 15 modelos representativos entrenados en el conjunto de datos de ImageNet utilizando 12 ataques de caja blanca y 12 ataques de caja negra, y obtuvimos una serie de hallazgos exhaustivos e interesantes. Esto ilustra aún más las capacidades y fortalezas de Canary como plataforma de referencia. Nuestro artículo proporciona un marco de trabajo de código abierto para la evaluación de la robustez del modelo, lo que permite a los investigadores realizar evaluaciones exhaustivas y rápidas de modelos o algoritmos de ataque/defensa, lo que inspira futuras mejoras y beneficia en gran medida el trabajo futuro.
Descripción
La vulnerabilidad de los modelos de clasificación de imágenes basados en aprendizaje profundo a conclusiones erróneas en presencia de pequeñas perturbaciones creadas por atacantes ha llamado la atención sobre el nivel de robustez de los modelos. Sin embargo, la pregunta sobre cómo medir de manera exhaustiva y justa la robustez adversarial de modelos con diferentes estructuras y defensas, así como el rendimiento de diferentes métodos de ataque, nunca ha sido respondida con precisión. En este trabajo, presentamos el diseño, implementación y evaluación de Canary, una plataforma que tiene como objetivo responder a esta pregunta. Canary utiliza un marco de puntuación común que incluye 4 dimensiones con 26 métricas para la evaluación. Primero, Canary genera y selecciona ejemplos adversariales válidos y recopila datos métricos a través de una serie de pruebas. Luego utiliza una estrategia de evaluación bidireccional para guiar la organización de los datos y finalmente integra todos los datos para dar las puntuaciones de la robustez del modelo y la efectividad del ataque. En este proceso, utilizamos por primera vez la Teoría de la Respuesta al Ítem (IRT) para garantizar que todas las métricas puedan calcularse de manera justa en una puntuación que pueda medir visualmente la capacidad. Para demostrar completamente la efectividad de Canary, realizamos pruebas a gran escala de 15 modelos representativos entrenados en el conjunto de datos de ImageNet utilizando 12 ataques de caja blanca y 12 ataques de caja negra, y obtuvimos una serie de hallazgos exhaustivos e interesantes. Esto ilustra aún más las capacidades y fortalezas de Canary como plataforma de referencia. Nuestro artículo proporciona un marco de trabajo de código abierto para la evaluación de la robustez del modelo, lo que permite a los investigadores realizar evaluaciones exhaustivas y rápidas de modelos o algoritmos de ataque/defensa, lo que inspira futuras mejoras y beneficia en gran medida el trabajo futuro.