Evaluando la robustez de los modelos de aprendizaje profundo frente a ataques adversarios: un análisis con FGSM, PGD y CW
Autores: Villegas-Ch, William; Jaramillo-Alcázar, Angel; Luján-Mora, Sergio
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Evaluando la robustez de los modelos de aprendizaje profundo frente a ataques adversarios: un análisis con FGSM, PGD y CW
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Ejemplos adversarios
Modelo de clasificación de imágenes
Ataques
Medidas defensivas
Modelos de aprendizaje automático
Contramedidas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
Este estudio evaluó la generación de ejemplos adversarios y la posterior robustez de un modelo de clasificación de imágenes. Los ataques se realizaron utilizando el método de Signo de Gradiente Rápido, el método de Descenso de Gradiente Proyectado y el ataque de Carlini y Wagner para perturbar las imágenes originales y analizar su impacto en la precisión de clasificación del modelo. Además, se investigaron técnicas de manipulación de imágenes como medidas defensivas contra los ataques adversarios. Los resultados destacaron la vulnerabilidad del modelo a ejemplos conflictivos: el Método de Signo de Gradiente Rápido alteró efectivamente las clasificaciones originales, mientras que el método de Carlini y Wagner resultó menos efectivo. Enfoques prometedores como la reducción de ruido, la compresión de imágenes y el desenfoque gaussiano se presentaron como contramedidas efectivas. Estos hallazgos subrayan la importancia de abordar la vulnerabilidad de los modelos de aprendizaje automático y la necesidad de desarrollar defensas sólidas contra ejemplos adversarios.
Descripción
Este estudio evaluó la generación de ejemplos adversarios y la posterior robustez de un modelo de clasificación de imágenes. Los ataques se realizaron utilizando el método de Signo de Gradiente Rápido, el método de Descenso de Gradiente Proyectado y el ataque de Carlini y Wagner para perturbar las imágenes originales y analizar su impacto en la precisión de clasificación del modelo. Además, se investigaron técnicas de manipulación de imágenes como medidas defensivas contra los ataques adversarios. Los resultados destacaron la vulnerabilidad del modelo a ejemplos conflictivos: el Método de Signo de Gradiente Rápido alteró efectivamente las clasificaciones originales, mientras que el método de Carlini y Wagner resultó menos efectivo. Enfoques prometedores como la reducción de ruido, la compresión de imágenes y el desenfoque gaussiano se presentaron como contramedidas efectivas. Estos hallazgos subrayan la importancia de abordar la vulnerabilidad de los modelos de aprendizaje automático y la necesidad de desarrollar defensas sólidas contra ejemplos adversarios.