Modelo de visión y lenguaje rápido y ligero para la detección adversarial de señales de tráfico
Autores: Mumcu, Furkan; Yilmaz, Yasin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Modelo de visión y lenguaje rápido y ligero para la detección adversarial de señales de tráfico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Vehículos autónomos
Aprendizaje automático
Ataques adversarios
Modelos de reconocimiento de señales de tráfico
ViLAS
Método de defensa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Varias investigaciones han propuesto ataques contra vehículos autónomos y sus subsistemas que funcionan con aprendizaje automático (ML). Los modelos de reconocimiento de señales de tráfico son especialmente probados en diferentes entornos de ataque de ML adversario, y han demostrado ser vulnerables. A pesar del aumento de la investigación sobre ataques de ML adversarios contra modelos de reconocimiento de señales de tráfico, hay poco o ningún enfoque en defenderse contra estos ataques. En este documento, proponemos el primer método de defensa específicamente diseñado para vehículos autónomos para detectar ataques de ML adversarios dirigidos a modelos de reconocimiento de señales de tráfico, llamado ViLAS (Modelo de Visión-Lenguaje para Detección de Señales de Tráfico Adversarias). El método de defensa propuesto se basa en un modelo de visión-lenguaje (VLM) personalizado, rápido, ligero y escalable, y es compatible con cualquier sistema existente de reconocimiento de señales de tráfico. Gracias a la información ortogonal proveniente de los datos de texto de la etiqueta de clase a través del modelo de lenguaje, ViLAS aprovecha el contexto de la imagen además de los datos visuales para lograr un rendimiento de detección de ataques altamente efectivo. En nuestros experimentos extensos, mostramos que nuestro método detecta consistentemente varios ataques contra diferentes modelos objetivo con altas tasas de verdaderos positivos satisfaciendo tasas muy bajas de falsos positivos. Al ser probado contra cuatro ataques de última generación dirigidos a cuatro modelos populares de reconocimiento de acciones, nuestro detector propuesto logra un AUC promedio de 0.94. Este resultado logra una mejora del 25.3% sobre un método de defensa de última generación propuesto para la detección de ataques de imágenes genéricas, que alcanza un AUC promedio de 0.75. También mostramos que nuestro VLM personalizado es más adecuado para un vehículo autónomo en comparación con el popular VLM y CLIP listos para usar en términos de velocidad (4.4 vs. 9.3 milisegundos), complejidad espacial (0.36 vs. 1.6 GB) y rendimiento (0.94 vs. 0.43 AUC promedio).
Descripción
Varias investigaciones han propuesto ataques contra vehículos autónomos y sus subsistemas que funcionan con aprendizaje automático (ML). Los modelos de reconocimiento de señales de tráfico son especialmente probados en diferentes entornos de ataque de ML adversario, y han demostrado ser vulnerables. A pesar del aumento de la investigación sobre ataques de ML adversarios contra modelos de reconocimiento de señales de tráfico, hay poco o ningún enfoque en defenderse contra estos ataques. En este documento, proponemos el primer método de defensa específicamente diseñado para vehículos autónomos para detectar ataques de ML adversarios dirigidos a modelos de reconocimiento de señales de tráfico, llamado ViLAS (Modelo de Visión-Lenguaje para Detección de Señales de Tráfico Adversarias). El método de defensa propuesto se basa en un modelo de visión-lenguaje (VLM) personalizado, rápido, ligero y escalable, y es compatible con cualquier sistema existente de reconocimiento de señales de tráfico. Gracias a la información ortogonal proveniente de los datos de texto de la etiqueta de clase a través del modelo de lenguaje, ViLAS aprovecha el contexto de la imagen además de los datos visuales para lograr un rendimiento de detección de ataques altamente efectivo. En nuestros experimentos extensos, mostramos que nuestro método detecta consistentemente varios ataques contra diferentes modelos objetivo con altas tasas de verdaderos positivos satisfaciendo tasas muy bajas de falsos positivos. Al ser probado contra cuatro ataques de última generación dirigidos a cuatro modelos populares de reconocimiento de acciones, nuestro detector propuesto logra un AUC promedio de 0.94. Este resultado logra una mejora del 25.3% sobre un método de defensa de última generación propuesto para la detección de ataques de imágenes genéricas, que alcanza un AUC promedio de 0.75. También mostramos que nuestro VLM personalizado es más adecuado para un vehículo autónomo en comparación con el popular VLM y CLIP listos para usar en términos de velocidad (4.4 vs. 9.3 milisegundos), complejidad espacial (0.36 vs. 1.6 GB) y rendimiento (0.94 vs. 0.43 AUC promedio).