UAVThreatBench: Un conjunto de datos de evaluación de riesgos de ciberseguridad de UAV y evaluación empírica de LLMs para la identificación de amenazas
Autores: Iyenghar, Padma
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
UAVThreatBench: Un conjunto de datos de evaluación de riesgos de ciberseguridad de UAV y evaluación empírica de LLMs para la identificación de amenazas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Modelos de lenguaje grandes
Amenazas a la ciberseguridad
Vehículos aéreos no tripulados
Escenarios industriales
Artículos directivos
Conjunto de datos de referencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
UAVThreatBench presenta el primer benchmark estructurado para evaluar modelos de lenguaje grandes en la identificación de amenazas cibernéticas para vehículos aéreos no tripulados que operan en entornos industriales interiores, alineado con la Directiva Europea de Equipos de Radio. El benchmark consta de 924 escenarios industriales curados por expertos, cada uno anotado con cinco amenazas cibernéticas, lo que da un total de 4620 amenazas mapeadas a artículos de la directiva sobre la integridad de redes y dispositivos, la protección de datos personales y la privacidad, y la prevención del fraude y el daño económico. Siete modelos de vanguardia de la familia OpenAI GPT y la familia LLaMA fueron evaluados sistemáticamente en un subconjunto representativo de 100 escenarios del conjunto de datos de UAVThreatBench. La evaluación aplicó un umbral de coincidencia difusa de 70 para comparar las amenazas generadas por el modelo con la verdad de referencia definida por expertos. El modelo más fuerte identificó correctamente casi nueve de cada diez amenazas, con cerca de la mitad de los escenarios logrando una alineación perfecta, mientras que otros modelos lograron una alineación menor pero aún sustancial. El análisis de errores semánticos reveló debilidades sistemáticas, particularmente en la identificación de amenazas relacionadas con la disponibilidad, vulnerabilidades en la capa de backend y mapeos regulatorios a nivel de cláusula. Por lo tanto, UAVThreatBench establece una base reproducible para la identificación de amenazas cibernéticas conforme a la normativa en entornos de vehículos aéreos no tripulados críticos para la seguridad. El conjunto de datos completo del benchmark y los resultados de la evaluación se publican abiertamente bajo la licencia MIT a través de un repositorio en línea dedicado.
Descripción
UAVThreatBench presenta el primer benchmark estructurado para evaluar modelos de lenguaje grandes en la identificación de amenazas cibernéticas para vehículos aéreos no tripulados que operan en entornos industriales interiores, alineado con la Directiva Europea de Equipos de Radio. El benchmark consta de 924 escenarios industriales curados por expertos, cada uno anotado con cinco amenazas cibernéticas, lo que da un total de 4620 amenazas mapeadas a artículos de la directiva sobre la integridad de redes y dispositivos, la protección de datos personales y la privacidad, y la prevención del fraude y el daño económico. Siete modelos de vanguardia de la familia OpenAI GPT y la familia LLaMA fueron evaluados sistemáticamente en un subconjunto representativo de 100 escenarios del conjunto de datos de UAVThreatBench. La evaluación aplicó un umbral de coincidencia difusa de 70 para comparar las amenazas generadas por el modelo con la verdad de referencia definida por expertos. El modelo más fuerte identificó correctamente casi nueve de cada diez amenazas, con cerca de la mitad de los escenarios logrando una alineación perfecta, mientras que otros modelos lograron una alineación menor pero aún sustancial. El análisis de errores semánticos reveló debilidades sistemáticas, particularmente en la identificación de amenazas relacionadas con la disponibilidad, vulnerabilidades en la capa de backend y mapeos regulatorios a nivel de cláusula. Por lo tanto, UAVThreatBench establece una base reproducible para la identificación de amenazas cibernéticas conforme a la normativa en entornos de vehículos aéreos no tripulados críticos para la seguridad. El conjunto de datos completo del benchmark y los resultados de la evaluación se publican abiertamente bajo la licencia MIT a través de un repositorio en línea dedicado.