logo móvil
Contáctanos

Mejorando la detección de vulnerabilidades en el código de software utilizando GPT-4o y Claude-3.5 Sonnet: un estudio sobre técnicas de ingeniería de indicaciones

Autores: Bae, Jaehyeon; Kwon, Seoryeong; Myeong, Seunghwan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Mejorando la detección de vulnerabilidades en el código de software utilizando GPT-4o y Claude-3.5 Sonnet: un estudio sobre técnicas de ingeniería de indicaciones


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Estudio
Modelos de lenguaje avanzados
Vulnerabilidades de software
Conjunto de Referencia de Aseguramiento de Software del NIST
C++
Java
Python
Técnicas de prueba
Detección de vulnerabilidades
Puntuación F1
AUC
Rendimiento
Modelos
Seguridad
Ingeniería de pruebas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
Este estudio investiga la eficacia de modelos de lenguaje grandes avanzados, específicamente GPT-4o, Claude-3.5 Sonnet y GPT-3.5 Turbo, en la detección de vulnerabilidades de software. Nuestro experimento utilizó muestras de código vulnerables y seguras del Conjunto de Datos de Referencia de Aseguramiento de Software del NIST (SARD), centrándose en C++, Java y Python. Empleamos tres técnicas de solicitud distintas de la siguiente manera: Concisa, Configuración de Consejos y Paso a Paso. Los resultados demuestran que GPT-4o y Claude-3.5 Sonnet superan significativamente a GPT-3.5 Turbo en la detección de vulnerabilidades. GPT-4o mostró la mayor mejora con la solicitud Paso a Paso, logrando un puntaje F1 de 0.9072. Claude-3.5 Sonnet exhibió un rendimiento alto y consistente en todos los tipos de solicitudes, con su solicitud Paso a Paso arrojando los mejores resultados generales (puntaje F1: 0.8933, AUC: 0.74). En contraste, GPT-3.5 Turbo mostró cambios mínimos en el rendimiento entre las solicitudes, siendo la Configuración de Consejos la que tuvo mejor rendimiento (AUC: 0.65, puntaje F1: 0.6772), aunque significativamente más bajo que los otros modelos. Nuestros hallazgos resaltan el potencial de los modelos avanzados para mejorar la seguridad del software y subrayan la importancia de la ingeniería de solicitudes para optimizar su rendimiento.

Otros recursos que podrían interesarte

Temas Virtualpro