Mejorando la detección de vulnerabilidades en el código de software utilizando GPT-4o y Claude-3.5 Sonnet: un estudio sobre técnicas de ingeniería de indicaciones

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la detección de vulnerabilidades en el código de software utilizando GPT-4o y Claude-3.5 Sonnet: un estudio sobre técnicas de ingeniería de indicaciones

Autores: Bae, Jaehyeon; Kwon, Seoryeong; Myeong, Seunghwan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Mejorando la detección de vulnerabilidades en el código de software utilizando GPT-4o y Claude-3.5 Sonnet: un estudio sobre técnicas de ingeniería de indicaciones

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Estudio

Modelos de lenguaje avanzados

Vulnerabilidades de software

Conjunto de Referencia de Aseguramiento de Software del NIST

C++

Java

Python

Técnicas de prueba

Detección de vulnerabilidades

Puntuación F1

AUC

Rendimiento

Modelos

Seguridad

Ingeniería de pruebas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

Este estudio investiga la eficacia de modelos de lenguaje grandes avanzados, específicamente GPT-4o, Claude-3.5 Sonnet y GPT-3.5 Turbo, en la detección de vulnerabilidades de software. Nuestro experimento utilizó muestras de código vulnerables y seguras del Conjunto de Datos de Referencia de Aseguramiento de Software del NIST (SARD), centrándose en C++, Java y Python. Empleamos tres técnicas de solicitud distintas de la siguiente manera: Concisa, Configuración de Consejos y Paso a Paso. Los resultados demuestran que GPT-4o y Claude-3.5 Sonnet superan significativamente a GPT-3.5 Turbo en la detección de vulnerabilidades. GPT-4o mostró la mayor mejora con la solicitud Paso a Paso, logrando un puntaje F1 de 0.9072. Claude-3.5 Sonnet exhibió un rendimiento alto y consistente en todos los tipos de solicitudes, con su solicitud Paso a Paso arrojando los mejores resultados generales (puntaje F1: 0.8933, AUC: 0.74). En contraste, GPT-3.5 Turbo mostró cambios mínimos en el rendimiento entre las solicitudes, siendo la Configuración de Consejos la que tuvo mejor rendimiento (AUC: 0.65, puntaje F1: 0.6772), aunque significativamente más bajo que los otros modelos. Nuestros hallazgos resaltan el potencial de los modelos avanzados para mejorar la seguridad del software y subrayan la importancia de la ingeniería de solicitudes para optimizar su rendimiento.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro