logo móvil
Contáctanos

Sevpredict: explorando el potencial de los grandes modelos de lenguaje en el mantenimiento de software

Autores: Arshad, Muhammad Ali; Riaz, Adnan; Fatima, Rubia; Yasin, Affan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Sevpredict: explorando el potencial de los grandes modelos de lenguaje en el mantenimiento de software


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Informes de errores
Gravedad
Clasificación de errores
Modelos de lenguaje grandes
SevPredict
GPT-2

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
La priorización de informes de errores basada en la gravedad es un aspecto crucial del triaje de errores, lo que permite centrarse en problemas más críticos. Los métodos tradicionales para evaluar la gravedad de los errores van desde la inspección manual hasta la aplicación de técnicas de aprendizaje automático y profundo. Sin embargo, la evaluación manual tiende a ser intensiva en recursos e ineficiente, mientras que los modelos de aprendizaje convencionales a menudo carecen de comprensión contextual. Este estudio explora la efectividad de los modelos de lenguaje grandes (LLMs) en predecir la gravedad de los informes de errores. Proponemos un enfoque novedoso llamado SevPredict utilizando GPT-2, un LLM avanzado, y lo comparamos con modelos de vanguardia. El análisis comparativo entre el enfoque propuesto y los enfoques de vanguardia sugiere que el enfoque propuesto supera a los enfoques de vanguardia en términos de métricas de evaluación del rendimiento. SevPredict muestra mejoras sobre el enfoque de vanguardia más efectivo (BERT-SBR) con un 1,72% más de precisión, un 2,18% más de precisión y un 4,94% más de MCC. Las mejoras son aún más sustanciales cuando se comparan con el enfoque de Ramay et al., con SevPredict demostrando un 10,66% más de precisión, un 10,39% más de precisión, un 3,29% más de recall, un 7,19% más de puntuación F1 y un notable 41,27% más de MCC. Estos hallazgos no solo demuestran la superioridad de nuestro enfoque basado en GPT-2 en la predicción de la gravedad de los informes de errores, sino que también destacan su potencial para avanzar significativamente en el triaje automático de errores y el mantenimiento de software. Esta investigación presenta una herramienta de predicción de gravedad llamada SevPredict.

Otros recursos que podrían interesarte

Temas Virtualpro