Sevpredict: explorando el potencial de los grandes modelos de lenguaje en el mantenimiento de software
Autores: Arshad, Muhammad Ali; Riaz, Adnan; Fatima, Rubia; Yasin, Affan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Sevpredict: explorando el potencial de los grandes modelos de lenguaje en el mantenimiento de software
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Informes de errores
Gravedad
Clasificación de errores
Modelos de lenguaje grandes
SevPredict
GPT-2
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La priorización de informes de errores basada en la gravedad es un aspecto crucial del triaje de errores, lo que permite centrarse en problemas más críticos. Los métodos tradicionales para evaluar la gravedad de los errores van desde la inspección manual hasta la aplicación de técnicas de aprendizaje automático y profundo. Sin embargo, la evaluación manual tiende a ser intensiva en recursos e ineficiente, mientras que los modelos de aprendizaje convencionales a menudo carecen de comprensión contextual. Este estudio explora la efectividad de los modelos de lenguaje grandes (LLMs) en predecir la gravedad de los informes de errores. Proponemos un enfoque novedoso llamado SevPredict utilizando GPT-2, un LLM avanzado, y lo comparamos con modelos de vanguardia. El análisis comparativo entre el enfoque propuesto y los enfoques de vanguardia sugiere que el enfoque propuesto supera a los enfoques de vanguardia en términos de métricas de evaluación del rendimiento. SevPredict muestra mejoras sobre el enfoque de vanguardia más efectivo (BERT-SBR) con un 1,72% más de precisión, un 2,18% más de precisión y un 4,94% más de MCC. Las mejoras son aún más sustanciales cuando se comparan con el enfoque de Ramay et al., con SevPredict demostrando un 10,66% más de precisión, un 10,39% más de precisión, un 3,29% más de recall, un 7,19% más de puntuación F1 y un notable 41,27% más de MCC. Estos hallazgos no solo demuestran la superioridad de nuestro enfoque basado en GPT-2 en la predicción de la gravedad de los informes de errores, sino que también destacan su potencial para avanzar significativamente en el triaje automático de errores y el mantenimiento de software. Esta investigación presenta una herramienta de predicción de gravedad llamada SevPredict.
Descripción
La priorización de informes de errores basada en la gravedad es un aspecto crucial del triaje de errores, lo que permite centrarse en problemas más críticos. Los métodos tradicionales para evaluar la gravedad de los errores van desde la inspección manual hasta la aplicación de técnicas de aprendizaje automático y profundo. Sin embargo, la evaluación manual tiende a ser intensiva en recursos e ineficiente, mientras que los modelos de aprendizaje convencionales a menudo carecen de comprensión contextual. Este estudio explora la efectividad de los modelos de lenguaje grandes (LLMs) en predecir la gravedad de los informes de errores. Proponemos un enfoque novedoso llamado SevPredict utilizando GPT-2, un LLM avanzado, y lo comparamos con modelos de vanguardia. El análisis comparativo entre el enfoque propuesto y los enfoques de vanguardia sugiere que el enfoque propuesto supera a los enfoques de vanguardia en términos de métricas de evaluación del rendimiento. SevPredict muestra mejoras sobre el enfoque de vanguardia más efectivo (BERT-SBR) con un 1,72% más de precisión, un 2,18% más de precisión y un 4,94% más de MCC. Las mejoras son aún más sustanciales cuando se comparan con el enfoque de Ramay et al., con SevPredict demostrando un 10,66% más de precisión, un 10,39% más de precisión, un 3,29% más de recall, un 7,19% más de puntuación F1 y un notable 41,27% más de MCC. Estos hallazgos no solo demuestran la superioridad de nuestro enfoque basado en GPT-2 en la predicción de la gravedad de los informes de errores, sino que también destacan su potencial para avanzar significativamente en el triaje automático de errores y el mantenimiento de software. Esta investigación presenta una herramienta de predicción de gravedad llamada SevPredict.