Explorando el potencial de los modelos de lenguaje pre-entrenados de código para la reparación automatizada de programas
Autores: Hao, Sichong; Shi, Xianjun; Liu, Hongwei
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Explorando el potencial de los modelos de lenguaje pre-entrenados de código para la reparación automatizada de programas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Desarrollo de software
Reparación automatizada de programas
PLMCs
Aumento de código
Aprendizaje del plan de estudios
Depuración.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
En el ámbito del desarrollo de software, la reparación automatizada de programas (APR) emerge como una técnica fundamental, depurando de forma autónoma el código defectuoso para aumentar la productividad. A pesar de los notables avances de los grandes modelos de lenguaje preentrenados de código (PLMCs) en la generación de código, su eficacia en tareas complejas como APR sigue siendo subóptima. Esta limitación se atribuye al desarrollo genérico de los PLMCs, cuyo potencial especializado para APR aún no ha sido completamente explorado. En este documento, proponemos un enfoque novedoso diseñado para mejorar el rendimiento de APR de los PLMCs a través de la ampliación del código fuente y el aprendizaje curricular. Nuestro enfoque emplea operadores de ampliación de código para generar un espectro de programas de corrección de errores sintácticamente variados pero semánticamente congruentes, enriqueciendo así la diversidad del conjunto de datos. Además, diseñamos una estrategia de aprendizaje curricular, que permite a los PLMCs desarrollar una comprensión profunda de la semántica del programa a partir de estas variantes de código enriquecidas, refinando así su destreza en la sintonización fina de APR. Aplicamos nuestro enfoque en diferentes PLMCs y lo evaluamos sistemáticamente en tres bancos de pruebas: BFP-small, BFP-medium y Defects4J. Los resultados experimentales muestran que nuestro enfoque supera tanto a los modelos originales como a los métodos de referencia existentes, demostrando el prometedor futuro de adaptar los PLMCs para la depuración de código en la práctica.
Descripción
En el ámbito del desarrollo de software, la reparación automatizada de programas (APR) emerge como una técnica fundamental, depurando de forma autónoma el código defectuoso para aumentar la productividad. A pesar de los notables avances de los grandes modelos de lenguaje preentrenados de código (PLMCs) en la generación de código, su eficacia en tareas complejas como APR sigue siendo subóptima. Esta limitación se atribuye al desarrollo genérico de los PLMCs, cuyo potencial especializado para APR aún no ha sido completamente explorado. En este documento, proponemos un enfoque novedoso diseñado para mejorar el rendimiento de APR de los PLMCs a través de la ampliación del código fuente y el aprendizaje curricular. Nuestro enfoque emplea operadores de ampliación de código para generar un espectro de programas de corrección de errores sintácticamente variados pero semánticamente congruentes, enriqueciendo así la diversidad del conjunto de datos. Además, diseñamos una estrategia de aprendizaje curricular, que permite a los PLMCs desarrollar una comprensión profunda de la semántica del programa a partir de estas variantes de código enriquecidas, refinando así su destreza en la sintonización fina de APR. Aplicamos nuestro enfoque en diferentes PLMCs y lo evaluamos sistemáticamente en tres bancos de pruebas: BFP-small, BFP-medium y Defects4J. Los resultados experimentales muestran que nuestro enfoque supera tanto a los modelos originales como a los métodos de referencia existentes, demostrando el prometedor futuro de adaptar los PLMCs para la depuración de código en la práctica.