Potenciando la búsqueda de código con anotación estructural de código
Autores: Kong, Xianglong; Chen, Hongyu; Yu, Ming; Zhang, Lixiang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Potenciando la búsqueda de código con anotación estructural de código
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Búsqueda de código
Consulta
Fragmentos de código
Anotación de código
Base de código
Motor de búsqueda
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La búsqueda de código es un proceso que toma una consulta dada como entrada y recupera fragmentos de código relevantes de una base de código. La relación entre la consulta y el código se construye comúnmente en base a la anotación de código, que se extrae de comentarios de código u otros documentos. Los estudios actuales de búsqueda de código tratan aproximadamente la anotación de código como un lenguaje natural común, independientemente de su información estructural oculta. Para abordar la pérdida de información, este trabajo propone un modelo de anotación de código para extraer características desde cinco perspectivas, y llevar a cabo un motor de búsqueda de código, es decir, CodeHunter. CodeHunter se evalúa en un conjunto de datos de 7 millones de fragmentos de código y descripciones de consultas. Los resultados experimentales muestran que CodeHunter obtiene resultados más efectivos que Lucene y DeepCS. Y también demostramos que la efectividad proviene de las características ricas y los modelos de búsqueda, CodeHunter puede funcionar bien con diferentes tamaños de descripciones de consulta.
Descripción
La búsqueda de código es un proceso que toma una consulta dada como entrada y recupera fragmentos de código relevantes de una base de código. La relación entre la consulta y el código se construye comúnmente en base a la anotación de código, que se extrae de comentarios de código u otros documentos. Los estudios actuales de búsqueda de código tratan aproximadamente la anotación de código como un lenguaje natural común, independientemente de su información estructural oculta. Para abordar la pérdida de información, este trabajo propone un modelo de anotación de código para extraer características desde cinco perspectivas, y llevar a cabo un motor de búsqueda de código, es decir, CodeHunter. CodeHunter se evalúa en un conjunto de datos de 7 millones de fragmentos de código y descripciones de consultas. Los resultados experimentales muestran que CodeHunter obtiene resultados más efectivos que Lucene y DeepCS. Y también demostramos que la efectividad proviene de las características ricas y los modelos de búsqueda, CodeHunter puede funcionar bien con diferentes tamaños de descripciones de consulta.