Un Método Generalizado para Filtrar Ruido en la Selección de Proyectos de Código Abierto
Autores: Ding, Yi; Fang, Qing; Liu, Xiaoyan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un Método Generalizado para Filtrar Ruido en la Selección de Proyectos de Código Abierto
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Github
Repositorios
Problemas de ingeniería de software
Proyectos de código abierto
Proyectos de codificación colaborativa
Método de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
GitHub alberga más de 10 millones de repositorios, brindando a los investigadores vastas oportunidades para estudiar diversos problemas de ingeniería de software. Sin embargo, dado que cualquiera puede crear un repositorio para cualquier propósito sin costo alguno, las plataformas de código abierto contienen muchos proyectos ruidosos o no cooperativos (por ejemplo, repositorios de dotfiles). Al seleccionar proyectos de código abierto para análisis, mezclar proyectos de codificación colaborativa (por ejemplo, marcos de aprendizaje automático) con proyectos ruidosos puede sesgar los hallazgos de la investigación. Para resolver este problema, optimizamos el Método de Árbol de Decisión Semi-Automático (SADTM), un método de clasificación de Proyectos de Codificación Colaborativa (CCP) existente, para mejorar su generalidad y precisión. Evaluamos nuestro método en el conjunto de datos GHTorrent (2012-2020) y encontramos que mejora efectivamente la clasificación de CCP de dos maneras clave: (1) demuestra mayor estabilidad que los métodos existentes, produciendo resultados consistentes en diferentes conjuntos de datos; (2) logra alta precisión, con una medida F que varía de 0.780 a 0.893. Nuestro método supera las técnicas existentes en la filtración de ruido y la selección de CCP, permitiendo a los investigadores extraer proyectos de código abierto de alta calidad de muestras candidatas con una precisión confiable.
Descripción
GitHub alberga más de 10 millones de repositorios, brindando a los investigadores vastas oportunidades para estudiar diversos problemas de ingeniería de software. Sin embargo, dado que cualquiera puede crear un repositorio para cualquier propósito sin costo alguno, las plataformas de código abierto contienen muchos proyectos ruidosos o no cooperativos (por ejemplo, repositorios de dotfiles). Al seleccionar proyectos de código abierto para análisis, mezclar proyectos de codificación colaborativa (por ejemplo, marcos de aprendizaje automático) con proyectos ruidosos puede sesgar los hallazgos de la investigación. Para resolver este problema, optimizamos el Método de Árbol de Decisión Semi-Automático (SADTM), un método de clasificación de Proyectos de Codificación Colaborativa (CCP) existente, para mejorar su generalidad y precisión. Evaluamos nuestro método en el conjunto de datos GHTorrent (2012-2020) y encontramos que mejora efectivamente la clasificación de CCP de dos maneras clave: (1) demuestra mayor estabilidad que los métodos existentes, produciendo resultados consistentes en diferentes conjuntos de datos; (2) logra alta precisión, con una medida F que varía de 0.780 a 0.893. Nuestro método supera las técnicas existentes en la filtración de ruido y la selección de CCP, permitiendo a los investigadores extraer proyectos de código abierto de alta calidad de muestras candidatas con una precisión confiable.