logo móvil
Contáctanos

Un Método Generalizado para Filtrar Ruido en la Selección de Proyectos de Código Abierto

Autores: Ding, Yi; Fang, Qing; Liu, Xiaoyan

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Un Método Generalizado para Filtrar Ruido en la Selección de Proyectos de Código Abierto


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Github
Repositorios
Problemas de ingeniería de software
Proyectos de código abierto
Proyectos de codificación colaborativa
Método de clasificación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
GitHub alberga más de 10 millones de repositorios, brindando a los investigadores vastas oportunidades para estudiar diversos problemas de ingeniería de software. Sin embargo, dado que cualquiera puede crear un repositorio para cualquier propósito sin costo alguno, las plataformas de código abierto contienen muchos proyectos ruidosos o no cooperativos (por ejemplo, repositorios de dotfiles). Al seleccionar proyectos de código abierto para análisis, mezclar proyectos de codificación colaborativa (por ejemplo, marcos de aprendizaje automático) con proyectos ruidosos puede sesgar los hallazgos de la investigación. Para resolver este problema, optimizamos el Método de Árbol de Decisión Semi-Automático (SADTM), un método de clasificación de Proyectos de Codificación Colaborativa (CCP) existente, para mejorar su generalidad y precisión. Evaluamos nuestro método en el conjunto de datos GHTorrent (2012-2020) y encontramos que mejora efectivamente la clasificación de CCP de dos maneras clave: (1) demuestra mayor estabilidad que los métodos existentes, produciendo resultados consistentes en diferentes conjuntos de datos; (2) logra alta precisión, con una medida F que varía de 0.780 a 0.893. Nuestro método supera las técnicas existentes en la filtración de ruido y la selección de CCP, permitiendo a los investigadores extraer proyectos de código abierto de alta calidad de muestras candidatas con una precisión confiable.

Otros recursos que podrían interesarte

Temas Virtualpro