Un Método Generalizado para Filtrar Ruido en la Selección de Proyectos de Código Abierto

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un Método Generalizado para Filtrar Ruido en la Selección de Proyectos de Código Abierto

Autores: Ding, Yi; Fang, Qing; Liu, Xiaoyan

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Un Método Generalizado para Filtrar Ruido en la Selección de Proyectos de Código Abierto

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Github

Repositorios

Problemas de ingeniería de software

Proyectos de código abierto

Proyectos de codificación colaborativa

Método de clasificación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

GitHub alberga más de 10 millones de repositorios, brindando a los investigadores vastas oportunidades para estudiar diversos problemas de ingeniería de software. Sin embargo, dado que cualquiera puede crear un repositorio para cualquier propósito sin costo alguno, las plataformas de código abierto contienen muchos proyectos ruidosos o no cooperativos (por ejemplo, repositorios de dotfiles). Al seleccionar proyectos de código abierto para análisis, mezclar proyectos de codificación colaborativa (por ejemplo, marcos de aprendizaje automático) con proyectos ruidosos puede sesgar los hallazgos de la investigación. Para resolver este problema, optimizamos el Método de Árbol de Decisión Semi-Automático (SADTM), un método de clasificación de Proyectos de Codificación Colaborativa (CCP) existente, para mejorar su generalidad y precisión. Evaluamos nuestro método en el conjunto de datos GHTorrent (2012-2020) y encontramos que mejora efectivamente la clasificación de CCP de dos maneras clave: (1) demuestra mayor estabilidad que los métodos existentes, produciendo resultados consistentes en diferentes conjuntos de datos; (2) logra alta precisión, con una medida F que varía de 0.780 a 0.893. Nuestro método supera las técnicas existentes en la filtración de ruido y la selección de CCP, permitiendo a los investigadores extraer proyectos de código abierto de alta calidad de muestras candidatas con una precisión confiable.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro