Espacio de disimilitud basado en predicción de defectos entre múltiples fuentes y proyectos cruzados
Autores: Ren, Shengbing; Zhang, Wanying; Munir, Hafiz Shahbaz; Xia, Lei
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Espacio de disimilitud basado en predicción de defectos entre múltiples fuentes y proyectos cruzados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Predicción de defectos de software
Predicción de defectos entre proyectos
Multi-fuente
Espacio de disimilitud
Método TrAdaBoost
Clasificador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
La predicción de defectos de software es un medio importante para garantizar la calidad del software. Dado que no hay datos históricos suficientes dentro de un proyecto para entrenar al clasificador, la predicción de defectos entre proyectos (CPDP) ha sido reconocida como un enfoque fundamental. Sin embargo, los métodos tradicionales de predicción de defectos utilizan atributos de características para representar muestras, lo que no puede evitar la transferencia negativa, lo que puede resultar en un modelo de rendimiento deficiente en CPDP. Este artículo propone un método de predicción de defectos entre proyectos de múltiples fuentes basado en el espacio de disimilitud (DM-CPDP). Este método no solo conserva la información original, sino que también obtiene la relación con otros objetos. Por lo tanto, puede mejorar la capacidad discriminante de los atributos de muestra hacia la etiqueta de clase. Este método utiliza primero el método de agrupamiento basado en la densidad para construir el conjunto de prototipos con el centro del clúster de muestras en el conjunto objetivo. Luego, se utiliza el kernel de arcocoseno para calcular las disimilitudes de muestra entre el conjunto de prototipos y el dominio fuente o el conjunto objetivo para formar el espacio de disimilitud. En este espacio, se obtiene el conjunto de entrenamiento con el método de distancia del transportista (EMD). Para las muestras no etiquetadas convertidas del conjunto objetivo, se utiliza el algoritmo de vecinos más cercanos (KNN) para etiquetar esas muestras. Finalmente, el modelo se aprende a partir de los datos de entrenamiento basados en el método TrAdaBoost y se utiliza para predecir nuevos defectos potenciales. Los resultados experimentales muestran que este enfoque tiene un mejor rendimiento que otros métodos tradicionales de CPDP.
Descripción
La predicción de defectos de software es un medio importante para garantizar la calidad del software. Dado que no hay datos históricos suficientes dentro de un proyecto para entrenar al clasificador, la predicción de defectos entre proyectos (CPDP) ha sido reconocida como un enfoque fundamental. Sin embargo, los métodos tradicionales de predicción de defectos utilizan atributos de características para representar muestras, lo que no puede evitar la transferencia negativa, lo que puede resultar en un modelo de rendimiento deficiente en CPDP. Este artículo propone un método de predicción de defectos entre proyectos de múltiples fuentes basado en el espacio de disimilitud (DM-CPDP). Este método no solo conserva la información original, sino que también obtiene la relación con otros objetos. Por lo tanto, puede mejorar la capacidad discriminante de los atributos de muestra hacia la etiqueta de clase. Este método utiliza primero el método de agrupamiento basado en la densidad para construir el conjunto de prototipos con el centro del clúster de muestras en el conjunto objetivo. Luego, se utiliza el kernel de arcocoseno para calcular las disimilitudes de muestra entre el conjunto de prototipos y el dominio fuente o el conjunto objetivo para formar el espacio de disimilitud. En este espacio, se obtiene el conjunto de entrenamiento con el método de distancia del transportista (EMD). Para las muestras no etiquetadas convertidas del conjunto objetivo, se utiliza el algoritmo de vecinos más cercanos (KNN) para etiquetar esas muestras. Finalmente, el modelo se aprende a partir de los datos de entrenamiento basados en el método TrAdaBoost y se utiliza para predecir nuevos defectos potenciales. Los resultados experimentales muestran que este enfoque tiene un mejor rendimiento que otros métodos tradicionales de CPDP.