Un método de predicción de defectos de software que aborda simultáneamente los problemas de superposición de clases y ruido después del sobremuestreo
Autores: Wang, Renliang; Liu, Feng; Bai, Yanhui
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de predicción de defectos de software que aborda simultáneamente los problemas de superposición de clases y ruido después del sobremuestreo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Conjuntos de datos de predicción de defectos de software
Desequilibrio de clase
Ruido
Superposición de clase
Clasificadores
Sobremuestreo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Los conjuntos de datos de predicción de defectos de software a menudo sufren de problemas como desequilibrio de clases, ruido y superposición de clases, lo que dificulta que los clasificadores identifiquen instancias de defectos. En respuesta, los investigadores han propuesto diversas técnicas para mitigar el impacto de estos problemas en el rendimiento del clasificador. El sobremuestreo es un método ampliamente utilizado para abordar el desequilibrio de clases. Sin embargo, además del ruido inherente y la superposición de clases en los propios conjuntos de datos, los métodos de sobremuestreo pueden introducir nuevo ruido y superposición de clases al abordar el desequilibrio de clases. Para abordar estos desafíos, proponemos un método de predicción de defectos de software llamado AS-KDENN, que mejora simultáneamente los efectos del desequilibrio de clases, ruido y superposición de clases en los modelos de clasificación. AS-KDENN primero realiza sobremuestreo utilizando el Método de Muestreo Sintético Adaptativo (ADASYN), seguido por nuestro método KDENN propuesto para abordar ruido y superposición de clases. A diferencia de los métodos tradicionales, KDENN tiene en cuenta tanto la distancia como la información de densidad local de las muestras superpuestas, lo que permite una eliminación más razonable de ruido e instancias superpuestas. Para demostrar la efectividad del método AS-KDENN, realizamos experimentos extensos en 19 conjuntos de datos de predicción de defectos de software disponibles públicamente. En comparación con cuatro técnicas de sobremuestreo comúnmente utilizadas que también abordan la superposición de clases o el ruido, el método AS-KDENN alivia eficazmente los problemas de desequilibrio de clases, ruido y superposición de clases, mejorando posteriormente el rendimiento de los modelos de clasificación.
Descripción
Los conjuntos de datos de predicción de defectos de software a menudo sufren de problemas como desequilibrio de clases, ruido y superposición de clases, lo que dificulta que los clasificadores identifiquen instancias de defectos. En respuesta, los investigadores han propuesto diversas técnicas para mitigar el impacto de estos problemas en el rendimiento del clasificador. El sobremuestreo es un método ampliamente utilizado para abordar el desequilibrio de clases. Sin embargo, además del ruido inherente y la superposición de clases en los propios conjuntos de datos, los métodos de sobremuestreo pueden introducir nuevo ruido y superposición de clases al abordar el desequilibrio de clases. Para abordar estos desafíos, proponemos un método de predicción de defectos de software llamado AS-KDENN, que mejora simultáneamente los efectos del desequilibrio de clases, ruido y superposición de clases en los modelos de clasificación. AS-KDENN primero realiza sobremuestreo utilizando el Método de Muestreo Sintético Adaptativo (ADASYN), seguido por nuestro método KDENN propuesto para abordar ruido y superposición de clases. A diferencia de los métodos tradicionales, KDENN tiene en cuenta tanto la distancia como la información de densidad local de las muestras superpuestas, lo que permite una eliminación más razonable de ruido e instancias superpuestas. Para demostrar la efectividad del método AS-KDENN, realizamos experimentos extensos en 19 conjuntos de datos de predicción de defectos de software disponibles públicamente. En comparación con cuatro técnicas de sobremuestreo comúnmente utilizadas que también abordan la superposición de clases o el ruido, el método AS-KDENN alivia eficazmente los problemas de desequilibrio de clases, ruido y superposición de clases, mejorando posteriormente el rendimiento de los modelos de clasificación.