Treffer: NS-PPO: A Two-Stage Data Resampling Framework for the Initial Phase of Software Defect Prediction.

Title:
NS-PPO: A Two-Stage Data Resampling Framework for the Initial Phase of Software Defect Prediction.
Authors:
Zhao, Xiaowei1 zhaoxw@csg.cn, Wang, Xuanye2 202310188991@mail.scut.edu.cn, Suo, Siliang3 suosl@csg.cn, Lu, Lu4 lul@scut.edu.cn
Source:
International Arab Journal of Information Technology (IAJIT). Sep2025, Vol. 22 Issue 5, p873-887. 15p.
Database:
Supplemental Index

Weitere Informationen

Software Defect Prediction (SDP) is one of the most reliability assurance methods before the delivery of software projects. However, class imbalance is a common issue in software projects, significantly hindering the ability of SDP methods to distinguish between defective and non-defective instances. Recently, although several SDP imbalance-handling methods have achieved certain success, they still exhibit limitations in terms of reliability and applicability. To address this, this paper proposes Neighborhood cleaning rule and Synthetic minority oversampling technique with Proximal Policy Optimization-based adaptive sampling (NS-PPO), a two stage-based data resampling framework aimed at mitigating the impact of class imbalance in software projects. NS-PPO operates in two phases. In the first phase, a hybrid sampler that combines Neighborhood CLeaning rule (NCL) and Synthetic Minority Oversampling TEchnique (SMOTE) is employed to generate a large number of synthetic samples for minority instances. In the second phase, a Deep Reinforcement Learning (DRL)-based undersampler is designed to filter highquality synthetic samples. These selected samples are then combined with real samples to form the training set for the SDP methods. Extensive experiments are conducted on 18 software projects from the PRedictOr Models In Software Engineering (PROMISE) and National Aeronautics and Space Administration (NASA) datasets, with Matthews Correlation Coefficient (MCC), Area Under the Curve (AUC), and F-measure used as evaluation metrics. The findings demonstrate that, regardless of whether expert metrics or semantic metrics are used as inputs for SDP methods, NS-PPO exhibits significant advantages over the state-of-the-art SDP imbalance-handling methods, including Learning-To-Rank UnderSampling (LTRUS). [ABSTRACT FROM AUTHOR]

المقال يركز على إطار عمل مقترح لإعادة أخذ العينات من البيانات على مرحلتين يسمى قاعدة تنظيف الجوار وتقنية زيادة العينات للأقليات الاصطناعية مع أخذ العينات التكيفية المعتمدة على تحسين السياسة القريبة (NS-PPO) لتحسين توقع عيوب البرمجيات (SDP) في ظل وجود عدم توازن في الفئات. يتكون الإطار من عينة هجينة تجمع بين قاعدة تنظيف الجوار (NCL) وتقنية زيادة العينات للأقليات الاصطناعية (SMOTE) لتوليد عينات اصطناعية للحالات الأقلية، تليها عينة تحتية تعتمد على التعلم العميق المعزز (DRL) تقوم بتصفية هذه العينات بناءً على جودتها. تظهر النتائج التجريبية على 18 مشروعًا برمجيًا أن NS-PPO يتفوق بشكل كبير على الطرق الحالية للتعامل مع عدم التوازن، بما في ذلك تقنية التعلم لترتيب أخذ العينات (LTRUS)، عبر مقاييس تقييم مختلفة مثل معامل ارتباط ماثيو (MCC)، والمساحة تحت المنحنى (AUC)، ومقياس F. تشير النتائج إلى أن NS-PPO يعالج بفعالية قيود طرق SDP التقليدية من خلال تعزيز تمثيل الفئات الأقلية وتحسين اختيار العينات بشكل ديناميكي. [Extracted from the article]