Faiz Junsyar Firjatullah, - and Mochamad Iqbal Ardimansyah, - and Yulia Retnowati, - (2025) IMPLEMENTASI SMOTE-ENN DAN XGBOOST UNTUK PENANGANAN KETIDAKSEIMBANGAN DATA PADA KLASIFIKASI KREDIT MACET. S1 thesis, Universitas Pendidikan Indonesia.
Abstract
Ketidakseimbangan data merupakan tantangan umum dalam pemodelan prediksi kredit macet yang dapat menurunkan performa model klasifikasi. Penelitian ini bertujuan untuk membandingkan efektivitas dua teknik penyeimbangan data, yaitu SMOTE-ENN dan SMOTE baseline, dalam meningkatkan akurasi prediksi menggunakan algoritma XGBoost. Data yang digunakan melalui proses prapemrosesan yang mencakup pembersihan data, penanganan nilai hilang, dan pengkodean variabel, kemudian dibagi menjadi data latih dan data uji. SMOTE-ENN mengombinasikan teknik oversampling dengan penghapusan noise melalui Edited Nearest Neighbors, sedangkan SMOTE baseline hanya melakukan oversampling. Evaluasi model menggunakan metrik F1-score, G-Mean, AUC, MCC, serta analisis confusion matrix. Hasil penelitian menunjukkan bahwa XGBoost dengan SMOTE-ENN mencatat performa sangat tinggi dengan F1-score sebesar 0,9978, G-Mean 0,9988, AUC 1,000, dan MCC 0,9977, serta hanya satu kesalahan prediksi pada masing-masing kelas. Dibandingkan dengan SMOTE baseline, SMOTE-ENN memberikan peningkatan tipis pada F1-score dan MCC, sementara G-Mean dan AUC menunjukkan nilai identik. Temuan ini mengindikasikan bahwa SMOTE-ENN mampu menghasilkan distribusi data yang lebih bersih, mempertahankan keseimbangan klasifikasi, dan meningkatkan kemampuan model dalam mengidentifikasi nasabah kredit macet maupun lancar secara lebih presisi.-----------Data imbalance is a common challenge in credit default prediction modeling that can reduce the performance of classification models. This study aims to compare the effectiveness of two data balancing techniques, namely SMOTE-ENN and baseline SMOTE, in improving prediction accuracy using the XGBoost algorithm. The dataset underwent preprocessing steps, including data cleaning, handling missing values, and variable encoding, before being split into training and testing sets. SMOTE-ENN combines oversampling with noise removal through Edited Nearest Neighbors, whereas baseline SMOTE only performs oversampling. Model evaluation employed F1-score, G-Mean, AUC, MCC, as well as confusion matrix analysis. The results show that XGBoost with SMOTE-ENN achieved outstanding performance, with an F1-score of 0.9978, G-Mean of 0.9988, AUC of 1.000, and MCC of 0.9977, with only one misclassification in each class. Compared to baseline SMOTE, SMOTE-ENN provided a slight improvement in F1-score and MCC, while G-Mean and AUC produced identical values. These findings indicate that SMOTEENN can generate a cleaner data distribution, maintain classification balance, and enhance the model’s ability to identify both default and non-default borrowers with greater precision.
![]() |
Text
S_RPL_2109936_Title.pdf Download (413kB) |
![]() |
Text
S_RPL_2109936_Chapter1.pdf Download (250kB) |
![]() |
Text
S_RPL_2109936_Chapter2.pdf Restricted to Staf Perpustakaan Download (542kB) |
![]() |
Text
S_RPL_2109936_Chapter3.pdf Download (564kB) |
![]() |
Text
S_RPL_2109936_Chapter4.pdf Restricted to Staf Perpustakaan Download (1MB) |
![]() |
Text
S_RPL_2109936_Chapter5.pdf Download (219kB) |
![]() |
Text
S_RPL_2109936_Appendix.pdf Restricted to Staf Perpustakaan Download (190kB) |
Item Type: | Thesis (S1) |
---|---|
Uncontrolled Keywords: | Data Imbalance, Hybrid Sampling, SMOTE, SMOTE-ENN, XGBoost, Ketidakseimbangan Data, |
Subjects: | Q Science > QA Mathematics > QA75 Electronic computers. Computer science Q Science > QA Mathematics > QA76 Computer software |
Divisions: | UPI Kampus cibiru > S1 Rekayasa Perangkaat Lunak |
Depositing User: | Faiz Junsyar Firjatullah |
Date Deposited: | 18 Sep 2025 04:34 |
Last Modified: | 18 Sep 2025 04:34 |
URI: | http://repository.upi.edu/id/eprint/137064 |
Actions (login required)
![]() |
View Item |