Penerapan Feature Engineering dan Hyperparameter Tuning untuk Meningkatkan Akurasi Model Random Forest pada Klasifikasi Risiko Kredit
DOI:
https://doi.org/10.25126/jtiik.2025128472Kata Kunci:
Random Forest, Feature Engineering, Machine Learning, Hyperparameter-Tuning, Random Search, Grid Search, Klasifikasi Risiko Kredit, Credit RiskAbstrak
Risiko kredit adalah hal yang penting untuk dianalisis di awal pengajuan kredit guna mengurangi nilai Non-Performing Loan (NPL) atau risiko gagal bayar. Pola pengetahuan risiko kredit bisa diketahui dari data-data historikal sehingga data pengajuan kredit baru bisa ketahui risikonya lebih awal. Pada penelitian-penelitian terdahulu, model klasifikasi untuk risiko kredit menggunakan Random Forest banyak ditemukan namun tidak mendalam dalam penerapan preprocessing dan akurasinya masih rendah. Maka penelitian ini bertujuan meningkatkan akurasi model klasifikasi algoritma Random Forest dengan menerapkan tuning parameter dan feature engineering yang lebih dalam. Metodologi penelitian yang digunakan adalah Sample, Explore, Modify, Models, dan Assess (SEMMA). Penelitian ini menerapkan berbagai kombinasi parameter dan menerapkan feature engineering untuk memperbaiki kualitas data. Feature engineering yang digunakan meliputi oversampling dan standardisasi. Hyperparameter tuning model Random Forest menggunakan metode Random Search dan Grid Search untuk mencari parameter paling optimal. Dataset penelitian adalah data sekunder (Credit Risk) yang terdiri dari 32.581 baris, 11 variabel prediktor dan 1 variabel respon. Hasil penelitian menunjukkan penerapan feature engineering signifikan meningkatkan akurasi model Random Forest, meningkat dari 92,56% menjadi 97,94% setelah menerapkan oversampling dan standarisasi. Sedangkan hyperparameter tuning tidak begitu signifikan meningkatkan akurasi model yang dibangun menggunakan dataset yang sudah dikenakan preprocessing maupun feature engineering dengan baik.
Abstract
Credit risk analysis is essential for minimizing the value of non-performing loans (NPL). Using historical data to understand credit risk patterns can help identify risks early in new credit applications. Previous research has often used Random Forest classification models for credit risk but found the need for more comprehensive preprocessing of applications and higher accuracy. This research aims to improve the accuracy of the Random Forest algorithm classification model by implementing parameter tuning and feature engineering. The SEMMA (Sample, Explore, Modify, Model, and Assess) methodology is used, which explores different parameters and feature engineering combinations to enhance data quality. Feature engineering techniques, such as oversampling and standardization, are applied. Hyperparameter tuning of the Random Forest model involves using Random Search and Grid Search methods to identify the optimal parameters. The research dataset, consisting of 32.581 lines, 11 predictor variables, and one response variable, is secondary data on Credit Risk. Results show that the application of feature engineering significantly improves the accuracy of the Random Forest model, increasing from 92,56% to 97,94% after applying oversampling and standardization. However, hyperparameter tuning does not significantly increase the accuracy of models built using well-preprocessed datasets or feature engineering.
Downloads
Referensi
ARYANTI, R., MISRIATI, T. AND HIDAYAT, R., 2023. KLIK: Kajian Ilmiah Informatika dan Komputer Klasifikasi Risiko Kesehatan Ibu Hamil Menggunakan Random Oversampling Untuk Mengatasi Ketidakseimbangan Data. Media Online, [online] 3(5), pp.409–416. Available at: <https://djournals.com/klik>.
GEORGE, S. AND SUMATHI, B., 2020. Grid Search Tuning of Hyperparameters in Random Forest Classifier for Customer Feedback Sentiment Prediction. [online] IJACSA) International Journal of Advanced Computer Science and Applications, Available at: .
KHOMSAH, S., 2021. Sentiment Analysis On YouTube Comments Using Word2Vec and Random Forest Sentimen Analisis pada Opini YouTube Menggunakan Word2Vec dan Random Forest. Jurnal Informatika dan Teknologi Informasi, 18(1), pp.61–72. https://doi.org/10.31515/telematika.v18i1.4493.
KHOMSAH, S., CAHYANA, N.H. AND ARIBOWO, A.S., 2023. Hyperparameter Tuning of Semi-Supervised Learning for Indonesian Text Annotation. International Journal of Advanced Computer Science and Applications, 14(9), pp.250–256. https://doi.org/10.14569/IJACSA.2023.0140927.
KURNIAWAN, A., RIFA’I, A., NAFIS, M.A., SEFRIDA, N. AND PATRIA, H., 2022. Pemilihan Metode Predictive Analytics dengan Machine Learning untuk Analisis dan Strategi Peningkatan Kualitas Kredit Perbankan. Indonesian Journal of Applied Statistics, 5(1), p.1. https://doi.org/10.13057/ijas.v5i1.55483.
KUSNAIDI, M.R., GULO, T. AND ARIPIN, S., 2022. Penerapan Normalisasi Data Dalam Mengelompokkan Data Mahasiswa Dengan Menggunakan Metode K-Means Untuk Menentukan Prioritas Bantuan Uang Kuliah Tunggal. Journal of Computer System and Informatics (JoSYC), 3(4), pp.330–338. https://doi.org/10.47065/josyc.v3i4.2112.
LESTARI, M.E., 2023. Penerapan PCA (Principal Component Analysis) pada Deteksi Outlier untuk Data Text.
LIAW, A. AND WIENER, M., 2002. Classification and Regression by randomForest. [online] Available at: <http://www.stat.berkeley.edu/>.
MUHAMAD, H., PRASOJO, C.A., SUGIANTO, N.A., SURTININGSIH, L. AND CHOLISSODIN, I., 2017. Optimasi Naïve Bayes Classifier dengan Menggunakan Particle Swarm Optimization pada Data Iris. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), 4(3), pp.180–184.
MURAINA, I.O., 2022. Ideal dataset splitting ratios in machine learning algorithms: general concerns for data scientists and data analysts. In: 7th International Mardin Artuklu Scientific Researches Conference. [online] Mardin, Turkey. pp.496–504. Available at: <https://www.researchgate.net/publication/358284895>.
NALDI, A. AND AGUSTIAN, S., 2023. Klasifikasi sentimen Vaksin Covid-19 menggunakan K-Nearest Neighbor Berdasarkan Word Embeddings Fasttext Pada Twitter. ZONAsi: Jurnal Sistem Informasi, 5(2), pp.323–333.
NASRI, E. AND AW, A.S., 2020. Aplikasi Seleksi Penentuan Nasabah Untuk Penjualan Barang Secara Kredit Dengan Algoritma K-Nearest Neighbor. SAINTEK:Jurnal Sains & Teknologi, 4(1), pp.1–11.
NUGROHO, A.S., WITARTO, A.B. AND HANDOKO, D., 2003. Support Vector Machine-Teori dan Aplikasinya dalam Bioinformatika 1. [online] Available at: <http://asnugroho.net>.
PRASOJO, B. AND HARYATMI, E., 2021. Analisa Prediksi Kelayakan Pemberian Kredit Pinjaman dengan Metode Random Forest. Jurnal Nasional Teknologi dan Sistem Informasi, 7(2), pp.79–89. https://doi.org/10.25077/teknosi.v7i2.2021.79-89.
PRATIWI, T.W. AND ARIFIN, T., 2024. Optimasi Decision Tree Menggunakan Particle Swarm Optimization untuk Klasifikasi Kesuburan pada Pria. SISTEMASI: Jurnal Sistem Informasi, [online] 10(1), pp.1–12. https://doi.org/10.32520/stmsi.v10i1.967.
PROBST, P., WRIGHT, M.N. AND BOULESTEIX, A.L., 2019. Hyperparameters and tuning strategies for random forest. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, https://doi.org/10.1002/widm.1301.
RELIGIA, Y., NUGROHO, A. AND HADIKRISTATNTO, W., 2021. Klasifikasi Analisis Perbandingan Algoritma Optimasi pada Random Forest untuk Klasifikasi Data Bank Marketing. Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), 5(1), pp.187–192. https://doi.org/10.29207/resti.v5i1.2813.
SANJAYA, J., RENATA, E., BUDIMAN, V.E., ANDERSON, F. AND AYUB, M., 2020. Prediksi Kelalaian Pinjaman Bank Menggunakan Random Forest dan Adaptive Boosting. Jurnal Teknik Informatika dan Sistem Informasi, 6(1). https://doi.org/10.28932/jutisi.v6i1.2313.
SETIAWAN, R. AND PRATAMA, A.A.P., 2019. Modal, Tingkat Likuiditas Bank, NPL dan Pertumbuhan Kredit Perbankan Indonesia (Capital, Level of Liquidity, NPL and Lending Growth of Indonesian Banks). Matrik : Jurnal Manajemen, Strategi Bisnis dan Kewirausahaan, 13(1), pp.96–107.
https://doi.org/10.24843/MATRIK:JMBK.2019.v13.i01.p10.
SPEISER, J.L., MILLER, M.E., TOOZE, J. AND IP, E., 2019. A comparison of random forest variable selection methods for classification prediction modeling. Expert Systems with Applications, 134, pp.93–101. https://doi.org/10.1016/j.eswa.2019.05.028.
SUNARYA, U. AND HARYANTI, T., 2022. Perbandingan Kinerja Algoritma Optimasi pada Metode Random Forest untuk Deteksi Kegagalan Jantung. Jurnal Rekayasa Elektrika, 18(4). https://doi.org/10.17529/jre.v18i4.26981.
TSE, L., 2020. Credit Risk Dataset.
https://www.kaggle.com/datasets/laotse/credit-risk-dataset.
UDDIN, M.S., CHI, G., JANABI, M.A.M. AL AND HABIB, T., 2022. Leveraging random forest in micro-enterprises credit risk modelling for accuracy and interpretability. International Journal of Finance and Economics, 27(3), pp.3713–3729. https://doi.org/10.1002/ijfe.2346.
WANG, S., FU, B., LIU, H., JIANG, Z., WU, Z. AND HSU, D.F., 2017. Feature Engineering for Credit Risk Evaluation in Online P2P Lending. International Journal of Software Science and Computational Intelligence, 9(2), pp.1–13. https://doi.org/10.4018/ijssci.2017040101.
WIDAYATI, Y.T., PRIHATI, Y. AND WIDJAJA, S., 2021. Analisis Dan Komparasi Algoritma Na Ve Bayes Dan C4. 5 Untuk Klasifikasi Loyalitas Pelanggan Mnc Play Kota Semarang. TRANSFORMTIKA, 18(2), pp.161–172.
WIDIANTI, A. AND PRATAMA, I., 2024. Penanganan Missing Values dan Prediksi Data Timbunan Sampah Berbasis Machine Learning. Rabit : Jurnal Teknologi dan Sistem Informasi Univrab, 9(2), pp.242–251. https://doi.org/10.36341/rabit.v9i2.4789.
WONGVORACHAN, T., HE, S. AND BULUT, O., 2023. A Comparison of Undersampling, Oversampling, and SMOTE Methods for Dealing with Imbalanced Classification in Educational Data Mining. Information (Switzerland), 14(1). https://doi.org/10.3390/info14010054.
XIA, J., LIAO, W., CHANUSSOT, J., DU, P., SONG, G. AND PHILIPS, W., 2015. Improving Random Forest With Ensemble of Features and Semisupervised Feature Extraction. IEEE Geoscience and Remote Sensing Letters, 12(7), pp.1471–1475. https://doi.org/10.1109/LGRS.2015.2409112.
ZHAO, W., HOU, J. AND RAN, Q., 2022. Analysis of Corporate Credit Risk Based on Random Forest and TOPSIS Models. Financial Engineering and Risk Management, 5(4), pp.30–37. https://doi.org/10.23977/ferm.2022.050405.
ZHENG, A. AND CASARI, A., 2018. Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. O’Reilly Media, Inc.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2025 Jurnal Teknologi Informasi dan Ilmu Komputer

Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.

Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).