Algoritma K-Nearest Neighbor pada Kasus Dataset Imbalanced untuk Klasifikasi Kinerja Karyawan Perusahaan
DOI:
https://doi.org/10.25126/jtiik.938144Kata Kunci:
Imbalanced Dataset, Kinerja Karyawan, Klasifikasi, Machine Learning, MLLCAbstrak
Perusahaan perlu menilai kinerja karyawan mereka untuk berbagai tujuan, termasuk promosi jabatan. Namun, data karyawan yang semakin rumit dapat membuat proses penilaian ini menjadi sulit. Penelitian ini bertujuan untuk membuat model machine learning yang dapat memprediksi apakah karyawan berpotensi untuk dipromosikan atau tidak. Penelitian ini menggunakan algoritma K-Nearest Neighbor dengan menerapkan tahapan-tahapan Machine Learning LifeCycle (MLLC). Untuk mengatasi masalah ketidakseimbangan label kelas dalam dataset, teknik Synthetic Minority Over-sampling Technique (SMOTE) digunakan. Hasil dari penelitian ini, model dibangun dengan melakukan pemisahan data menggunakan cross validation dan menggunakan nilai k=2 dalam implementasi algoritma K-Nearest Neighbor. Hasil evaluasi model menunjukkan kinerja yang sangat baik dengan nilai akurasi 94%, nilai presisi 90,8%, dan nilai recall 97,4%. Model ini juga memiliki kurva ROC yang baik yang hampir menyentuh sudut kiri atas dan nilai AUC sebesar 0,94 dan nilai F-Score sebesar 0,938 yang termasuk ke dalam kategori excellent.
Abstract
Companies need to assess the performance of their employees for various purposes, including promotions. However, increasingly complex employee data can make this assessment process more accessible. This research aims to create a machine-learning model that can predict whether employees have the potential to be promoted or not. This research uses the K-Nearest Neighbor algorithm, with step by step from Machine Learning Life Cycle (MLLC) method. To overcome the problem of class label imbalance in the dataset, the Synthetic Minority Over-sampling Technique (SMOTE) technique is used. As a result of this research, the model was built by separating the data using cross-validation and the value k=2 in implementing the K-Nearest Neighbor algorithm. The model evaluation results show excellent performance with an accuracy value of 94%, a precision value of 90.8%, and a recall value of 97.4%. In addition, the confusion matrix evaluation showed that only 562 of the 9,377 data-testing did not match the classification results. This model also has a good ROC curve, which almost touches the top left corner, and an AUC value of 0.94, which is included in the excellent category.
Downloads
Referensi
A. RAHIM, A.M., INGGRID YANUAR RISCA PRATIWI AND MUHAMMAD AINUL FIKRI, 2023. Klasifikasi Penyakit Jantung Menggunakan Metode Synthetic Minority Over-Sampling Technique Dan Random Forest Clasifier. Indonesian Journal of Computer Science, 12(5), pp.2995–3011. https://doi.org/10.33022/ijcs.v12i5.3413.
ANDIE AND HASANUDDIN, 2023. Klasifikasi Tingkat Kompetensi Mahasiswa UNISKA Menggunakan Kombinasi Algoritma K-Nearest Neighbors (KNN) Dan Manhattan Distance. Technologia : Jurnal Ilmiah, 14(1), pp.74–77.
ANGGARA, E.D., WIDJAJA, A. AND SUTEJA, B.R., 2022. Prediksi Kinerja Pegawai sebagai Rekomendasi Kenaikan Golongan dengan Metode Decision Tree dan Regresi Logistik. Jurnal Teknik Informatika dan Sistem Informasi, 8(1), pp.218–234. https://doi.org/10.28932/jutisi.v8i1.4479.
ARIFIN, T. AND SYALWAH, S., 2020. Prediksi Keberhasilan Immunotherapy Pada Penyakit Kutil Dengan Menggunakan Algoritma Naïve Bayes. Jurnal Responsif : Riset Sains dan Informatika, 2(1), pp.38–43. https://doi.org/10.51977/jti.v2i1.177.
DAQIQIL ID, I., 2021. Machine Learning : Teori , Studi Kasus dan Implementasi Menggunakan Python. Riau. https://doi.org/10.5281/zenodo.5113507.
DASTJERDY, B., SAEIDI, A. AND HEIDARZADEH, S., 2023. Review of Applicable Outlier Detection Methods to Treat Geomechanical Data. Geotechnics, 3(2), pp.375–396. https://doi.org/10.3390/geotechnics3020022.
GUNAWAN, B., PRATIWI, H.S. AND PRATAMA, E.E., 2018. Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes. Jurnal Edukasi dan Penelitian Informatika (JEPIN), 4(2), p.113. https://doi.org/10.26418/jp.v4i2.27526.
GUNTARA, R.G., 2023. Pemanfaatan Google Colab Untuk Aplikasi Pendeteksian Masker Wajah Menggunakan Algoritma Deep Learning YOLOv7. Jurnal Teknologi Dan Sistem Informasi Bisnis, 5(1), pp.55–60.
HALIM, S.F.N. AND AZMI, U., 2023. Analisis Perbandingan Klasifikasi dan Penerapan Teknik SMOTE Dalam Imbalanced Data Pada Credit Card Default. Jurnal Sains dan Seni ITS, 12(2). https://doi.org/10.12962/j23373520.v12i2.111833.
HANCOCK, J.T. AND KHOSHGOFTAAR, T.M., 2020. Survey on categorical data for neural networks. Journal of Big Data, [online] 7(1). https://doi.org/10.1186/s40537-020-00305-w.
HERDIAN, C., KAMILA, A. AND AGUNG MUSA BUDIDARMA, I.G., 2024. Studi Kasus Feature Engineering Untuk Data Teks: Perbandingan Label Encoding dan One-Hot Encoding Pada Metode Linear Regresi. Technologia : Jurnal Ilmiah, 15(1), p.93. https://doi.org/10.31602/tji.v15i1.13457.
IRYANI, L., 2023. Penerapan Machine Learning Dalam Klasifikasi Kinerja Pegawai Pt X. Jurnal Informanika, 09(01), pp.1–6.
KARO, I.M.K., AMALIA, S.N. AND SEPTIANA, D., 2022. Wildfires Classification Using Feature Selection with K-NN, Naïve Bayes, and ID3 Algorithms. Information and Communication Technology (SEICT), 3(1), pp.15–24.
KUMALASARI, J.T. AND MERDEKAWATI, A., 2023. Analisis Sentimen Terhadap Program Kampus Merdeka Pada Twitter Menggunakan Metode Naïve Bayes, Union dan Synthetic Minority Over Sampling Technique (SMOTE). SATIN - Sains dan Teknologi Informasi, 9(1), pp.01–12. https://doi.org/10.33372/stn.v9i1.894.
KURNIADI, D., NURAENI, F. AND FIRMANSYAH, M., 2022. Klasifikasi Masyarakat Penerima Bantuan Langsung Tunai Dana Desa Menggunakan Naïve Bayes Dan SMOTE. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), x(36), pp.1–11. https://doi.org/10.25126/jtiik.2023106453.
LAGA, S.A., 2023. Perbandingan Metode K-NN dan SVM Berdasarkan Kinerja Pegawai. Jurnal Sistem Komputer dan Informatika (JSON), 4, pp.420–425. https://doi.org/10.30865/json.v4i3.5816.
MOBIUS, 2020. HR Analytics: Employee Promotion Data. Kaggle.
MUTMAINAH, S., 2021. Penanganan Imbalance Data Pada Klasifikasi Kemungkinan Penyakit Stroke. SNATi, 1, pp.10–16.
NIKMATUN, I.A. AND WASPADA, I., 2019. Implementasi Data Mining untuk Klasifikasi Masa Studi Mahasiswa Menggunakan Algoritma K-Nearest Neighbor. Jurnal SIMETRIS, 10(2), pp.421–432.
NUGRAHA, N.P., AZIM, R., DAFFA, S.Z. AND NINGAYU, P.S., 2023. Perbandingan Akurasi Metode Naïve Bayes dan Metode KNN untuk Memprediksi Gagal Ginjal Kronis. Jurnal Rekayasa Elektro Sriwijaya, 5(1), pp.1–10. https://doi.org/10.36706/jres.v5i1.63.
NURHOPIPAH, A. AND MAGNOLIA, C., 2023. Perbandingan Metode Resampling Pada Imbalanced Dataset Untuk Klasifikasi Komentar Program Mbkm. Jurnal Publikasi Ilmu Komputer dan Multimedia, 2(1), pp.9–22. https://doi.org/10.55606/jupikom.v2i1.862.
NURSYAHFITRI, R., ROZIKIN, C. AND ADAM, R.I., 2022. Penerapan Metode SMOTE dalam Klasifikasi Daerah Rawan Banjir di Karawang Menggunakan Algoritma Naive Bayes. Jurnal Sistem dan Teknologi Informasi (JustIN), 10(4), p.339. https://doi.org/10.26418/justin.v10i4.46935.
PERMANA, I. AND SALISAH, F.N.S., 2022. Pengaruh Normalisasi Data Terhadap Performa Hasil Klasifikasi Algoritma Backpropagation. Indonesian Journal of Informatic Research and Software Engineering (IJIRSE), 2(1), pp.67–72. https://doi.org/10.57152/ijirse.v2i1.311.
PRAYOGA, S.A., NAWANGSIH, I. AND WIYATNO, T.N., 2019. Implementasi Metode Naïve Bayes Classifier Untuk Identifikasi Jenis Jamur. Pelita Teknologi: Jurnal Ilmiah Informatika, Arsitektur dan Lingkungan, 14(2), pp.134–144.
RASHED-AL-MAHFUZ, M., HAQUE, A., AZAD, A., ALYAMI, S.A., QUINN, J.M.W. AND MONI, M.A., 2021. Clinically Applicable Machine Learning Approaches to Identify Attributes of Chronic Kidney Disease (CKD) for Use in Low-Cost Diagnostic Screening. IEEE Journal of Translational Engineering in Health and Medicine, 9(December 2020), pp.1–11. https://doi.org/10.1109/JTEHM.2021.3073629.
REGINA, S., SUTINAH, E. AND AGUSTINA, N., 2021. Clustering Kualitas Kinerja Karyawan Pada Perusahaan Bahan Kimia Menggunakan Algoritma K-Means. Jurnal Media Informatika Budidarma, 5(2), p.573. https://doi.org/10.30865/mib.v5i2.2909.
SIAHAAN, M., 2021. An Analysis of Contract Employee Performance Assessment Using Machine Learning. JITE (Journal of Informatics and Telecommunication Engineering), 5(1).
SIHOMBING, P.R., SURYADININGRAT, SUNARJO, D.A. AND YUDA, Y.P.A.C., 2023. Identifikasi Data Outlier (Pencilan) dan Kenormalan Data Pada Data Univariat serta Alternatif Penyelesaiannya. Jurnal Ekonomi Dan Statistik Indonesia, 2(3), pp.307–316. https://doi.org/10.11594/jesi.02.03.07.
SIRINGORINGO, R., 2018. Klasifikasi Data Tidak Seimbang Menggunakan Algoritma Smote Dan K-Nearest Neighbor. Journal Information System Development (ISD), 3(1), pp.44–49.
SOTARJUA, L.M. AND SANTOSO, D.B., 2022. Perbandingan Algoritma Knn, Decision Tree, Dan Random Forest Pada Data Imbalanced Class Untuk Klasifikasi Promosi Karyawan. Jurnal INSTEK (Informatika Sains dan Teknologi), 7(2), pp.192–200. https://doi.org/10.24252/instek.v7i2.31385.
SUMANTRI, G., NOVIANTO, M.D. AND PRIHASTUTI, P.P., 2023. Implementasi Fuzzy C-Means dalam Pengelompokan Provinsi di Indonesia untuk Pemerataan Kualitas Pendidikan. Prosiding Seminar Pendidikan Matematika dan Matematika, 8(2721). https://doi.org/10.21831/pspmm.v8i2.310.
SUSANA, H., SUARNA, N., FATHURROHMAN AND KASLANI, 2022. Penerapan Model Klasifikasi Metode Naive Bayes Terhadap Penggunaan Akses Internet. Jurnal Riset Sistem Informasi dan Teknologi Informasi (JURSISTEKNI), 4(1), pp.1–8. https://doi.org/10.52005/jursistekni.v4i1.96.
VIRANTIKA, E., KUSNAWI, K. AND IPMAWATI, J., 2022. Evaluasi Hasil Pengujian Tingkat Clusterisasi Penerapan Metode K-Means Dalam Menentukan Tingkat Penyebaran Covid-19 di Indonesia. Jurnal Media Informatika Budidarma, 6(3), p.1657. https://doi.org/10.30865/mib.v6i3.4325.
WARING, J., LINDVALL, C. AND UMETON, R., 2020. Automated machine learning: Review of the state-of-the-art and opportunities for healthcare. Artificial Intelligence in Medicine, 104(January), p.101822. https://doi.org/10.1016/j.artmed.2020.101822.
WIRAYASA, I.K.A. AND SANTOSO, H., 2022. Analisis Employee Satisfaction Menggunakan Teknik Clustering Dan Classification Machine Learning. Progresif: Jurnal Ilmiah Komputer, 18(1), p.1. https://doi.org/10.35889/progresif.v18i1.766.
YULIAN PAMUJI, F., AHMAD ROFIQUL MUSLIKH, RIZZA MUHAMMAD ARIEF AND DELVIANA MUTI, 2024. Komparasi Metode Mean dan KNN Imputation dalam Mengatasi Missing Value pada Dataset Kecil. Jurnal Informatika Polinema, 10(2), pp.257–264. https://doi.org/10.33795/jip.v10i2.5031.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2024 Jurnal Teknologi Informasi dan Ilmu Komputer

Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.

Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).