Pengaruh Prediksi Missing Value pada Klasifikasi Decision Tree C4.5

Penulis

Aji Seto Arifianto, Kursita Dewi Safitri, Khafidurrohman Agustianto, I Gede Wiryawan

Abstrak

Pendekatan klasifikasi data bersifat supervised learning menuntut adanya dataset yang lengkap. Permasalahan yang muncul adanya missing value yaitu hilangnya nilai suatu atribut yang diakibatkan kesalahan dalam pengumpulan data, kesalahan saat memasukkan data, dan ketidakmampuan responden untuk memberikan jawaban yang akurat. Penelitian ini melakukan uji coba pengembangan rule decision tree C4.5 untuk data penyakit ginjal kronis. Dataset terdiri dari 400 record, 24 atribut dan 1 kelas target. Karakteristik data yang digunakan meliputi 11 data bertipe numerik dan 14 data bertipe nominal. Jumlah data kelas positif penyakit ginjal kronis 250, sedangkan negatif ginjal kronis 150. Total data yang tidak lengkap (missing value) 1012 records. Perlakuan pertama dibangun rule dengan menghitung entropy dan gain pada 360 data training yang terdapat missing value diperoleh 21 rules. Kemudian pada perlakuan kedua diterapkan prediksi missing value menggunakan rumus mean dan modus sebelum pembetukan rule tree, didapatkan 24 rules. Mengukur akurasi kedua rules tree C4.5 dilakukan menguji 40 data test, hasilnya 90% untuk rule dengan missing value dan 95% untuk dataset yang telah diprediksi nilainya.

 

Abstract

The supervised learning approach to data classification requires a complete dataset. The problem that arises was the existence of missing value, namely the loss of the value of an attribute due to errors in data collection, errors when entering data, and the inability of respondents to provide accurate answers. This study conducted a trial on the development of the C4.5 rule decision tree for chronic kidney disease data. The dataset consisted of 400 records, 24 attributes and 1 target class. The data characteristics included 11 numeric data and 14 nominal data types. The number of positive data for kidney disease was 250, while the number of negative for kidney disease was 150 and the total of missing value was 1012 records. The first treatment was building a rule by calculating the entropy and gain on 360 training data where missing value was obtained, it was 21 rules. Then in the second treatment, the prediction of missing value was applied using the mean and mode formula before the formation of the rule tree, obtained 24 rules. Researcher was measuring the accuracy of the two rules tree C4.5 is done by using 40 data-testing, the result is 90% for rules with missing value and 95% for datasets whose value has been predicted.


Teks Lengkap:

PDF

Referensi


APRILIAWAN, Y. E. 2015. ‘Teknik Imputasi Missing Values pada Data Mining’, pp. 1–5.

ARIFIN, T. AND ARIESTA, D. 2019. ‘Prediksi Penyakit Ginjal Kronis Menggunakan Algoritma Naive Bayes Classifier Berbasis Particle Swarm Optimization’, Jurnal Tekno Insentif, 13(1), pp. 26–30. doi: 10.36787/jti.v13i1.97.

DELIMA, D. et al. 2017. ‘Faktor Risiko Penyakit Ginjal Kronik : Studi Kasus Kontrol di Empat Rumah Sakit di Jakarta Tahun 2014’, Buletin Penelitian Kesehatan, 45(1), pp. 17–26. doi: 10.22435/bpk.v45i1.5771.17-26.

HARTINI, E. 2017. ‘Implementation of Missing Values Handling Method for Evaluating the System/Component Maintenance Historical Data’, Jurnal Teknologi Reaktor Nuklir Tri Dasa Mega, 19(1), p. 11. doi: 10.17146/tdm.2017.19.1.3159.

HIDAYATI, T. AND KUSHADIWIJAYA, H. 2008. ‘Hubungan Antara Hipertensi, Merokok Dan Minuman Suplemen Energi Dan Kejadian Penyakit Ginjal Kronik’, Berita Kedokteran Masyarakat, 24(2), pp. 90–102.

MOCH. LUTFI AND MOCHAMAD HASYIM 2019. ‘Penanganan Data Missing Value Pada Kualitas Produksi Jagung Dengan Menggunakan Metode K-Nn Imputation Pada Algoritma C4.5’, Jurnal RESISTOR (Rekayasa Sistem Komputer), 2(2), pp. 89–104. doi: 10.31598/jurnalresistor.v2i2.427.

MUKARROMAH, M., MARTHA, S. AND ILHAMSYAH, I. 2015. ‘Perbandingan Imputasi Missing Data Menggunakan Metode Mean Dan Metode Algoritma K-Means’, Bimaster, 4(3), pp. 305–312.

NUGRAHA, P. G. S. C. et al. 2016. ‘Penerapan Metode Decision Tree(Data Mining) Untuk Memprediksi Tingkat Kelulusan Siswa Smpn1 Kintamani’, Seminar Nasional Vokasi dan Teknologi (SEMNASVOKTEK), pp. 35–44.

RIZALDI, T., PURNOMO, F. E. AND ARIFIANTO, A. S. 2019. ‘Perbandingan Metode K-Nn Dan Bayes Pada Missing Imputation’, Jurnal Teknologi Informasi dan Terapan, 5(2), pp. 85–90. doi: 10.25047/jtit.v5i2.84.

SARI, S. K. AND MAHMUDY, W. F. 2019. ‘Penerapan Metode Decision Tree dan Algoritme Genetika Untuk Klasifikasi Risiko Hipertensi’, 3(3), pp. 2867–2873.

SOMMERVILLE, I. 2007. Software Engineering Eighth Edition.

TJEKYAN, S. 2014. ‘Prevalensi dan Faktor Risiko Penyakit Ginjal Kronik di RSUP Dr. Mohammad Hoesin Palembang Tahun 2012’, 46(4), pp. 275–282.

WULANDARI, R. T. 2010. ‘Pengertian Data Mining’, Data Mining, 7(3), pp. 3–9.




DOI: http://dx.doi.org/10.25126/jtiik.2022944778