Optimasi Algoritma Naive Bayes dengan Diskritisasi K-Means pada Diagnosis Penyakit Jantung
DOI:
https://doi.org/10.25126/jtiik.2023106510Abstrak
Penyakit jantung iskemik adalah salah satu jenis penyakit kardiovaskular dengan jumlah penderita yang besar dan menjadi penyebab utama kematian di dunia. Disamping itu, penyakit jantung juga menyebabkan kerugian ekonomi. Diagnosis penyakit jantung pada tahap awal dapat membantu mengurangi risiko kematian dan tingginya biaya perawatan akibat penyakit jantung. Diagnosis penyakit merupakan proses penting yang harus dilakukan secara akurat agar tidak terjadi kesalahan diagnosis. Data mining dapat diterapkan untuk meningkatkan akurasi dan mengurangi jumlah kesalahan diagnosis. Salah satu teknik data mining adalah klasifikasi. Naïve Bayes merupakan algoritma klasifikasi yang memiliki kemampuan yang cukup baik untuk membangun model pengklasifikasi. Pada penelitian ini, dilakukan klasifikasi penyakit jantung menggunakan algoritma Naïve Bayes. Dataset yang digunakan yaitu Cleveland heart disease dataset dari UCI Machine Learning Repository. Untuk meningkatkan akurasi klasifikasi menggunakan algoritma Naive Bayes, atribut kontinu pada dataset diubah menjadi atribut diskrit dengan diskritisasi K-means. Diskritisasi K-means mengubah nilai setiap atribut kontinu menjadi kategori-kategori diskrit berupa cluster sejumlah k yang terbentuk dari proses algoritma K-means. Hal tersebut dilakukan karena algoritma Naïve Bayes menunjukkan kemampuan klasifikasi yang lebih baik apabila menggunakan data masukan berupa diskrit dibanding kontinu. Hasil akurasi yang diperoleh dari algoritma Naïve Bayes tanpa menerapkan diskritisasi K-means pada Cleveland heart disease dataset adalah 86,89%, sedangkan hasil akurasi yang diperoleh dari algoritma Naïve Bayes dengan menerapkan diskritisasi K-means pada Cleveland heart disease dataset adalah 88,52%. Berdasarkan perbandingan akurasi yang dihasilkan, dapat diketahui adanya peningkatan akurasi sebesar 1,63%. Hal tersebut menunjukkan bahwa diskritisasi K-means berperan dalam mengoptimalkan kinerja algoritma Naïve Bayes sehingga menghasilkan akurasi yang lebih baik.
Abstract
Ischemic heart disease is a type of cardiovascular disease with a large number of sufferers and is the leading cause of death in the world. In addition, heart disease also causes economic losses. Diagnosing heart disease early can help reduce the risk of death and the high costs of treatment for heart disease. Diagnosis of the disease is an important process that must be carried out accurately to avoid misdiagnosis. Data mining can be applied to improve accuracy and reduce the number of misdiagnoses. One of the data mining techniques is classification. Naïve Bayes is a classification algorithm that has a fairly good ability to build a classifier model. In this study, heart disease was classified using the Naïve Bayes algorithm. The dataset used is the Cleveland heart disease dataset from the UCI Machine Learning Repository. To improve classification accuracy using the Naive Bayes algorithm, continuous attributes in the dataset are changed to discrete attributes using K-means discretization. K-means discretization changes the value of each continuous attribute into discrete categories in the form of k clusters formed from the K-means algorithm process. This is done because the Naïve Bayes algorithm shows a better classification ability when it uses discrete rather than continuous input data. The accuracy results obtained from the Naïve Bayes algorithm without applying the K-means discretization to the Cleveland heart disease dataset are 86.89%, while the accuracy results obtained from the Nave Bayes algorithm by applying the K-means discretization to the Cleveland heart disease dataset are 88.52%. . Based on the comparison of the resulting accuracy, it can be seen that there is an increase in accuracy of 1.63%. This shows that K-means discretization plays a role in optimizing the performance of the Naïve Bayes algorithm to produce better accuracy.
Downloads
Referensi
ABDAR, M., KSIĄŻEK, W., ACHARYA, U.R., TAN, R.-S., MAKARENKOV, V. dan PŁAWIAK, P., 2019. A new machine learning technique for an accurate diagnosis of coronary artery disease. Computer Methods dan Programs in Biomedicine, 179. https://doi.org/10.1016/j.cmpb.2019.104992.
AMIN, M.S., CHIAM, Y.K. dan VARATHAN, K.D., 2019. Identification of significant features dan data mining techniques in predicting heart disease. Telematics dan Informatics, 36(Agustus 2018), pp.82–93. https://doi.org/10.1016/j.tele.2018.11.007.
HAN, J., KAMBER, M. dan PEI, J., 2012. Data Mining: Concepts dan Techniques. 3rd ed. Waltham: Elsevier. https://doi.org/10.1016/C2009-0-61819-5.
JANOSI, A., STEINBRUNN, W., PFISTERER, M. dan DETRANO, R., 1988. UCI Machine Learning Repository: Heart Disease Data Set. Uci, Tersedia melalui: [Diakses 25 Mei 2022].
JIANG, L., ZHANG, L., YU, L. dan WANG, D., 2019. Class-specific attribute weighted naive Bayes. Pattern Recognition, 88, pp.321–330. https://doi.org/10.1016/j.patcog.2018.11.032.
KEMENKES RI, 2021. Peringatan Hari Jantung Sedunia 2021: Jaga Jantungmu untuk Hidup Lebih Sehat. [online] Kementerian Kesehatan Republik Indonesia. Tersedia melalui: [Diakses 19 Maret 2022].
KEMENTERIAN KESEHATAN RI, 2021. Profil Kesehatan Indonesia 2020. [online] Jakarta: Kementerian Kesehatan Republik Indonesia. Tersedia melalui: .
LIN, W.-C. dan TSAI, C.-F., 2020. Missing value imputation: a review dan analysis of the literature (2006–2017). Artificial Intelligence Review, 53(2), pp.1487–1509. https://doi.org/10.1007/s10462-019-09709-4.
PUTRI, I.E., RAHMAWATI, D. AND AZHAR, Y., 2020. Comparison of Data Mining Classification Methods To Detect Heart Disease. Jurnal Pilar Nusa Mandiri, 16(2), pp.213–218. https://doi.org/10.33480/pilar.v16i2.1481.
REDDY, G.T., REDDY, M.P.K., LAKSHMANNA, K., RAJPUT, D.S., KALURI, R. dan SRIVASTAVA, G., 2020. Hybrid genetic algorithm dan a fuzzy logic classifier for heart disease diagnosis. Evolutionary Intelligence, 13(2), pp.185–196. https://doi.org/10.1007/s12065-019-00327-1.
RINO, R., 2021. The Comparison of Data Mining Methods Using C4.5 Algorithm dan Naive Bayes in Predicting Heart Disease. Tech-E, 4(2), pp.44–51. https://doi.org/10.31253/te.v4i2.543.
ROSENFELD, A., ILLUZ, R., GOTTESMAN, D. dan LAST, M., 2018. Using discretization for extending the set of predictive features. Eurasip Journal on Advances in Signal Processing, (1), pp.1–11. https://doi.org/10.1186/s13634-018-0528-x.
ROTH, G. A., MENSAH, G. A., JOHNSON, C. O., ADDOLORATO, G., AMMIRATI, E., BADDOUR, L. M., BARENGO, N. C., BEATON, A., BENJAMIN, E. J., BENZIGER, C. P., BONNY, A., BRAUER, M., BRODMANN, M., CAHILL, T. J., CARAPETIS, J. R., CATAPANO, A. L., CHUGH, S., COOPER, L. T., CORESH, J., … FUSTER, V., 2020. Global Burden of Cardiovascular Diseases dan Risk Factors, 1990-2019: Update From the GBD 2019 Study. Journal of the American College of Cardiology, 76(25), pp.2982–3021. https://doi.org/10.1016/j.jacc.2020.11.010.
RUSSELL, S.J. dan NORVIG, P., 2010. Artificial Intelligence A Modern Approach Third Edition. 3rd ed. New Jersey: Pearson.
SALEH, A. dan NASARI, F., 2018. Penggunaan Teknik Unsupervised Discretization pada Metode Naive Bayes dalam Menentukan Jurusan Siswa Madrasah Aliyah. Jurnal Teknologi Informasi dan Ilmu Komputer, 5(3), pp.353-¬360. https://doi.org/10.25126/jtiik.201853705.
SETYAWAN, D.A. dan FATHICAH, C., 2018. Pengembangan Metode Decision Tree dengan Diskritisasi Data dan Splitting Atribut Menggunakan Hierarchical Clustering dan Dispersion Ratio. JUTI: Jurnal Ilmiah Teknologi Informasi, 18(2), pp.179–187. https://doi.org/10.12962/j24068535.v18i2.a1005.
TANG, X., LI, J., LIU, M., LIU, W. dan HONG, H., 2020. Flood susceptibility assessment based on a novel random Naïve Bayes method: A comparison between different factor discretization methods. Catena, 190(February), p.104536. https://doi.org/10.1016/j.catena.2020.104536.
ZHANG, Z., FENG, Q., HUANG, J., GUO, Y., XU, J. dan Wang, J., 2021. A local search algorithm for k-means with outliers. Neurocomputing, 450, pp.230–241. https://doi.org/10.1016/j.neucom.2021.04.028.
ZHAO, W.L., DENG, C.H. dan NGO, C.W., 2018. k-means: A revisit. Neurocomputing, 291, pp.195–206. https://doi.org/10.1016/j.neucom.2018.02.072.
ZHOU, Y., KANG, J., KWONG, S., WANG, X. dan ZHANG, Q., 2021. An evolutionary multi-objective optimization framework of discretization-based feature selection for classification. Swarm dan Evolutionary Computation, 60(February 2020), p.100770. https://doi.org/10.1016/j.swevo.2020.100770.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi

Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).