Perbandingan Kinerja Metode Naive Bayes dan K-Nearest Neighbor untuk Klasifikasi Artikel Berbahasa indonesia

Penulis

Riri Nada Devita, Heru Wahyu Herwanto, Aji Prasetya Wibawa

Abstrak

Kecocokan isi artikel dengan sebuah tema jurnal menjadi faktor utama diterima tidaknya sebuah artikel. Tetapi masih banyak mahasiswa yang bingung untuk menentukan jurnal yang sesuai dengan artikel yang dimilikinya. Untuk itu diperlukannya sebuah metode klasifikasi dokumen yang dapat mengelompokkan artikel secara otomatis dan akurat. Terdapat banyak metode klasifikasi yang dapat digunakan. Metode yang digunakan dalam penelitian ini adalah Naive Bayes dan sebagai baseline digunakan metode K-Nearest Neighbor. Metode Naive Bayes dipilih karena dapat menghasilkan akurasi yang maksimal dengan data latih yang sedikit. Sedangkan metode K-Nearest Neighbor dipilih karena metode tersebut tangguh terhadap data noise. Kinerja dari kedua metode tersebut akan dibandingkan, sehingga dapat diketahui metode mana yang lebih baik dalam melakukan klasifikasi dokumen. Hasil yang didapatkan menunjukkan metode Naive Bayes memiliki kinerja yang lebih baik dengan tingkat akurasi 70%, sedangkan metode K-Nearest Neighbor memiliki tingkat akurasi yang cukup rendah yaitu 40%.

 

Abstract

One way to be accepted in a journal conference and get the publication is to create an article with perfect suitability content of the journal. Matching the content of the article with a journal theme is the main factor for acceptability an article. But there are still many students who are confused to choose the journal in accordance with the articles it has. So we need a method to classification article documents category automatically and accurately group articles. There are many classification methods that can be used. The method used in this study is Naive Bayes and as a baseline the K-Nearest Neighbor method. Naive Bayes method is chosen because it can produce maximum accuracy with little training data. While K-Nearest Neighbor method was chosen because the method is robust to data noise. The performance of the two methods will be compared, so we can be known which method is better in classifying the document. The results show that the Naive Bayes method performs is more accurate with 70% accuracy and K-Nearest Neighbors method has a fairly low accuracy of 40% on classification test.

Kata Kunci


Klasifikasi dokumen; Naive Bayes; K-Nearest Neighbor

Teks Lengkap:

PDF

Referensi


BAHRI, R.S. & MALIKI, I., 2012. Perbandingan Algoritma Template Matching dan Feature Extraction pada Optical Character Recognition. Jurnal Komputer dan Informatika (Komputa), 1(1), Pp.187–198. Available At: Http://Repo.Pens.Ac.Id/1324/1/Paper_Ta_Mbah.Pdf.

FAUZI, M. A., ARIFIN, A.Z., YUNIARTI, A., 2015. Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab. Lontar Komputer, 5(2), Pp.110–117.

LI, M., WANG, M. & WANG, C., 2010. Research On Svm Classification Performance In Rolling Bearing Diagnosis. In 2010 International Conference On Intelligent Computation Technology And Automation, ICICTA 2010. Pp. 132–135.

LIDWINA, S., 2013. Penulisan Paragraf dalam Karya Ilmiah Mahasiswa. Jurnal STIE Semarang, 5(1), Pp.38–47.

LIDYA, S.K., SITOMPUL, O.S. & EFENDI, S., 2015. Sentiment Analysis pada Teks Bahasa Indonesia menggunakan Support Vector Machine ( SVM ) dan K-Nearest Neighbor (K-NN). Seminar Nasional Teknologi dan Komunikasi (SENTIKA), Pp.1–8.

NAFALSKI, A., & WIBAWA, A. P. 2016. Machine Translation With Javanese Speech Levels’ Classification. Informatics, Control, Measurement in Economy and Environment Protection, 6(1), 21–25. https://doi.org/ 10.5604/20830157. 1194260

NURGIYANTORO, B., 2004. Penilaian Pembelajaran Sastra Berbasis Kompetensi. DIKSI, 11(1), Pp.91–116.

PALANIAPPAN, S. & AWANG, R., 2008. Intelligent Heart Disease Prediction System Using Data Mining Techniques. In 2008 IEEE/ACS International Conference On Computer Systems And Applications. Pp. 108–115. Available At: Http://Ieeexplore.Ieee.Org/Lpdocs/Epic03/Wrapper.Htm?Arnumber=4493524.

PRABOWO, D. A., FHADLI, M., NAJIB, M. A., & FAUZI, H.A., 2016. Tf-Idf- Enhanced Genetic Algorithm Untuk Extractive Automatic Text Summarization. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), 3(3), pp.208–215.

PUJIANTO, U. 2013. Using Cosine Similarity For Determining The Inversed Document Frequency Value of Newly Added Documents. In Seminar On Electrical, Informatics, and its Education 2013, pp. 141–144.

PURWANINGSIH, E., 2016. Seleksi Mobil Berdasarkan Fitur dengan Komparasi Metode Klasifikasi Neural Network, Support Vector Machine, dan Algoritma C4.5. Jurnal Pilar Nusa Mandiri, XII(2), Pp.153–160.

RIDOK, A. & INDRIATI, 2015. Pengklasifikasian Dokumen Berbahasa Indonesia dengan Pengindeksan Berbasis LSI. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), 2(2), Pp.87–95.

RIDWAN, M., SUYONO, H. & SAROSA, M., 2013. Penerapan Data Mining untuk Evaluasi Kinerja Akademik Mahasiswa menggunakan Algoritma Naive Bayes Classifier. EECCIS, 7(1), Pp.59–64.

RIVKI, M. & BACHTIAR, A.M., 2017. Implementasi Algoritma K-Nearest Neighbor dalam Pengklasifikasian Follower Twitter yang Menggunakan Bahasa Indonesia. Jurnal Sistem Informasi, 13(1), Pp.31–37.

ROBERTSON, S., 2004. Understanding Inverse Document Frequency: On Theoretical Arguments For Idf. Journal Of Documentation, 60(5), Pp.503–520. Available At: Http://Www.Emeraldinsight.Com/Doi/10.1108/00220410410560582.

SALEH, A., 2015. Implementasi Metode Klasifikasi Naïve Bayes Dalam Memprediksi Besarnya Penggunaan Listrik Rumah Tangga. Creative Information Technology Journal. 2. 207-217.

SCHNEIDER, K.M., 2005. Techniques For Improving The Performance Of Naive Bayes for Text Classification. in Computational Linguistics and Intelligent Text Processing. Pp. 682–693.

SPÄRCK JONES, K., 2004. A Statistical Interpretation of Term Specificity and Its Retrieval. Journal Of Documentation, 60(5), Pp.11–21. Available At: Http://Www.Emeraldinsight.Com/Doi/Abs/10.1108/Eb026526.

WEKA 3 – Data Mining with Open Source Machine Learning Software In Java.“ [Online]. Available: Http://Www.Cs.Waikato.Ac.Nz/Ml/Weka/.

WHIDHASIH, R.N., WAHANANI, N.A. & SUPRIYANTO, 2013. Klasifikasi Buah Belimbing berdasarkan Citra Red-Green-Blue Menggunakan KNN dan LDA. Jurnal Penelitian Ilmu Komputer, System Embedded & Logic, 1(1), Pp.29–35.




DOI: http://dx.doi.org/10.25126/jtiik.201854773