Implementasi Metode K-Nearest Neighbour Dengan Pembobotan TF.IDF.ICF Untuk Kategorisasi Ide Kreatif Pada Perusahaan

Penulis

Rekyan Regasari Mardi Putri, Romario Yudo Herlambang, Randy Cahya Wihandika

Abstrak

Abstrak

Ide kreatif/inovasi merupakan hal yang dibutuhkan perusahaan dalam pengembangan sebuah individu, kelompok ataupun perusahaan pada teknologi seperti pada masa ini. Pengembangan ide kreatif berpengaruh pada peningkatan kinerja perusahaan. Pada kebanyakan kasus, pengelompokan ide tersebut harus dikelompokkan dengan kecocokan tema yang diusung untuk mempermudah proses pencarian. Oleh sebab itu dibutuhkan suatu sistem yang mampu bekerja secara otomatis untuk mengelompokkan ide tersebut. Kemunginan salah satu teknik pembobotan yang digunakan adalah dengan meggunakan TF.IDF.ICF, yang telah mengalami pengembangan dari metode sebelumnya. TF.IDF.ICF tidak dapat digunakan sendiri melainkan harus ada metode perhitungan jarak seperti Cosine Similarity dan metode klasifikasi lain seperti KNN dapat dipakai ke semua atribut. Aplikasi ini nantinya akan diterapkan pada perusahaan PJB Paiton sebagai studi kasus dan ide kreatif yang dikategorikan, dituliskan dalam Bahasa Indonesia. Aplikasi ini akan melakukan beberapa tahap pemrosesan seperti tokenizing yaitu pemisahan kalimat menjadi tiap kata, filtering yang merupakan penghapusan stopwords, stemming, cosine similarity dan  KNN yang masing-masing metode digunakan untuk perhitungan jarak dan proses perhitungan klasifikasi Dari hasil pengujian yang telah dilakukan, sistem mampu menghasilkan akurasi terbaik sebesar 93% menggunakan dengan nilai k sebesar 1 menggunakan presentase data uji sebanyak 50 akan menghasilkan klasifikasi ideal.

Kata kunci: ide, kelas, cosine, knn.


Abstract

Creative ide is one thing that needed by the company for group development or even the company itself. The development of creative ideas has a big influence on improving corporate performance. On most cases, the clasification of the idea must be grouped based on the similarity of the theme that submitted to simplify the searching process. Therefore we need a system that could work automatically to classify the idea. Probably, one weighting techniques that used is TF.IDF.ICF that already been developed from the method before. TF.IDF.ICF cant be used alone. there must be another method that used before, such as cosine similarity for distance calculation method and KNN for classification method in order TF.IDF.ICF can be used by all atributes. This application will be focused on the PJB company's creative idea and these ideas will be in indonesian language. This application will do a few processing steps such as, tokenizing for breaking sentence into words, filtering which is elimination of stopwords, stemming, cosine similarity, and KNN. each method used for distance calculation and classification calculation process. From the testing result that has been done,the system could produce the best accuracy as big as 93% by using the value of K as big as 1 using the precentage of test data as big 50 produce the ideal classification.

Keywords: idea, class, cosine, knn

Teks Lengkap:

PDF (English)

Referensi


ARIFIN. A. Z. & NOVAN. S. A. 2001. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering. ITS, Surabaya

CIOS, K. J., PEDRYCZ, W., SWINIARSKI, R.W. & KURGAN, L.. 2007. Data Mining A Knowledge Discovery Approach. Springer.

MANNING, C., RAGHAVAN, P. & SCHÜTZE, H. 2009. An Introduction to Information Retrieval. Cambridge University Press.

MUSTAFA, A., AKBAR, A. & SULTAN, A. 2009. Knowledge Discovery using Text Mining: A Programmable Implementation on Information Extraction and Categorization. International Journal of Multimedia and Ubiquitous Engineering Vol. 4, No. 2, April, 2009.

SRIRAM. B., FUHRY, D., DEMIR, E., FERHATOSMANOGLU, H. & DEMIRBAS, M. 2010. Short Text Classification in Twitter to Improve Information Filtering. International ACM SIGIR Conference on Research and Development in Information Retrieval.




DOI: http://dx.doi.org/10.25126/jtiik.201742296