Pembentukan Daftar Stopword Menggunakan Term Based Random Sampling Pada Analisis Sentimen Dengan Metode Naïve Bayes (Studi Kasus: Kuliah Daring Di Masa Pandemi)

Penulis

Raditya Rinandyaswara, Yuita Arum Sari, Muhammad Tanzil Furqon

Abstrak

Stopword Removal merupakan bagian dari tahapan preprocessing teks yang bertujuan untuk menghapus kata yang tidak relevan didalam suatu kalimat berdasarkan daftar stopword. Daftar stopword yang biasa digunakan berbentuk digital library yang daftarnya sudah tersedia sebelumnya, namun tidak semua kata-kata yang terdapat didalam digital library merupakan kata yang tidak relevan dalam suatu data tertentu. Penelitian ini menggunakan daftar stopword yang dibentuk dengan algoritme Term Based Random Sampling. Dalam Term Based Random Sampling terdapat 3 parameter yaitu Y untuk jumlah perulangan pengambilan kata random, X untuk jumlah pengambilan bobot terendah dalam perulangan Y, dan L sebagai persentase jumlah stopword yang ingin digunakan. Sehingga penelitian ini ditujukan untuk mencari kombinasi terbaik dari 3 parameter tersebut serta membandingkan stopword Term Based Random Sampling dengan stopword Tala dan tanpa proses stopword removal dalam analisis sentimen tweet mengenai kuliah daring dengan menggunakan metode Naïve Bayes. Hasil evaluasi dengan stopword Term Based Random Sampling mendapatkan akurasi tertinggi dengan X, Y, L sebesar 10, 10, 40 dengan macroaverage accuracy sebesar 0,758, macroaverage precision sebesar 0,658, macroaverage recall sebesar 0,636, dan macroaverage f-measure sebesar 0,647. Berdasarkan hasil pengujian disimpulkan bahwa semakin besar X, Y, L maka semakin tinggi kemungkinannya untuk hasil evaluasi turun. Hasil pengujian membuktikan bahwa Term Based Random Sampling berhasil mendapatkan akurasi lebih tinggi dibandingkan dengan stopword Tala maupun tanpa menggunakan proses stopword removal.

 

Abstract

Stopword Removal is part of the text preprocessing stage which aims to remove irrelevant words in a sentence based on the stopword list. The stopword list that is commonly used is in the form of a digital library whose list is already available, but not all words contained in the digital library are irrelevant words in certain data. This study uses a stopword list formed by the Term Based Random Sampling algorithm. In Term Based Random Sampling, there are 3 parameters, namely Y for the number of random word retrieval repetitions, X for the lowest number of weights in Y repetitions, and L as the percentage of the number of stopwords you want to use. So this research is aimed at finding the best combination of these 3 parameters and comparing the Term Based Random Sampling stopword with the stopword tuning and without the stopword removal process in the analysis of tweet sentiment regarding online lectures using the Naïve Bayes method. The results of the evaluation with the Term Based Random Sampling stopword get the highest accuracy with X, Y, L of 10, 10, 40 with a macroaverage accuracy of 0.758, a macroaverage precision of 0.658, a macroaverage recall of 0.636, and a macroaverage f-measure of 0.647. Based on the test results, it is concluded that the greater the X, Y, L, the higher the probability that the evaluation results will decrease. The test results prove that Term Based Random Sampling is successful in obtaining higher accuracy than stopword tuning or without using the stopword removal process.

Teks Lengkap:

PDF

Referensi


ARNANI, M., 2020. Kasus pertama virus corona di China dilacak hingga 17 November 2019. KOMPAS. [online] Tersedia di: [Diakses 1 September 2020]

DILA PURNAMA SARI, D. E., SARI, Y. A. & FURQON, M. T., 2020. Pembentukan Daftar Stopword menggunakan Zipf Law dan Pembobotan Augmented TF - Probability IDF pada Klasifikasi Dokumen Ulasan Produk. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, pp. 406-412.

JONES, S., 2004. A Statistical Interpretation of Term Specificity and Its Retrieval. Journal Of Documentation, 60(5), pp. 11-21.

KALRA, V. & AGGARWAL, R., 2017. Importance of Text Data Preprocessing & Implementation in RapidMiner. In: Preceedings of the First International Conference on Information Technology and Knowledge Management. New Delhi, pp. 71-75.

LO, R. T.-W., HE, B. & OUNIS, I., 2005. Automatically Building a Stopword List for an Information Retrieval System, Glasgow, UK: Department of Computing Science.

PRABOWO, D. A., FHADLI, M., NAJIB, M. A. & FAUZI, H. A., 2016. TF-IDF-Enhanced Genetic Algorithm Untuk Extractive Automatic Text Summarization. Jurnal Teknologi Informasi dan Ilmu Komputer, 3(3), pp. 208-215.

RAHMAN, A., WIRANTO & DOEWES, A., 2017. Online News Classification Using Multinomial Naive Bayes. ITSMART: Jurnal Ilmiah Teknologi dan Informasi, 6(1).

RAHUTOMO, F. & RIRID, A. R. T. H., 2018. EVALUASI DAFTAR STOPWORD BAHASA INDONESIA. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), pp. 41-48.

ROSDIANA., TUNGADI, E., SAHARUNA, Z., NUR, M. Y. U., 2019. Analisis Sentimen pada Twitter terhadap Pelayanan Pemerintah Kota Makassar. Conference Seminar Nasional Teknik Elektro dan Informatika 2019 Makassar, Indonesia.

RYANSYAH, A. & ANDAYANI, S., 2017. Implementasi Algoritma TF-IDF pada Pengukuran Kesamaan Dokumen JuSiTik Jurnal Sistem dan Teknologi Informasi Komunikasi, pp. 1-10.

SA’RONY, A., ADIKARA, P. P. & WIHANDIKA, R. C., 2019. Analisis Sentimen Kebijakan Pemindahan Ibukota Republik Indonesia dengan Menggunakan Algoritme Term-Based Random Samplingdan Metode Klasifikasi Naïve Bayes. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 10086-10094.

SARI, F. V. & WIBOWO, A., 2019. ANALISIS SENTIMEN PELANGGAN TOKO ONLINE JD.ID MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER BERBASIS KONVERSI IKON EMOSI. Simetris: Jurnal Teknik Mesin, Elektro dan Ilmu Komputer, pp. 681-686.

VIKY, A. S. & ZULIARSO, E., 2018. Analisis Sentimen Twitter menggunakan Text Mining dengan Algoritme Naïve Bayes Classifier. Jurnal Dinamika Informatika 10(2), pp 69-73.

WULAN, S. U. V., AFIF, A. S. & ABDURRACHMAN, F. B., 2019. Analisis Sentimen Evaluasi Kinerja Dosen menggunakan Term Frequency-Inverse Document Frequency dan Naïve Bayes Classifier. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (JPTIIK), 3(6), pp. 6080-6088.

ZULI, A. A., SOFYAN, A. A. & ADRIAN, M. J. H., 2020. Analisis Sentimen Movie Review Menggunakan Naïve Bayes Classifier dengan Seleksi Fitur Chi Square. Jurnal BITe, 2(1), pp. 40-44.




DOI: http://dx.doi.org/10.25126/jtiik.2022934707