Kombinasi K-Means dan Support Vector Machine (SVM) untuk Memprediksi Unsur Sara pada Tweet

Penulis

  • Wiga Maulana Baihaqi STMIK Amikom Purwokerto
  • Muliasari Pinilih STMIK Amikom Purwokerto
  • Miftakhul Rohmah STMIK Amikom Purwokerto

DOI:

https://doi.org/10.25126/jtiik.2020732126

Abstrak

Tulisan yang disampaikan melalui twitter dinamakan dengan tweets atau dalam bahasa indonesia lebih dikenal dengan kicau, tulisan yang dishare memiliki batas maksimum, tulisan tidak boleh lebih dari 140 karakter, karakter disini terdiri dari huruf, angka, dan simbol. Penyalahgunaan dalam berpendapat sering terjadi di media sosial, sering kali pengguna media sosial dengan sadar atau tidak sadar telah membuat konten yang mengandung isu Suku (dalam hal ini menyangkut keturunan), agama, ras (kebangsaan) dan antargolongan (SARA). Perlu adanya analisis yang dapat mengidentifikasi secara otomatis apakah kalimat yang ditulis pada media sosial mengandung unsur SARA atau tidak, akan tetapi korpus tentang kalimat yang mengandung unsur SARA belum ada, selain itu label kalimat yang menandakan kalimat SARA atau bukan tidak ada. Penelitian ini bertujuan untuk membuat corpus kalimat yang mengandung unsur SARA yang didapatkan dari twitter, kemudian melabeli kalimat dengan label mengandung unsur SARA dan tidak,  serta melakukan sentiment klasifikasi.  Algoritme yang digunakan untuk proses pelabelan adalah k-means, sedangkan Support Vector Machine (SVM) digunakan untuk proses klasifikasi. Hasil yang diperoleh berdasarkan k-means antara lain 118 tweet positif SARA dan 83 tweet negatif SARA. Dalam proses klasifikasi menggunakan dua metode validasi, yaitu 5-fold cross validation yang dibandingkan dengan 10-fold cross validation, hasil akurasi dari kedua metode validasi tersebut yaitu, masing-masing 64,18% dan 63,68%. Berdasarkan hasil akurasi yang diperoleh untuk meningkatkan hasil akurasi, data hasil proses k-means diolah kembali dengan validasi pakar bahasa, hasil yang diperoleh menjadi 139 tweet positif SARA dan 62 tweet negatif SARA, hasil akurasi meningkat menjadi 70,15% dan 71,14%. Dari hasil yang didapatkan, twitter dapat dijadikan sumber untuk membuat corpus mengenai kalimat SARA, dan metode yang diusulkan berhasil untuk proses pelabelan dan sentimen klasifikasi, akan tetapi masih perlu peningkatan hasil akurasi.

 

Abstract

Posts sent via twitter are called tweets or in Indonesian better known as chirping, the posts shared have a maximum limit, the writing cannot be more than 140 characters, the characters here consist of letters, numbers, and symbols. Broadcasting in discussions that often occur on social media, often users of social media consciously or unconsciously have created content that contains issues of ethnicity, religion, race (nationality) and intergroup (SARA). Obtained from the analysis that can automatically contain sentences on social media containing no SARA or not, but the corpus about sentences containing SARA does not yet exist, other than that the sentence label indicates SARA or no sentence. This study aims to make sentence corpus containing SARA elements obtained from twitter, then label sentences with labels containing elements of SARA and not, and conduct group sentiments. The algorithm used for the labeling process is k-means, while Support Vector Machine (SVM) is used for the classification process. The results obtained based on k-means include 118 positive SARA tweets and 83 negative SARA tweets. In the classification process using two validation methods, namely cross-fold validation of 5 times compared with 10-fold cross validation, the accuracy of the two validation methods is 64.18% and 63.68%, respectively. Based on the results obtained to improve the results, the k-means process data were reprocessed with linguists, the results obtained were 139 positive SARA tweets and 62 SARA negative tweets, the results of which increased to 70.15% and 71.14%. From the results obtained, Twitter can be used as a source to create a corpus about SARA sentences, and methods that have succeeded in labeling and classification sentiments, but still need to improve the results of accuracy.


Downloads

Download data is not yet available.

Referensi

DUWAIRI, R. dan ABU-RAHMEH, M., 2015. A novel approach for initializing the spherical K-means clustering algorithm. Simulation Modelling Practice and Theory, [online] 54, pp.49–63. Available at: <http://dx.doi.org/10.1016/j.simpat.2015.03.007>.

GAO, J., CHENG, Q. dan YU, P.L.H., 2019. Proceedings of the Future Technologies Conference (FTC) 2018. In: Proceedings of the Future Technologies Conference. [online] Springer, Cham, pp.385–400. Available at: <http://link.springer.com/10.1007/978-3-030-02683-7>.

GULNASHIN, F., SHARMA, I. dan SHARMA, H., 2019. Progress in Advanced Computing and Intelligent Engineering. Progress in Advanced Computing and Intelligent Engineering, [online] 714, pp.149–155. Available at: <http://link.springer.com/10.1007/978-981-13-0224-4>.

HOOTSUITE dan WE ARE SOCIAL, 2018. Essential Insights Into Internet, Social Media, Mobile, and E-Commerce Use Around The World. [online] Digital in 2018. Available at: <https://wearesocial.com/blog/2018/01/global-digital-report-2018> [Accessed 25 Jun. 2018].

JOACHIMS, T., 1998. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In: European Conference on Machine Learning. [online] pp.137–142. Available at: <http://www.springerlink.com/index/drhq581108850171.pdf>.

KE, B., SHEN, X.D., JI, H., GAO, F., KAMO, N., ZHAI, Y., BUSUTTIL, R. V dan KUPIEC-WEGLINSKi, J.W., 2011. STAT3-PTEN Axis: A Negative Regulator of Dendric Cell-Mediated Innate Immune Functions. American Journal of Transplantation, 11, p.197.

KEMENTERIAN KOMUNIKASI dan INFORMATIKA, 2017. Ujaran Kebencian Picu Generasi Muda Jadi Intoleran dan Diskriminatif. Jakarta.

LIU, B., 2012. Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies, [online] 5(1), pp.1–167. Available at: <http://www.morganclaypool.com/doi/abs/10.2200/S00416ED1V01Y201204HLT016>.

MA, S. dan CHEN, X., 2019. A data mining approach to predict risk of cardiovascular A Data Mining Approach to Predict Risk of Cardiovascular. In: AIP Conference Proceedings. pp.020014-1-020014–7.

MANEVITZ, L.M. dan YOUSEF, M., 2001. One-Class SVMs for Document Classification. Journal of Machine Learning Research 2, 2, pp.139–154.

MUSTAKIM, 2012. Pemetaan Digital dan Pengelompokan Lahan Hijau di Wilayah Provinsi Riau Berdasarkan Knoledge Discovery in Databases (KDD) dengan Teknik K-Means Mining. In: Seminar nasional Teknologi Informasi Komunikasi dan Industri (SNTIKI. Pekanbaru, Riau: Fakultas Sains dan Teknologi UIN Sultan Syarif Kasim Riau, pp.103–111.

MUZAKIR, A., 2014. Analisa Dan Pemanfaatan Algoritma K-Means Clustering pada Data Nilai Siswa sebagai Penentuan Penerimaan Beasiswa. In: Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST). Yogyakarta: Institut Sains & Teknologi Yogyakarta, p.A-195-A-200.

PRASETYO, E., 2014. Data Mining, Mengolah Data Menjadi Informasi Menggunakan Matlab. 1st Publis ed. Yogyakarta: Andi Offset.

RAHMAWATI, A., MARJUNI, A. dan ZENIARJA, J., 2017. Analisis Sentimen Publik Pada Media Sosial Twitter Terhadap Pelaksanaan Pilkada Serentak Menggunakan Algoritma Support Vector Machine. CCIT Journal, [online] 10(2), pp.197–206. Available at: <http://ejournal.raharja.ac.id/index.php/ccit/article/view/67>.

ROZI, N.F., ARIANTO, F. dan HAPSARI, D.P., 2019. Analisis Sentimen Pada Opini Pengguna Maskapai Penerbangan Sentiment Analysis on Passenger Opinions At Airlines Company. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), [online] 6(3), pp.321–326. Available at: <http://jtiik.ub.ac.id/index.php/jtiik/article/view/1337/pdf>.

RUDYBYO, 2011. Pengertian Sara: Suku, Ras, Agama, dan Antaragama. [online] Available at: <http://rudybyo.blogspot.co.id/2011/04/pengertian-sara-suku-ras-agama-dan.html> [Accessed 10 Oct. 2018].

SOMANTRI, O. dan APRILIANI, D., 2018. Support Vector Machine Berbasis Feature Selection Untuk Sentiment Analysis Kepuasan Pelanggan Terhadap Pelayanan Support Vector Machine Based on Feature Selection for Sentiment Analysis Customer Satisfaction on Culinary. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), [online] 5(5), pp.537–548. Available at: <http://jtiik.ub.ac.id/index.php/jtiik/article/view/867/pdf>.

SOMANTRI, O., WIYONO, S. dan DAIROH, , 2016. Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM). Scientific Journal of Informatics Universitas Negeri Semarang, 3, pp.34–45.

TIM PUSAT HUMAS KEMENTERIAN PERDAGANGAN RI, 2014. Panduan Optimalisasi Media Sosial untuk Kementerian Perdagangan RI. [online] Tim Pusat Humas Kementerian Perdagangan RI. Available at: <http://www.kemendag.go.id/files/pdf/2015/01/15/buku-media-sosial-kementerian-ido-1421300830.pdf> [Accessed 21 May 2018].

ZHANG, W., YOSHIDA, T. dan TANG, X., 2011. A comparative study of TF*IDF, LSI and multi-words for text classification. Expert Systems with Applications, [online] 38(3), pp.2758–2765. Available at: <http://dx.doi.org/10.1016/j.eswa.2010.08.066>.

Diterbitkan

22-05-2020

Terbitan

Bagian

Ilmu Komputer

Cara Mengutip

Kombinasi K-Means dan Support Vector Machine (SVM) untuk Memprediksi Unsur Sara pada Tweet. (2020). Jurnal Teknologi Informasi Dan Ilmu Komputer, 7(3), 501-510. https://doi.org/10.25126/jtiik.2020732126