Analisis Sentimen Bahasa Indonesia pada Twitter Menggunakan Struktur Tree Berbasis Leksikon

Penulis

Feby Tri Saputra, Yani Nurhadryani, Sony Hartono Wijaya, Defina Defina

Abstrak

Jumlah opini di media sosial seperti Twitter tersebar luas sehingga tidak mungkin membaca semua opini untuk mendapatkan seluruh sentimen. Analisis sentimen merupakan salah satu metode untuk mengatasi masalah tersebut. Salah satu pendekatan dalam analisis sentimen adalah berbasis leksikon. Pendekatan berbasis leksikon dapat menghasilkan performa yang baik pada lintas topik pembicaraan tanpa memerlukan pelatihan data. Namun, pendekatan berbasis leksikon sangat bergantung pada kelengkapan dan keragaman sentimen leksikon. Selain itu, hubungan antarkata sangat penting untuk diperhatikan karena dapat mengubah polaritas sentimen pada teks. Hubungan antarkata dapat direpresentasikan dengan baik menggunakan struktur tree. Penelitian ini menggunakan struktur tree sebagai interpretasi hubungan antarkata dalam pembentukan kalimat dengan menambahan kata ke dalam sentimen leksikon. Metode berbasis tree diujikan pada data dengan lintas topik seperti data twit Pilgub Jabar 2018, Pilpres 2019, dan pandemik COVID-19. Ketiga data uji memiliki proporsi kelas yang tidak seimbang, dengan kelas terbanyak merupakan kelas positif. Metode berbasis tree menghasilkan akurasi sebesar 64,97% (meningkat 1,26%) pada data Pilgub Jabar 2018, 64,33% (meningkat 11,41%) pada data Pilpres 2019, dan 66,24% (meningkat 7,61%) pada data pandemik COVID-19. Metode berbasis tree dapat menghasilkan akurasi yang stabil pada beberapa lintas topik dibuktikan dengan standar deviasi akurasi yang kecil (0,97%) bahkan lebih kecil dari metode tanpa tree (5,4%). Metode berbasis tree dapat meningkatkan weighted f1-measure pada data Pilpres 2019 sebesar 10,45% dan data pandemik COVID-19 sebesar 8,1%, sedangkan hasil pada data Pilgub 2018 tidak berbeda secara signifikan. Hasil akurasi dan weighted f1-measure memiliki selisih yang kecil sehingga pengukuran akurasi valid dan tidak bias terhadap data tidak seimbang.

 

Abstract

The number of opinions on social media like Twitter is so widespread that it's impossible to read all those opinions to get all the sentiments. Sentiment analysis is one of the methods that could overcome this problem. The lexicon-based approach is one of the sentiment analysis approaches which perform well across data topics without training. However, the lexicon-based approach relies heavily on the completeness and diversity of sentiment lexicons. The relationship between words is important because it could change the sentiment polarity in the text. The tree structure could represent the relationship between words well. This study uses a tree structure as an interpretation of the relationship between words in a sentence. The tree structure is constructed by adding words to the lexicon sentiment. The tree-based method is tested on cross-topic data such as the tweet data of the 2018 West Java Governor Election, the 2019 Presidential Election, and the COVID-19 pandemic. All data used has an unbalanced class proportion, with the positive class being dominant. The accuracy results of the tree-based method on all data consecutively are 64.97% (increased by 1.26%), 64.33% (increased by 11.41%), and 66.24% (increased by 7.61%). The tree-based method produce stable accuracy on several topics proved by the small accuracies standard deviation (0.97%) that even smaller than the non-tree method (5.4%). The weighted f1-measure increases of the tree-based method on all data consecutively are 0% (equal), 10.45%, and 8.1%. The small difference between the weighted f1-measure and accuracy concludes that the accuracy resulted is valid.


Teks Lengkap:

PDF

Referensi


ABDULLA N.A., AHMED N.A., SHEHAB M.A., dan AL-AYYOUB M., 2013. Arabic sentiment analysis: Lexicon-based and corpus-based. Dalam: IEEE Jordan conference on applied electrical engineering and computing technologies (AEECT). Jordan (JO): IEEE, pp.1-6.

ABDULLA N.A., AHMED N.A., SHEHAB M.A., AL-AYYOUB M., AL-KABI M.N., dan AL-RIFAI S., 2014. Towards improving the lexicon-based approach for arabic sentiment analysis. International Journal of Information Technology and Web Engineering, 9(3), pp.55-71.

ALWI H., DARDJOWIDJOJO S., LAPOLIWA H., dan MOELIONO A.M., 2010. Tata Bahasa Baku Bahasa Indonesia: Edisi Ketiga. Jakarta: Pusat Bahasa dan Balai Pustaka.

APJII (Asosiasi Penyelenggara Jasa Internet Indonesia), 2018. Penetrasi dan Perilaku Pengguna Internet Indonesia 2018, [online] Tersedia di: [Diakses 23 Agustus 2020]

AZIZ A.T.A., 2013. Sistem Pengklasifikasian Entitas pada Pesan Twitter Menggunakan Ekspresi Regular dan Naïve Bayes. [skripsi] Institut Pertanian Bogor, Indonesia.

CHEN Y., dan SKIENA S., 2014. Building Sentiment Lexicons for All Major Languages. Dalam: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore (US): ACL, pp.383-389.

HAN J., KAMBER M., dan PEI J., 2012. Data Mining Concept and Techniques. Ed ke-3. Waltham: Elsevier Inc.

INDURKHYA N., dan DAMERAU F.J., 2010. Handbook of Natural Languange Processing Second Edition. Boca Raton: Taylor and Francis Group.

KWAK H., LEE C., PARK H., dan MOON S., 2010. What is Twitter, a Social Network or a News Media?. Dalam: Proceedings of the 19th International Conference on World Wide Web (WWW’10). Raleigh (US): ACM, pp.591-600.

LAILIYAH M., 2017. Sentiment Analysis Menggunakan Rule Based Method pada Data Pengaduan Publik Berbasis Lexical Resources. [tesis] Institut Teknologi Sepuluh Nopember, Indonesia.

PAK A., dan PAROUBEK P., 2011. Text representation using dependency tree subgraphs for sentiment analysis. Dalam: International Conference on Database Systems for Advanced Applications. Berlin (DE): Springer, pp.323-332.

PALANISAMY P., YADAV V., dan ELCHURI H., 2013. Serendio: Simple and Practical lexicon based approach to Sentiment Analysis. Dalam: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval). Georgia (GE): ACL, pp.543-548.

RASHEL F., LUTHFI A., DINAKARAMANI A., dan MANURUNG R., 2014. Building an Indonesian rule-based part-of-speech tagger. Dalam: 2014 International Conference on Asian Language Processing (IALP). Kuching (MY): IEEE, pp.70-73.

SAPUTRA F.T., dan NURHADRYANI Y., 2018. Analysis of Indonesian Sentiments Using Indonesian Sentiment Lexicon by Considering Denial. Dalam: 2018 International Conference on Advanced Computer Science and Information Systems (ICACSIS). Yogyakarta (ID): IEEE, pp.361-366.

SOELISTIYOWATI R., 2014. Terampil Menerapkan Kaidah Ejaan. Dalam: Cendekia Bahasa: Pengantar Penulisan Ilmiah. Bogor: IPB Press, pp.204-216.

TABOADA M., BROOKE J., TOFILOSKI M., VOLL K., dan STEDE M., 2011. Lexicon-based methods for sentiment analysis. Computational linguistics, 37(2), pp.267-307.

UMAR H., 2002. Metode Riset Bisnis­ Panduan Mahasiswa untuk Melaksanakan Riset Dilengkapi Contoh Proposal dan Hasil Riset Bidang Manajemen dan Akuntansi. Jakarta: Gramedia Pustaka Utama.




DOI: http://dx.doi.org/10.25126/jtiik.0814133