Analisis Kinerja Algoritma Klasifikasi Teks Bert dalam Mendeteksi Berita Hoaks
DOI:
https://doi.org/10.25126/jtiik.938093Kata Kunci:
penyebaran berita palsu, BERT, akurasi, F1-Score, presisi, recallAbstrak
Teknologi yang mengalami perkembangan tentu memiliki dampak positif dan negatif. Internet yang menjadi hasil perkembangan teknologi tidak luput dari dampak negatif, yaitu munculnya hoaks. Hoaks merupakan berita palsu yang saat ini menjadi isu penting di masyarakat. Hoaks sengaja disebarkan untuk menimbulkan keresahan dan kegaduhan dalam berbagai bidang, seperti sosial budaya, politik, hingga ekonomi. Penelitian yang dilakukan berikut sangat penting karena dapat memberikan kontribusi penting dalam memerangi penyebaran berita hoaks di dunia digital yang semakin kompleks dengan melakukan klasifikasi berita benar dan berita hoaks. Dalam penelitian ini, data yang digunakan berasal dari tiga dataset publik yang diunduh dari website bernama “onlineacademiccommunity.uvic.ca”, “HuggingFace.co” dan “Kaggle.com”. Data dibagi menjadi tiga bagian: pelatihan (70%), validasi (15%), dan pengujian (15%). Model BERT diinisialisasi, optimizer AdamW digunakan dengan NLLLoss, dan model dilatih selama beberapa epoch. Model dievaluasi menggunakan data validasi untuk menghindari overfitting. Model yang digunakan untuk mengklasifikasikan data uji. Hasil evaluasi menunjukkan bahwa model klasifikasi BERT memiliki akurasi sebesar 76% pada data validasi dalam mengklasifikasikan berita hoaks, yang menunjukkan performa atau kinerja model Machine Learning dalam melakukan klasifikasi berita hoaks. Sedangkan pada model klasifikasi BERT Multilingual memiliki akurasi lebih rendah, yakni 63%. Penelitian ini berpotensi memberikan kontribusi penting dalam memerangi penyebaran berita hoaks di dunia digital yang semakin kompleks. Dengan menggunakan BERT sebagai pendekatan, model ini memungkinkan pengidentifikasian berita hoaks yang lebih akurat, serta membantu masyarakat dalam menghindari konsumsi informasi yang salah. Dengan hasil yang positif ini, penelitian ini menunjukkan bagaimana teknologi machine learning dapat digunakan untuk melawan disinformasi dan menjadikan dunia maya menjadi tempat yang lebih terpercaya.
Abstract
The development of technology certainly has positive and negative impacts. The internet, which is the result of technological development, does not escape the negative impact, namely the emergence of hoaxes. Hoaxes are fake news that is currently an important issue in society. Hoaxes are deliberately spread to cause unrest and uproar in various fields, such as socio-culture, politics, and economics. The following research is very important because it can make an important contribution in combating the spread of hoax news in an increasingly complex digital world by classifying true news and hoax news. In this research, the data used comes from three public datasets downloaded from websites named "onlineacademiccommunity.uvic.ca", "HuggingFace.co" and "Kaggle.com". The data is divided into three parts: training (70%), validation (15%), and testing (15%). The BERT model was initialized, the AdamW optimizer was used with NLLLoss, and the model was trained for several epochs. The model was evaluated using validation data to avoid overfitting. The model was used to classify the test data. The evaluation results show that the BERT classification model has an accuracy of 76% on validation data in classifying hoax news, which shows the performance of the Machine Learning model in classifying hoax news. Meanwhile, the BERT Multilingual classification model has a lower accuracy of 63%. This research has the potential to make an important contribution in combating the spread of hoax news in an increasingly complex digital world. By using BERT as an approach, this model allows for more accurate identification of hoax news, as well as assisting the public in avoiding the consumption of misinformation. With these positive results, this research shows how machine learning technology can be used to fight disinformation and make cyberspace a more trusted place.
Downloads
Referensi
AHMED H, TRAORE I, SAAD S. 2017 “Detection of Online Fake News Using N-Gram Analysis and Machine Learning Techniques. In: Traore I., Woungang I., Awad A. (eds) Intelligent, Secure, and Dependable Systems in Distributed and Cloud Environments. ISDDC 2017. Lecture Notes in Computer Science, vol 10618. Springer, Cham (pp. 127-128).
AHMED, H., TRAORE, I., & SAAD, S. 2018. Detecting opinion spams and fake news using text classification. Journal of Security and Privacy, 1(1). 10.1002/spy2.9.
BISRI R. B. 2022. Indonesian Hoax news. Hugging Face, https://huggingface.co/datasets/Rifky/indonesian-hoax-news.
DEVLIN, J., CHANG, M., LEE, K., & TOUTANOVA, K. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Computing Research Repository. arXiv:1810.04805v2.
GHAIDA A. H., RIZQULLAH M. R., & HADI S. I. 2023. Indonesian Fact and Hoax Political News. Kaggle. https://www.kaggle.com/datasets/linkgish/indonesian-fact-and-hoax-political-news.
GUESS, A. M., NAGLER, J., & TUCKER, J. 2020. Less than you think: Prevalence and predictors of fake news dissemination on Facebook. Science Advances, 6(14).
GUMILAR, G., JUSTITO, A., & NUNIK, M. n.d.. Literasi Media: Cerdas Menggunakan Media Sosial Dalam Menanggulangi Berita Palsu (Hoax) Oleh Siswa SMA. Jurnal Pengabdian Kepada Masyarakat, 1(1), 35-40. http://jurnal.unpad.ac.id/pkm/article/view/16275/7939.
JURAFSKY, D., & MARTIN, J. H. 2020. Speech and Language Processing (3rd ed.). Pearson.
NAYAK, P. 2019. Understanding searches better than ever before. The Keyword. Retrieved October 4, 2023, from https://blog.google/products/search/search-language-understanding-bert/.
NEWMAN, N., FLETCHER, R., KALOGEROPOULOS, A., & NIELSEN, R. K. 2019. Reuters institute digital news report 2019. Reuters Institute for the Study of Journalism, 19.
PENNYCOOK, G., & RAND, D. G. 2019. The Implied Truth Effect: Attaching Warnings to a Subset of Fake News Stories Increases Perceived Accuracy of Stories Without Warnings. Management Science, 66(11), 4944-4957.
RAHUTOMO, F., YANUAR, I., & ASMARA, R. A. 2018. INDONESIAN HOAX NEWS DETECTION DATASET (1). Mendeley Data.
RAHUTOMO, F., YANUAR, I., & ASMARA, R. A. 2018. INDONESIAN HOAX NEWS DETECTION DATASET. Mendeley Data. Retrieved September 26, 2023, from https://data.mendeley.com/datasets/p3hfgr5j3m/1.
SHOLIKHAH, I. I., JAKA, A. T., & LATIFAH, K. 2023. Machine Learning Untuk Deteksi Berita Hoax Menggunakan BERT. IN-FEST 2023 Seminar Nasional Informatika – FTI UPGRIS, 524-531.
TAMBINI, D. 2018. From Digital Divides to Digital Inequality: The Politics of Online Inequalities. International Journal of Communication, 12, 10.
VASWANI, A., SHAZEER, N., PARMAR, N., USZKOREIT, J., JONES, L., GOMEZ, A. N., KAISER, L., & POLOSUKHIN, I. 2017. Attention is All you Need. In Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 6000–6010. arXiv:1706.03762.
VOSOUGHI, S., ROY, D., & ARAL, S. 2018. The spread of true and false news online. Science, 359(6380), 1146-1151.
WE ARE SPECIAL & HOOTSUITE. 2021. Digital 2021: Indonesia. https://wearesocial.com/digital-2021-indonesia.
YOUR DATA & SARKAR, D. 2016. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data. apress.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2024 Jurnal Teknologi Informasi dan Ilmu Komputer

Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.

Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).