Klasterisasi Berita Bahasa Indonesia Dengan Menggunakan K-Means Dan Word Embedding

Penulis

  • Humasak Tommy Argo Simanjuntak Institut Teknologi Del, Kabupaten Toba http://orcid.org/0000-0002-3294-6701
  • Prince Ephraim Prabowo Silaban Institut Teknologi Del, Kabupaten Toba
  • Joshua Koko Sarasi Manurung Institut Teknologi Del, Kabupaten Toba
  • Venny Handayani Sormin Institut Teknologi Del, Kabupaten Toba

DOI:

https://doi.org/10.25126/jtiik.20231026468

Abstrak

Jumlah berita atau dokumen yang sangat melimpah merupakan sumber pengetahuan yang sangat berharga dan dapat digunakan untuk memperoleh wawasan dalam pengambilan keputusan. Namun, pertumbuhan jumlah berita dengan dimensi yang tinggi menjadi sebuah tantangan besar, yang menyebabkan sulitnya informasi pada berita dikategorikan secara efisien dan cepat. Kesulitan ini semakin kompleks dengan tidak adanya kelas atau label pada berita tersebut. Analisis konten dari berita yang belum memiliki kelas atau label dapat dilakukan dengan pendekatan data mining. Salah satu metode data mining yang dapat digunakan untuk mengelompokkan berita tanpa label, jumlah yang besar, dan sulit dilakukan secara manual adalah klastering. Klastering teks adalah salah satu metode penambangan data yang bertujuan untuk mengelompokkan dokumen berdasarkan kesamaan atau kemiripan di antara teks. Penelitian ini memberikan pendekatan baru dalam mengelompokkan berita Bahasa Indonesia dengan metode klastering, dimana ekstraksi fitur dilakukan melalui pendekatan Neural Network (Word Embedding) yang dapat menunjukkan kesamaan antar kata untuk mempertahankan semantik dan konteks dari kata yang ada pada berita. Sumber data yang digunakan adalah berita dari portal berita “Tempo” yang terdiri dari 520863 berita. Hasil penelitian menunjukkan bahwa jumlah klaster k = 4, dengan parameter Word Embedding: min_count=1 dan embedding_size=300 memberikan nilai silhouette coefficient terbaik sebesar 0.73. Hasil klasterisasi berita divisualisasikan dalam bentuk dimensi yang berbeda dan visualisasi World Cloud untuk menganalisis dan mengevaluasi metode yang diusulkan pada penelitian ini.

 

Abstract

The enormous amount of news or documents is a precious source of knowledge and can be used to gain insight into decision-making. However, the growth in the number of news stories with high dimensions is a big challenge, making it difficult for information on the news to be categorized efficiently and quickly. This difficulty is further complicated by the absence of classes or labels on the news. Analysis of the content of news that does not yet have a class or label can be done with a data mining approach. The most used data mining method to group a tremendous amount of news without class labels is clustering. Text clustering is a data mining task that aims to group documents based on similarities. This study provides a new approach to classifying Indonesian news with the clustering method, where feature extraction is carried out through a Neural Network (Word Embedding) approach that can show similarities between words to maintain the semantics and context of the words in the news. The data source used is news from the news portal "Tempo," which consists of 5208063 news. The results showed that the number of clusters k = 4, with Word Embedding parameters: min_count=1 and embedding_size=300, produced the best silhouette coefficient value of 0.73. The results of news clustering were visualized in the form of different dimensions and World Cloud visualization to analyze and evaluate the proposed method.


Downloads

Download data is not yet available.

Referensi

CAI, Z., LIN, N., MA, C. & JIANG, S., 2019. Indonesian Automatic Text Summarization Based on A New Clustering Method in Sentence Level. In Proceedings of the 2019 International Conference on Big Data Engineering, pp.30-35. New York:Association for Computing Machinery.

CURISKIS, S. A., DRAKE, B., OSBORN, T. R. & KENNEDY, P. J., 2020. An evaluation of document clustering and topic modelling in two online social networks: Twitter and Reddit. Information Processing & Management, 57(2), p.102034.

EMCHA, A. C., WIDYAWAN & ADJI, T. B., 2019. Quotation Extraction from Indonesian Online News. In 2019 International Conference on Information and Communications Technology (ICOIACT), pp. 408-412. Yogyakarta:IEEE.

FONSEKA, W. P. I., 2019. Automated News Clustering Using an Unsupervised Learning Model. Master Project Final Report. University of Colombo School of Computing.

GUNAWAN, D., AMALIA & CHARISMA, I., 2017. Clustering Articles in Bahasa Indonesia using Self-Organizing Map. In 2017 International Conference on Electrical Engineering and Informatics (ICELTICs), pp. 239-244. Banda Aceh:IEEE.

HUDIN, M., FAUZI, M. & ADINUGROHO, S., 2018. Implementasi Metode Text Mining dan K-Means Clustering untuk Pengelompokan Dokumen Skripsi (Studi Kasus: Universitas Brawijaya). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 2(11), pp. 5518-5524. Malang:Filkom Universitas Brawijawa.

HUSNI, NEGARA, Y. D. P. & SYARIEF, M., 2015. Clusterisasi Dokumen Web (Berita) Bahasa Indonesia Menggunakan Algoritma K-Means. Jurnal SimanteC, 4(3), pp. 159-166. Bangkalan:Fakultas Teknik Universitas Trunojoyo Madura.

JAIN, A. K. & DUBES, R. C., 1988. Algorithm for CLustering Data. New Jersey:Prentice-Hall, Inc.

KHARDE, V. A. & SONAWANE, S. S., 2016. Sentiment Analysis of Twitter Data: A Survey of Techniques. International Journal of Computer Applications, 139(11), pp. 5-15. New York:Foundation of Computer Science(FCS).

LI, C., LU, Y., WU, J., ZHANG, Y., Xia, Z., WANG, T., YU, D., CHEN, X., LIU. P. & GUO, J., 2018. LDA Meets Word2Vec: A Novel Model for Academic Abstract Clustering, In Companion Proceedings of the web conference 2018, pp. 1699-1706. Lyon:Association for Computing Machinery.

LI, D., GUO, H., WANG, Z. & ZHENG, Z., 2021. Unsupervised Fake News Detection Based on Autoencoder. IEEE Access, 9, pp. 29356-29365. IEEE.

LIM, K. H., KARUNASEKERA, S. & HARWOOD, A., 2017. ClusTop: A Clustering-based Topic Modelling Algorithm for Twitter using Word Networks. IEEE International Conference on Big Data (BIGDATA), pp. 2009-2018. Boston:IEEE.

MANIK, L. P., SYAFIANDINI, A. F., MUSTIKA, H. F., ABKA, A. F. & RIANTO, Y., 2018. Evaluating the Morphological and Capitalization Features for Word Embedding-Based POS Tagger in Bahasa Indonesia, In 2018 International Conference on Computer, Control, Informatics and its Applications (IC3INA), pp. 49-53. Tangerang:IEEE.

McKINNEY, W., 2021. pandas. [daring]

Tersedia di: https://pandas.pydata.org

[Diakses 2021].

MIKOLOV, T., CHEN, K., CORRADO, G. & DEAN, J., 2013. Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.

NLTK, T., 2021. Natural Language Toolkit. [daring]

Tersedia di: https://www.nltk.org

[Diakses 2021].

ONAN, A., 2017. A K-medoids Based Clustering Scheme with An Application to Document Clustering. In 2017 International Conference on Computer Science and Engineering (UMBK), pp. 354-359. Antalya:IEEE.

ONAN, A., BULUT, H. & KORUKOGLU, S., 2017. An Improved Ant Algorithm with LDA-based Representation for Text Document Clustering. Journal of Information Science, 43(2), pp.275-292. SAGE.

PRABOWO, Y. D., MARSELINO, T. L. & SURYAWIGUNA, M., 2019. Pembentukan Vector Space Model Bahasa Indonesia Menggunakan Metode Word to Vector. Jurnal Buana Informatika, 10(1), pp. 29-40. Yogyakarta:Universitas Atma Jaya.

PUTRI, S. K., 2020. Pre-Train Word Vector Bahasa Indonesia Generation Dengan Menggunakan Word2vec untuk Bidang Komputer dan Teknologi Informasi (Skripsi Sarjana). Universitas Sumatera Utara.

RIKE, A., SUYANTO, S. & WISESTY, U. N., 2019. Indonesian Abstractive Text Summarization Using Bidirectional Gated Recurrent Unit Gated Recurrent Unit. Procedia Computer Science, 157, pp. 581-588. Elsevier B.V.

ROSID, M. A., FITRANI, A. S., ASTUTIK, I. R. I. & MULLOH, N. I., 2020. Improving Text Preprocessing For Student Complaint Document Classification Using Sastrawi. IOP Conference Series: Materials Science and Engineering, 874(1), p.012017. IOP Publishing.

SLAMET, C., RAHMAN, A., RAMDHANI, M. A. & DARMALAKSANA, W., 2016. Clustering the Verses of the Holy Qur’an using K-Means Algorithm. Asian Journal of Information Technology, 15(24), pp. 5159-5162.

WANG, C., NULTY, P. & LILLIS, D., 2020. A Comparative Study on Word Embeddings in Deep Learning for Text Classification. In Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval, pp. 37–46. New York:Association for Computing Machinery.

WIBISONO, Y. & KHODRA, M. L., 2006. Clustering Berita Bahasa Indonesia. s.l., s.n., pp. 495-496.

WIDYASTUTI, N. N., BIJAKSANA, A. & SARDI, I. L., 2018. Analisis Word2vec untuk Perhitungan Kesamaan Semantik Antar Kata. e-Proceeding of Engineering, 5(3), pp. 7603-7612. Universitas Telkom.

Diterbitkan

01-07-2023

Terbitan

Bagian

Ilmu Komputer

Cara Mengutip

Klasterisasi Berita Bahasa Indonesia Dengan Menggunakan K-Means Dan Word Embedding. (2023). Jurnal Teknologi Informasi Dan Ilmu Komputer, 10(3), 641-652. https://doi.org/10.25126/jtiik.20231026468