Implementasi Latent Dirichlet Allocation (LDA) untuk Klasterisasi Cerita Berbahasa Bali

Penulis

Ngurah Agus Sanjaya ER

Abstrak

Cerita-cerita berbahasa Bali memiliki topik yang beragam namun memuat nilai kearifan lokal yang perlu untuk dilestarikan. Jika cerita-cerita tersebut dapat dikelompokkan berdasarkan topik, tentu akan sangat memudahkan bagi para pembacanya dalam memilih bacaan yang diinginkan. Latent Dirichlet Allocation (LDA) mengasumsikan bahwa suatu dokumen dibangun dari perpaduan topik-topik tersembunyi. Dengan menerapkan LDA pada kumpulan dokumen, maka dapat diketahui distribusi topik-topik tersembunyi pada kumpulan dokumen secara umum maupun masing-masing dokumen. Pada penelitian ini, distribusi topik yang ditemukan oleh LDA pada  kumpulan cerita berbahasa Bali digunakan untuk melakukan pengelompokkan cerita secara otomatis. Tahapan penelitian meliputi digitalisasi cerita, tokenisasi, case-folding, stemming, pencarian topik dengan LDA, representasi dokumen dan klasterisasi hirarki secara agglomerative. Pengujian dilakukan menggunakan 100 buah data cerita berbahasa Bali yang didapat dari situs daring maupun Dinas Kebudayaan Provinsi Bali untuk menghitung akurasi hasil klasterisasi. Evaluasi dilakukan juga untuk melihat pengaruh jumlah kata dan ukuran kesamaan yang digunakan terhadap akurasi. Akurasi hasil klasterisasi tertinggi yang didapatkan adalah 62% pada saat jumlah kata yang digunakan sebagai representasi dokumen berjumlah 3000 kata. Selain itu, didapatkan suatu kesimpulan bahwa akurasi klasterisasi juga sangat dipengaruhi oleh ukuran kesamaan yang digunakan ketika melakukan penggabungan dokumen serta jumlah kata sebagai representasi dokumen.

 

Abstract

Balinese folklores have diverse topics but contain local wisdom that needs to be preserved. Grouping the stories based on the topics can certainly help readers to choose their readings accordingly. Latent Dirichlet Allocation (LDA) assumes that a document is built from a combination of hidden topics. By applying LDA to a collection of documents (corpus), the global distribution of hidden topics in the corpus as well as the distribution of each individual document in the corpus can be identified. In this research, the individual distribution of topics in Balinese folklores is used to group stories based on common topics. The research stages include story digitization, tokenization, case-folding, stemming, topic search with LDA, document representation and agglomerative hierarchical clustering. Performance evaluation was carried out using 100 Balinese folklores data obtained from online sites and the Bali Provincial Cultural Office to calculate the accuracy of the clustering results. Evaluation is also carried out to see the effect of the number of words and the similarity measure used on accuracy. The highest accuracy obtained is 62% when the number of words used as the representation of a document is 3000 words. In addition, it can be concluded that accuracy is also greatly influenced by the similarity measure used when merging the documents and the number of words for document representation.

Teks Lengkap:

PDF

Referensi


BLEI, D. M., Ng, A. Y., dan Jordan, M. I. (2003). Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022.

GUAN, P. (2016). K-means document clustering based on latent dirichlet allocation. LEVENSHTEIN, V. “Binary Codes Capable of

Correcting Deletions, Inser-tions and Reversals,”Soviet Physics Doklady, vol. 10, p. 707, 1966.

NATA, G. N. M. dan Yudiastra, P. P., “Stemming teks sor-singgih bahasabali,”E-Proceedings KNS&I STIKOM Bali, pp. 608–612, 2017.

PATIL, H. B. dan Patil, A. S. “Mars: A rule-based stemmer for morphologically rich language marathi,” in 2017 International Conference on Computer, Communications and Electronics (Comptelix), pp. 580–584, IEEE, 2017.

PURNAJIWA ARIMBAWA, I. G. A.; SANJAYA ER, N. A. Lemmatization in Balinese Language. JELIKU - Jurnal Elektronik Ilmu Komputer Udayana, [S.l.], v. 8, n. 3, p. 235-242, jan. 2020. ISSN 2301-5373. Available at: . Diakses tanggal: 5 Mei 2020.

RITCHIE dan Zins (2005). Tourism in Contemporary Society, An Introductory Text.

SUBALI, M. A. P. dan Fatichah, C., “Kombinasi metode rule-based dan n-gram stemming untuk mengenali stemmer bahasa bali”, Jurnal TeknologiInformasi dan Ilmu Komputer, vol. 6, no. 2, pp. 219–228, 2019.

TAN, P. N., Steinbach, M., dan Kumar, V. (2006). Introduction to Data Mining. Pearson Education.

WARD, J.H.: Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association. 58, 301, 236--244 (1963).

XIE, P. dan Xing, E.P. (2013). Integrating document clustering and topic modeling. CoRR, abs/1309.6874.

YOETI, O. A. (2010). Pariwisata Budaya, Masalah dan Solusinya. Balai Pustaka.




DOI: http://dx.doi.org/10.25126/jtiik.0813556