Implementasi Latent Dirichlet Allocation (LDA) untuk Klasterisasi Cerita Berbahasa Bali
DOI:
https://doi.org/10.25126/jtiik.0813556Abstrak
Cerita-cerita berbahasa Bali memiliki topik yang beragam namun memuat nilai kearifan lokal yang perlu untuk dilestarikan. Jika cerita-cerita tersebut dapat dikelompokkan berdasarkan topik, tentu akan sangat memudahkan bagi para pembacanya dalam memilih bacaan yang diinginkan. Latent Dirichlet Allocation (LDA) mengasumsikan bahwa suatu dokumen dibangun dari perpaduan topik-topik tersembunyi. Dengan menerapkan LDA pada kumpulan dokumen, maka dapat diketahui distribusi topik-topik tersembunyi pada kumpulan dokumen secara umum maupun masing-masing dokumen. Pada penelitian ini, distribusi topik yang ditemukan oleh LDA pada kumpulan cerita berbahasa Bali digunakan untuk melakukan pengelompokkan cerita secara otomatis. Tahapan penelitian meliputi digitalisasi cerita, tokenisasi, case-folding, stemming, pencarian topik dengan LDA, representasi dokumen dan klasterisasi hirarki secara agglomerative. Pengujian dilakukan menggunakan 100 buah data cerita berbahasa Bali yang didapat dari situs daring maupun Dinas Kebudayaan Provinsi Bali untuk menghitung akurasi hasil klasterisasi. Evaluasi dilakukan juga untuk melihat pengaruh jumlah kata dan ukuran kesamaan yang digunakan terhadap akurasi. Akurasi hasil klasterisasi tertinggi yang didapatkan adalah 62% pada saat jumlah kata yang digunakan sebagai representasi dokumen berjumlah 3000 kata. Selain itu, didapatkan suatu kesimpulan bahwa akurasi klasterisasi juga sangat dipengaruhi oleh ukuran kesamaan yang digunakan ketika melakukan penggabungan dokumen serta jumlah kata sebagai representasi dokumen.
Abstract
Balinese folklores have diverse topics but contain local wisdom that needs to be preserved. Grouping the stories based on the topics can certainly help readers to choose their readings accordingly. Latent Dirichlet Allocation (LDA) assumes that a document is built from a combination of hidden topics. By applying LDA to a collection of documents (corpus), the global distribution of hidden topics in the corpus as well as the distribution of each individual document in the corpus can be identified. In this research, the individual distribution of topics in Balinese folklores is used to group stories based on common topics. The research stages include story digitization, tokenization, case-folding, stemming, topic search with LDA, document representation and agglomerative hierarchical clustering. Performance evaluation was carried out using 100 Balinese folklores data obtained from online sites and the Bali Provincial Cultural Office to calculate the accuracy of the clustering results. Evaluation is also carried out to see the effect of the number of words and the similarity measure used on accuracy. The highest accuracy obtained is 62% when the number of words used as the representation of a document is 3000 words. In addition, it can be concluded that accuracy is also greatly influenced by the similarity measure used when merging the documents and the number of words for document representation.
Downloads
Referensi
BLEI, D. M., Ng, A. Y., dan Jordan, M. I. (2003). Latent dirichlet allocation. J. Mach. Learn. Res., 3:993–1022.
GUAN, P. (2016). K-means document clustering based on latent dirichlet allocation. LEVENSHTEIN, V. “Binary Codes Capable of
Correcting Deletions, Inser-tions and Reversals,”Soviet Physics Doklady, vol. 10, p. 707, 1966.
NATA, G. N. M. dan Yudiastra, P. P., “Stemming teks sor-singgih bahasabali,”E-Proceedings KNS&I STIKOM Bali, pp. 608–612, 2017.
PATIL, H. B. dan Patil, A. S. “Mars: A rule-based stemmer for morphologically rich language marathi,” in 2017 International Conference on Computer, Communications and Electronics (Comptelix), pp. 580–584, IEEE, 2017.
PURNAJIWA ARIMBAWA, I. G. A.; SANJAYA ER, N. A. Lemmatization in Balinese Language. JELIKU - Jurnal Elektronik Ilmu Komputer Udayana, [S.l.], v. 8, n. 3, p. 235-242, jan. 2020. ISSN 2301-5373. Available at: <https://ojs.unud.ac.id/index.php/JLK/articl e/view/51892>. Diakses tanggal: 5 Mei 2020.
RITCHIE dan Zins (2005). Tourism in Contemporary Society, An Introductory Text.
SUBALI, M. A. P. dan Fatichah, C., “Kombinasi metode rule-based dan n-gram stemming untuk mengenali stemmer bahasa bali”, Jurnal TeknologiInformasi dan Ilmu Komputer, vol. 6, no. 2, pp. 219–228, 2019.
TAN, P. N., Steinbach, M., dan Kumar, V. (2006). Introduction to Data Mining. Pearson Education.
WARD, J.H.: Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association. 58, 301, 236--244 (1963).
XIE, P. dan Xing, E.P. (2013). Integrating document clustering and topic modeling. CoRR, abs/1309.6874.
YOETI, O. A. (2010). Pariwisata Budaya, Masalah dan Solusinya. Balai Pustaka.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).