Pengukuran Kemiripan Makna Menggunakan Cosine Similarity dan Basis Data Sinonim Kata
DOI:
https://doi.org/10.25126/jtiik.20241046864Abstrak
Penelitian ini bertujuan untuk memberikan alternatif dalam menguji kemiripan makna antar 2 kalimat. Pembentukan database sinonim kata dilakukan dengan mengelompokkan kata berdasar sinonim atau yang memiliki kesamaan arti. Masing-masing kelompok kata diberikan ID unik. Selanjutnya setiap kelompok kata dipecah untuk diuraikan menjadi kata tunggal, disimpan pada tabel kata dengan melabeli ID kata dan ID sinonim. ID sinonim didasarkan pada ID unik pada tabel sinonim. Dalam pengujian kemiripan makna, masing-masing kalimat akan di urai menjadi kata dan tiap-tiap kata akan dicocokkan berdasarkan tabel kata dengan acuan ID sinonim. ID Sinonim yang didapat kemudian dilakukan pengukuran jarak vektor dan kemiripan menggunakan rumus cosine similarity. Berdasarkan pengujian dan analisa yang telah dilakukan, dari 25 pengujian didapati 24 nilai kemiripan mengalami peningkatan prosentase. Hal tersebut dikarenakan penggunaan ID yang didasarkan pada kelompok kata dan irisan saat proses pembobotan mampu meningkatkan nilai kemiripan. Rata-rata nilai kemiripan pada penggunaan ID sebagai vektor hitung adalah 94,48% dan rata-rata nilai kemiripan pada metode atau alur pembanding adalah sebesar 69,96%.
Abstract
This study aims to provide an alternative in testing the similarity of meaning between 2 sentences. The formation of a word synonym database is done by grouping words based on synonyms or those that have the same meaning. Each group of words is assigned a unique ID. Furthermore, each group of words is broken down to be broken down into single words, stored in the word table labeled word ID and synonym ID. Synonym ID is based on the unique ID in the synonym table. In testing the similarity of meaning, each sentence will be broken down into words and each word will be matched based on the word table with synonym ID references. The synonym ID obtained is then measured by measuring the vector distance and similarity using the cosine similarity formula. Based on the tests and analyzes that have been carried out, out of 25 tests it was found that 24 similarity values experienced an increase in the percentage. This is because the use of ID based on word groups and slices during the weighting process can increase the similarity value. The average similarity value in the use of ID as a calculating vector is 94.48% and the average similarity value in the comparison method or plot is 69.96%.
Downloads
Referensi
ABRIANI, G. U., & YAQIN, M. A., 2019. Implementasi Metode Semantic Similarity untuk Pengukuran Kemiripan Makna antar Kalimat. ILKOMNIKA: Journal of Computer Science and Applied Informatics, 1(2), 47–57. https://doi.org/10.28926/ilkomnika.v1i2.15
AMALIA, E. L., JUMADI, A. J., MASHUDI, I. A., & WIBOWO, D. W., 2021. Analisis Metode Cosine Similarity Pada Aplikasi Ujian Online Otomatis (Studi Kasus JTI POLINEMA). Jurnal Teknologi Informasi Dan Ilmu Komputer, 8(2), 343. https://doi.org/10.25126/jtiik.2021824356
CATERINA, Y., YAQIN, M. A., & ZAMAN, S., 2021. Pengukuran Kemiripan Makna Kalimat dalam Bahasa Indonesia Menggunakan Metode Path. Fountain of Informatics Journal, 6(2), 45. https://doi.org/10.21111/fij.v6i2.4844
LIBRIAN, A., 2017. High quality stemmer library for Indonesian Language (Bahasa). https://github.com/sastrawi/
MAWANTA, I., GUNAWAN, T. S., & WANAYUMINI, W., 2021. Uji Kemiripan Kalimat Judul Tugas Akhir dengan Metode Cosine Similarity dan Pembobotan TF-IDF. Jurnal Media Informatika Budidarma, 5(2), 726. https://doi.org/10.30865/mib.v5i2.2935
NUGROHO, K. S., 2019. Dasar Text Preprocessing dengan Python. https://ksnugroho.medium.com/dasar-text-preprocessing-dengan-python-a4fa52608ffe
PRATAMA, R. P., FAISAL, M., & HANANI, A., 2019. Deteksi Plagiarisme pada Dokumen Jurnal Menggunakan Metode Cosine Similarity. SMARTICS Journal, 5(1), 22–26. https://doi.org/10.21067/smartics.v5i1.2848
SALIM, M. A., & ANISTYASARI, Y., 2017. Pengembangan Aplikasi Penilaian Ujian Essay Berbasis Online Menggunakan Algoritma Nazief Dan Adriani Dengan Metode Cosine Mohammad Agus Salim Yeni Anistyasari Abstrak. IT-Edu : Jurnal Information Technology and Education, 02(1), 126–135.
SANJAYA, A., & SASONGKO, S. D., 2022. UJI KEMIRIPAN KALIMAT MENGGUNAKAN FUNGSI TERBILANG PADA PRE-PROCESSING DAN COSINE SIMILARITY DALAM BAHASA INDONESIA SENTENCES SIMILARITY TEST USING COUNTABLE FUNCTION ON PRE-PROCESSING AND COSINE IN INDONESIAN. 7(2), 95–104.
STEVEN BIRD, EWAN KLIEN, E. L., 2009. Natural Language Processing with Python (J. Steele (ed.); First Edit). O’reilly Media Inc. http://www.datascienceassn.org/sites/default/files/Natural Language Processing with Python.pdf
SUHARTONO, D., 2013. Natural Language Processing. https://socs.binus.ac.id/2013/06/22/natural-language-processing/
SYABANI RENI, M. M. UMILASARI., 2018. Penerapan Metode Cosine Similarity dan Pembobotan TF/IDF pada Sistem Klasifikasi Sinopsis Buku di Perpustakaan Kejaksaan Negeri Jember. JUSTINDO (Jurnal Sistem Dan Teknologi Informasi Indonesia), Vol 3, No 1 (2018): JUSTINDO, 31–42. http://jurnal.unmuhjember.ac.id/index.php/JUSTINDO/article/view/2345
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).