Analisis Perbandingan Teknik Word2vec dan Doc2vec dalam Mengukur Kemiripan Dokumen Menggunakan Cosine Similarity
DOI:
https://doi.org/10.25126/jtiik.20251219143Kata Kunci:
Word2vec, Doc2vec, Cosine Similarity, Document SimilarityAbstrak
Tempatkan Era digital memudahkan akses dokumen online dalam jumlah besar menjadi lebih mudah dan cepat, namun juga menimbulkan tantangan kompleks dalam pengelolaan dan analisis informasi. Salah satu tantangan utama adalah mengukur kemiripan antar dokumen, yang penting untuk berbagai aplikasi seperti deteksi plagiarisme. Menanggapi tantangan ini, banyak teknik yang dapat digunakan dalam merepresentasikan dokumen menjadi vektor untuk mengukur kemiripan dokumen. Dalam penelitian ini teknik Word2vec dan Doc2vec digunakan untuk merepresentasikan dokumen menjadi vektor, dan dalam mengukur kemiripan dokumen menggunakan metode Cosine Similarity. Objek penelitian dilakukan pada paragraf abstrak dari 20 jurnal ilmiah dengan tema data mining yang diterbitkan antara tahun 2020 hingga 2024 dari E-Journal Universitas Gunadarma. Metodologi penelitian meliputi pengumpulan data, text mining, pra-pemrosesan teks, implementasi teknik Word2vec dan Doc2vec, serta pengukuran Cosine Similarity. Hasil penelitian menunjukkan bahwa teknik Word2vec menghasilkan nilai Cosine Similarity yang lebih tinggi dibandingkan dengan Doc2vec untuk pasangan jurnal yang sama, dapat dilihat pada pasangan jurnal J02 dengan J14 memiliki nilai Cosine Similarity 0.892 pada teknik Word2vec, sedangkan pada Doc2vec nilainya 0.434. Hal ini menandakan bahwa hasil teknik Word2vec terbukti lebih efektif dalam menangkap kemiripan semantik antara jurnal-jurnal dibandingkan dengan teknik Doc2vec.
Abstract
The digital era has made access to many online documents easier and faster, but it has also created complex challenges in information management and analysis. One of the main challenges is measuring the similarity between documents, which is crucial for various applications such as plagiarism detection. In response to this challenge, many techniques can be used to represent documents as vectors to measure document similarity. In this research, Word2vec and Doc2vec techniques are used to represent documents as vectors, and Cosine Similarity is used to measure document similarity. The research objects are abstract paragraphs from 20 scientific journals on data mining published between 2020 and 2024 from Gunadarma University's E-Journal. The research methodology includes data collection, text mining, text pre-processing, Word2vec and Doc2vec techniques implementations, and Cosine Similarity measurement. The results show that the Word2vec technique produces higher Cosine Similarity values compared to Doc2vec for the same journal pairs, as seen in the journal pair J02 and J14 having a Cosine Similarity value of 0.892 using the Word2vec technique, while with Doc2vec the value is 0.434. This indicates that the Word2vec technique proves to be more effective in capturing semantic similarities between journals compared to the Doc2vec technique.
Downloads
Referensi
AGGARWAL, C. C. 2015. Data Mining. Springer International Publishing. https://doi.org/10.1007/978-3-319-14142-8
ALSHAMMERI, M., ATWELL, E., & ALSALKA, M. A. 2021. Detecting Semantic-based Similarity between Verses of the Quran with Doc2vec. Procedia CIRP, 189. https://doi.org/10.1016/j.procs.2021.05.104
AMALIA, A., SALIM SITOMPUL, O., BUDHIARTI NABABAN, E., & MANTORO, T. (2020). A Comparison Study Of Document Clustering Using Doc2vec Versus Tfidf Combined With Lsa For Small Corpora. Journal of Theoretical and Applied Information Technology, 15, 17. www.jatit.org
BUDIMAN, A. E., & WIDJAJA, A. 2020. Analisis Pengaruh Teks Preprocessing Terhadap Deteksi Plagiarisme Pada Dokumen Tugas Akhir. Jurnal Teknik Informatika Dan Sistem Informasi, 6(3). https://doi.org/10.28932/jutisi.v6i3.2892
CAHYANI, D. E., & PATASIK, I. 2021. Performance comparison of tf-idf and word2vec models for emotion text classification. Bulletin of Electrical Engineering and Informatics, 10(5), 2780–2788. https://doi.org/10.11591/eei.v10i5.3157
CAHYONO, S. C. 2019. Comparison of document similarity measurements in scientific writing using Jaro-Winkler Distance method and Paragraph Vector method. IOP Conference Series: Materials Science and Engineering, 662(5). https://doi.org/10.1088/1757-899X/662/5/052016
CARNEIRO, T., DA NOBREGA, R. V. M., NEPOMUCENO, T., BIAN, G. BIN, DE ALBUQUERQUE, V. H. C., & FILHO, P. P. R. 2018. Performance Analysis of Google Colaboratory as a Tool for Accelerating Deep Learning Applications. IEEE Access, 6, 61677–61685. https://doi.org/10.1109/ACCESS.2018.2874767
CHEN, Q., & SOKOLOVA, M. 2021. Specialists, Scientists, and Sentiments: Word2Vec and Doc2Vec in Analysis of Scientific and Medical Texts. SN Computer Science, 2(5). https://doi.org/10.1007/s42979-021-00807-1
FATARUBA, F. 2018. Penerapan Metode Cosine Similarity Untuk Pengecekan Kemiripan Jawaban Ujian Siswa.
HACOHEN-KERNER, Y., MILLER, D., & YIGAL, Y. 2020. The influence of preprocessing on text classification using a bag-of-words representation. PLoS ONE, 15(5). https://doi.org/10.1371/journal.pone.0232525
HASANAH, U., & MUTIARA, D. A. 2019. Perbandingan Metode Cosine Similarity Dan Jaccard Similarity Untuk Penilaian Otomatis Jawaban Pendek.
HICKMAN, L., THAPA, S., TAY, L., CAO, M., & SRINIVASAN, P. 2022. Text Preprocessing for Text Mining in Organizational Research: Review and Recommendations. Organizational Research Methods, 25(1), 114–146. https://doi.org/10.1177/1094428120971683
JURAFSKY, D., & MARTIN, J. H. 2023. Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition Third Edition draft.
KENTER, T., BORISOV, A., & DE RIJKE, M. 2016. Siamese CBOW: Optimizing Word Embeddings for Sentence Representations. https://github.com/ryankiros/
LAU, J. H., & BALDWIN, T. 2016. An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation. http://arxiv.org/abs/1607.05368
LE, Q. V., & MIKOLOV, T. 2014. Distributed Representations of Sentences and Documents. http://arxiv.org/abs/1405.4053
MIKOLOV, T., CHEN, K., CORRADO, G., & DEAN, J. 2013. Efficient Estimation of Word Representations in Vector Space. http://arxiv.org/abs/1301.3781
NURDIN, A., ANGGO, B., AJI, S., BUSTAMIN, A., & ABIDIN, Z. 2020. Perbandingan Kinerja Word Embedding Word2vec, Glove, Dan Fasttext Pada Klasifikasi Teks. Jurnal TEKNOKOMPAK, 14(2), 74.
PARWITA, W. G. S. 2020. A document recommendation system of stemming and stopword removal impact: A web-based application. Journal of Physics: Conference Series, 1469(1). https://doi.org/10.1088/1742-6596/1469/1/012050
RAHMAN, S., SEMBIRING, A., SIREGAR, D., KHAIR, H., PRAHMANA, G., PUSPADINI, R., & ZEN, M. 2023. Python : Dasar Dan Pemrograman Berorientasi Objek. Tahta Media Group.
RIYANI, A., ZIDNY NAF’AN, M., & BURHANUDDIN, A. 2019. Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen. In JLK (Vol. 2, Issue 1).
RONG, X. 2014. word2vec Parameter Learning Explained. http://arxiv.org/abs/1411.2738
SASTROASMORO, S. 2007. Beberapa Catatan tentang Plagiarisme*. Maj Kedokt Indon, 57(8), 239–244.
SONG, X., SALCIANU, A., SONG, Y., DOPSON, D., & ZHOU, D. 2020. Fast WordPiece Tokenization. http://arxiv.org/abs/2012.15524
SUYANTO, A. H., DJATNA, T., & WIJAYA, S. H. 2023. Mapping and predicting research trends in international journal publications using graph and topic modeling. Indonesian Journal of Electrical Engineering and Computer Science, 30(2), 1201–1213. https://doi.org/10.11591/IJEECS.V30.I2.PP1201-1213
TALA, F. Z. 2003. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia.
WAHYUNI, R. T., PRASTIYANTO, D., & SUPRAPTONO, D. E. 2017. Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi. 9(1), 18–23.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2025 Jurnal Teknologi Informasi dan Ilmu Komputer

Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.

Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).