Analisis Perbandingan Teknik Word2vec dan Doc2vec dalam Mengukur Kemiripan Dokumen Menggunakan Cosine Similarity

Dede Iskandar; Ana Kurniawati

doi:10.25126/jtiik.2025129143

Penulis

Dede Iskandar Universitas Gunadarma, Depok
Ana Kurniawati Universitas Gunadarma Depok

DOI:

https://doi.org/10.25126/jtiik.2025129143

Kata Kunci:

Word2vec, Doc2vec, Cosine Similarity, Document Similarity

Abstrak

Tempatkan Era digital memudahkan akses dokumen online dalam jumlah besar menjadi lebih mudah dan cepat, namun juga menimbulkan tantangan kompleks dalam pengelolaan dan analisis informasi. Salah satu tantangan utama adalah mengukur kemiripan antar dokumen, yang penting untuk berbagai aplikasi seperti deteksi plagiarisme. Menanggapi tantangan ini, banyak teknik yang dapat digunakan dalam merepresentasikan dokumen menjadi vektor untuk mengukur kemiripan dokumen. Dalam penelitian ini teknik Word2vec dan Doc2vec digunakan untuk merepresentasikan dokumen menjadi vektor, dan dalam mengukur kemiripan dokumen menggunakan metode Cosine Similarity. Objek penelitian dilakukan pada paragraf abstrak dari 20 jurnal ilmiah dengan tema data mining yang diterbitkan antara tahun 2020 hingga 2024 dari E-Journal Universitas Gunadarma. Metodologi penelitian meliputi pengumpulan data, text mining, pra-pemrosesan teks, implementasi teknik Word2vec dan Doc2vec, serta pengukuran Cosine Similarity. Hasil penelitian menunjukkan bahwa teknik Word2vec menghasilkan nilai Cosine Similarity yang lebih tinggi dibandingkan dengan Doc2vec untuk pasangan jurnal yang sama, dapat dilihat pada pasangan jurnal J02 dengan J14 memiliki nilai Cosine Similarity 0.892 pada teknik Word2vec, sedangkan pada Doc2vec nilainya 0.434. Hal ini menandakan bahwa hasil teknik Word2vec terbukti lebih efektif dalam menangkap kemiripan semantik antara jurnal-jurnal dibandingkan dengan teknik Doc2vec.

Abstract

The digital era has made access to many online documents easier and faster, but it has also created complex challenges in information management and analysis. One of the main challenges is measuring the similarity between documents, which is crucial for various applications such as plagiarism detection. In response to this challenge, many techniques can be used to represent documents as vectors to measure document similarity. In this research, Word2vec and Doc2vec techniques are used to represent documents as vectors, and Cosine Similarity is used to measure document similarity. The research objects are abstract paragraphs from 20 scientific journals on data mining published between 2020 and 2024 from Gunadarma University's E-Journal. The research methodology includes data collection, text mining, text pre-processing, Word2vec and Doc2vec techniques implementations, and Cosine Similarity measurement. The results show that the Word2vec technique produces higher Cosine Similarity values compared to Doc2vec for the same journal pairs, as seen in the journal pair J02 and J14 having a Cosine Similarity value of 0.892 using the Word2vec technique, while with Doc2vec the value is 0.434. This indicates that the Word2vec technique proves to be more effective in capturing semantic similarities between journals compared to the Doc2vec technique.

Downloads

Download data is not yet available.

Referensi

AGGARWAL, C. C. 2015. Data Mining. Springer International Publishing. https://doi.org/10.1007/978-3-319-14142-8

ALSHAMMERI, M., ATWELL, E., & ALSALKA, M. A. 2021. Detecting Semantic-based Similarity between Verses of the Quran with Doc2vec. Procedia CIRP, 189. https://doi.org/10.1016/j.procs.2021.05.104

AMALIA, A., SALIM SITOMPUL, O., BUDHIARTI NABABAN, E., & MANTORO, T. (2020). A Comparison Study Of Document Clustering Using Doc2vec Versus Tfidf Combined With Lsa For Small Corpora. Journal of Theoretical and Applied Information Technology, 15, 17. www.jatit.org

BUDIMAN, A. E., & WIDJAJA, A. 2020. Analisis Pengaruh Teks Preprocessing Terhadap Deteksi Plagiarisme Pada Dokumen Tugas Akhir. Jurnal Teknik Informatika Dan Sistem Informasi, 6(3). https://doi.org/10.28932/jutisi.v6i3.2892

CAHYANI, D. E., & PATASIK, I. 2021. Performance comparison of tf-idf and word2vec models for emotion text classification. Bulletin of Electrical Engineering and Informatics, 10(5), 2780–2788. https://doi.org/10.11591/eei.v10i5.3157

CAHYONO, S. C. 2019. Comparison of document similarity measurements in scientific writing using Jaro-Winkler Distance method and Paragraph Vector method. IOP Conference Series: Materials Science and Engineering, 662(5). https://doi.org/10.1088/1757-899X/662/5/052016

CARNEIRO, T., DA NOBREGA, R. V. M., NEPOMUCENO, T., BIAN, G. BIN, DE ALBUQUERQUE, V. H. C., & FILHO, P. P. R. 2018. Performance Analysis of Google Colaboratory as a Tool for Accelerating Deep Learning Applications. IEEE Access, 6, 61677–61685. https://doi.org/10.1109/ACCESS.2018.2874767

CHEN, Q., & SOKOLOVA, M. 2021. Specialists, Scientists, and Sentiments: Word2Vec and Doc2Vec in Analysis of Scientific and Medical Texts. SN Computer Science, 2(5). https://doi.org/10.1007/s42979-021-00807-1

FATARUBA, F. 2018. Penerapan Metode Cosine Similarity Untuk Pengecekan Kemiripan Jawaban Ujian Siswa.

HACOHEN-KERNER, Y., MILLER, D., & YIGAL, Y. 2020. The influence of preprocessing on text classification using a bag-of-words representation. PLoS ONE, 15(5). https://doi.org/10.1371/journal.pone.0232525

HASANAH, U., & MUTIARA, D. A. 2019. Perbandingan Metode Cosine Similarity Dan Jaccard Similarity Untuk Penilaian Otomatis Jawaban Pendek.

HICKMAN, L., THAPA, S., TAY, L., CAO, M., & SRINIVASAN, P. 2022. Text Preprocessing for Text Mining in Organizational Research: Review and Recommendations. Organizational Research Methods, 25(1), 114–146. https://doi.org/10.1177/1094428120971683

JURAFSKY, D., & MARTIN, J. H. 2023. Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition Third Edition draft.

KENTER, T., BORISOV, A., & DE RIJKE, M. 2016. Siamese CBOW: Optimizing Word Embeddings for Sentence Representations. https://github.com/ryankiros/

LAU, J. H., & BALDWIN, T. 2016. An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation. http://arxiv.org/abs/1607.05368

LE, Q. V., & MIKOLOV, T. 2014. Distributed Representations of Sentences and Documents. http://arxiv.org/abs/1405.4053

MIKOLOV, T., CHEN, K., CORRADO, G., & DEAN, J. 2013. Efficient Estimation of Word Representations in Vector Space. http://arxiv.org/abs/1301.3781

NURDIN, A., ANGGO, B., AJI, S., BUSTAMIN, A., & ABIDIN, Z. 2020. Perbandingan Kinerja Word Embedding Word2vec, Glove, Dan Fasttext Pada Klasifikasi Teks. Jurnal TEKNOKOMPAK, 14(2), 74.

PARWITA, W. G. S. 2020. A document recommendation system of stemming and stopword removal impact: A web-based application. Journal of Physics: Conference Series, 1469(1). https://doi.org/10.1088/1742-6596/1469/1/012050

RAHMAN, S., SEMBIRING, A., SIREGAR, D., KHAIR, H., PRAHMANA, G., PUSPADINI, R., & ZEN, M. 2023. Python : Dasar Dan Pemrograman Berorientasi Objek. Tahta Media Group.

RIYANI, A., ZIDNY NAF’AN, M., & BURHANUDDIN, A. 2019. Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen. In JLK (Vol. 2, Issue 1).

RONG, X. 2014. word2vec Parameter Learning Explained. http://arxiv.org/abs/1411.2738

SASTROASMORO, S. 2007. Beberapa Catatan tentang Plagiarisme*. Maj Kedokt Indon, 57(8), 239–244.

SONG, X., SALCIANU, A., SONG, Y., DOPSON, D., & ZHOU, D. 2020. Fast WordPiece Tokenization. http://arxiv.org/abs/2012.15524

SUYANTO, A. H., DJATNA, T., & WIJAYA, S. H. 2023. Mapping and predicting research trends in international journal publications using graph and topic modeling. Indonesian Journal of Electrical Engineering and Computer Science, 30(2), 1201–1213. https://doi.org/10.11591/IJEECS.V30.I2.PP1201-1213

TALA, F. Z. 2003. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia.

WAHYUNI, R. T., PRASTIYANTO, D., & SUPRAPTONO, D. E. 2017. Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi. 9(1), 18–23.

Analisis Perbandingan Teknik Word2vec dan Doc2vec dalam Mengukur Kemiripan Dokumen Menggunakan Cosine Similarity

Penulis

DOI:

Kata Kunci:

Abstrak

Downloads

Referensi

Unduhan

Diterbitkan

Terbitan

Bagian

Lisensi

Cara Mengutip

Kirim Naskah

side menu

sertifikat akreditasi

pengindeks

Mendeley

Citations & Reference Manager

pengunjung

Keywords

Information

Supported by

Technical Support

Laboratorium

Direktori UB