Pengelompokan Hasil Pencarian Skripsi Berbahasa Indonesia Menggunakan Metode DBSCAN dengan Pembobotan BM25

Penulis

  • Rangga Adi Satria Universitas Brawijaya, Malang
  • Indriati Indriati Universitas Brawijaya, Malang
  • Sutrisno Sutrisno Universitas Brawijaya, Malang

DOI:

https://doi.org/10.25126/jtiik.20241046899

Abstrak

Skripsi merupakan tugas akhir yang disusun oleh mahasiswa sebagai persyaratan untuk memperoleh gelar sarjana. Mesin pencari untuk mempermudah pencarian dokumen skripsi yang disimpan pada perpustakaan maupun penyimpanan digital umumnya menggunakan metode sederhana dengan mengembalikan dokumen yang mengandung potongan kata atau identik dengan kata kunci, sehingga dokumen yang diperoleh kurang relevan. Hasil pencarian dapat dikelompokan sehingga dokumen tersaji dengan lebih terperinci dan memudahkan pencarian lebih lanjut. Guna mengelompokan hasil pencarian skripsi berbahasa Indonesia, dengan menggunakan judul dan abstrak skripsi, digunakan pembobotan kata BM25 dan pengelompokan DBSCAN, metode pengelompokan yang mempertimbangkan kepadatan titik sampel dokumen. Pengujian dilakukan dengan mengukur hasil pengelompokan menggunakan rata-rata silhouette coefficient terhadap parameter epsilon dan MinPts pada metode DBSCAN, serta k1 dan b pada pembobotan BM25 dengan 4 skenario yang berbeda. Hasil pengujian menunjukan bahwa parameter k1 dan b pada pembobotan BM25 cukup mempengaruhi kualitas pengelompokan dengan metode DBSCAN. Hasil rata – rata silhouette coefficient terbaik untuk masing masing skenario secara berurutan adalah 0.722, 0.762, 0.945 dan 0.907 dengan parameter terbaik berupa k1=1.8, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario pertama. k1=1.9, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario kedua. k1=1.4, b=0.55, epsilon=0.1 dan MinPts=5 pada skenario ketiga dan k1=1.8, b=0.65, epsilon=0.1 dan MinPts=5 pada skenario keempat.

 

Abstract

Thesis is a final project that must be completed by students as requirement to obtain a bachelor degree. Search engines used for searching thesis documents stored in libraries or digital storage generally use a simple method by returning documents that contain a snippet of the word or are identical to the keywords, so the obtained documents become less relevant. Search results can be clustered with the purpose of presenting the documents in more detailed way and to ease further searches. In order to cluster the search results of Indonesian language thesis, using the title and abstract of the thesis, BM25 word weighting and DBSCAN clustering were used, a clustering method that considers the document sample density point. The test performed by measuring the clustering results using the average silhouette coefficient on the epsilon and MinPts parameters in the DBSCAN method, as well as k1 and b in the BM25 weighting on 4 different scenarios. The test results show that k1 and b parameters on BM25 weighting is quite affecting the quality of the clustering results using DBSCAN method. The best average silhouette coefficient results for each scenario sequentially are 0.722, 0.762, 0.945 and 0.907 by using the best parameters in the form of k1=1.8, b=0.5, epsilon=0.1 and MinPts=5 in the first scenario. k1=1.9, b=0.5, epsilon=0.1 and MinPts=5 in the second scenario. k1=1.4, b=0.55, epsilon=0.1 and MinPts=5 in the third scenario and k1=1.8, b=0.65, epsilon=0.1 and MinPts=5 in the fourth scenario

Downloads

Download data is not yet available.

Referensi

AYU, P. D. W., 2015. Perbandingan Kinerja Fuzzy C-Means dan DBSCAN Dalam Segmentasi Citra USG Kepala Janin. Jurnal Sistem dan Informatika, 9(2), pp. 79-85.

B, D. W. & HETAMI, A., 2015. Perancangan Information Retrieval (IR) Untuk Pencarian Ide Pokok Teks Artikel Berbahasa Inggris dengn Pembobotan Vector Space Model. Jurnal Ilmiah Teknologi Informasi Asia, 9(1), pp. 53-59.

BIRANT, D. & KUT, A., 2007. ST-DBSCAN: An algorithm for clustering spatial–temporal data. Data & Knowledge Engineering, 60(1), pp. 208-221.

DEVI, N. M. A. S., PUTRA, I. K. G. D. & SUKARSA, I. M., 2015. Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan. Lontar Komputer, 6(3), pp. 185-191.

GHAWI, R. & PFEFFER, J., 2019. Efficient Hyperparameter Tuning with Grid Search for Text Categorization using KNN Approach with BM25 Similarity. Open Computer Science, 9(1), pp. 160-180.

HADI, S., 2017. Pemeriksaan Keabsahan data penelitian kualitatif pada skripsi. Jurnal Ilmu Pendidikan, 22(1), pp. 74-79.

HASANAH, N., 2017. Sistem Pencarian Skripsi Berbasis Information Retrieval di FASTIKOM UNSIQ. Jurnal Penelitian dan Pengabdian Kepada Masyarakat UNSIQ, 4(1), pp. 105-113.

HERMAWAN, L. & ISMIATI, M. B., 2020. Pembelajaran Text Preprocessing berbasis Simulator Untuk Mata Kuliah Information Retrieval. Jurnal Transformatika, 17(2), pp. 188-199.

HESAY, I. K., INDRIATI & ADINUGROHO, S., 2021. Analisis Sentimen Ulasan Pengunjung Simpang Lima Gumul Kediri menggunakan Metode BM25 dan Neighbor-Weighted K-Nearest Neighbor. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 5(7), pp. 3160-3169.

IŞIK, M. & DAĞ, H., 2020. The impact of text preprocessing on the prediction of review ratings. Turkish Journal of Electrical Engineering and Computer Sciences, 28(3), pp. 1405-1421.

ISNARWATY, D. P. & IRHAMAH, 2019. Text Clustering pada Akun TWITTER Layanan Ekspedisi JNE, J&T, dan Pos Indonesia Menggunakan Metode Density-Based Spatial Clustering of Applications with Noise (DBSCAN) dan K-Means. Jurnal Sains dan Seni ITS, 8(2), pp. D137-D144.

JAMBAK, M. I. & EFENDI, R., 2021. Pengaruh Reduksi Dimensi Terhadap Metode Pengklasteran Berbasis Centroid dan Metode Pengklasteran Berbasis Density Dalam Pengklasteran Dokumen Teks. Indonesian Journal of Business Intelligence (IJUBI), 4(2), pp. 53-62.

KARAMI, A. & JOHANSSON, R., 2014. Choosing DBSCAN Parameters Automatically using Differential Evolution. International Journal of Computer Applications, 91(7), pp. 1-11.

NISHOM, M., 2019. Perbandingan Akurasi Euclidean Distance, Minkowski Distance, dan Manhattan Distance pada Algoritma K-Means Clustering berbasis Chi-Square. Jurnal Informatika: Jurnal Pengembangan IT (JPIT), 4(1), pp. 20-24.

PRAMUDITA, W., TOMASOUW, B. P., LELEURY, Z. A. & RIJOLY, M. E., 2021. Perancangan Sistem Deteksi Plagiarisme Skripsi (Judul Dan Abstrak) Berbasis Matlab Menggunakan Algoritma Winnowing. Tensor: Pure and Applied Mathematics Journal, 2(2), pp. 67-76.

PRIANDONO, I. R., HAKIMAH, M. & ROZI, N. F., 2020. Implementasi Vector Space Model Dengan Pembobotan Berbasis Kelas Pada Mesin Pencari Dokumen Skripsi. Jurnal Informatika: Jurnal pengembangan IT (JPIT), 5(2), pp. 54-58.

RACHMAN, D. A. C., GOEJANTORO, R. & AMIJAYA, F. D. T., 2020. Implementasi Text Mining Pengelompokkan Dokumen Skripsi Menggunakan Metode K-Means Clustering. Jurnal EKSPONENSIAL, 11(2), pp. 167-174.

RAMADHANA, CUT, B. & HUSNA, J., 2019. Rancangan Bangun Sistem E-Repository Skripsi Mahasiswa Berbasis Qr (Quick Response) Code. Kandidat: Jurnal Riset dan Inovasi Pendidikan, 1(1), pp. 9-14.

ROBERTSON, S. & ZARAGOZA, H., 2009. The Probabilistic Relevance Framework: BM25 and Beyond. [pdf] City University of London Staff Personal Pages. Tersedia di: <https://www.staff.city.ac.uk/~sbrp622/papers/foundations_bm25_review.pdf> [Diakses 17 November 2022]

SAKARIANA, M. I. D., INDRIATI & DEWI, C., 2020. Analisis Sentimen Pemindahan Ibu Kota Indonesia Dengan Pembobotan Term BM25 Dan Klasifikasi Neighbor Weighted K-Nearest Neighbor. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 4(3), pp. 748-755.

SARI, H., GINTING, G. L., ZEBUA, T. & MESRAN, 2021. Penerapan Algoritma Text Mining dan TF-IDF Untuk Pengelompokan Topik Skripsi Pada Aplikasi Repository STMIK Budi Darma. TIN: Terapan Informatika Nusantara, 2(7), pp. 414-432.

SIMANJUNTAK, K. P. & KHAIRA, U., 2021. Pengelompokkan Titik Api di Provinsi Jambi dengan Algoritma Agglomerative Hierarchical Clustering. MALCOM: Indonesian Journal of Machine Learning and Computer Science, 1(1), pp. 7-16.

STRUYF, A., HUBERT, M. & ROUSSEEUW, P. J., 1997. Clustering in an Object-Oriented Environment. Journal of Statistical Software, 1(4), pp. 1-30.

SUGIYAMTO, SURARSO, B. & SUGIHARTO, A., 2014. Analisa Performa Metode Cosine dan Jacard Pada Pengujian Kesamaan Dokumen. Jurnal Masyarakat Informatika, 5(10), pp. 1-8.

SUHARDI, ET AL., 2021. Implementasi Information Retrieval System untuk Klasifikasi Berita Offline di Indonesia Menggunakan Metode Extended Boolean. CERMIN: Jurnal Penelitian, 5(1), pp. 124-137.

TINEGA, G. A., MWANGI, W. & RIMIRU, R., 2018. Text Mining in Digital Libraries using OKAPI BM25 Model. International Journal of Computer Applications Technology and Research, 7(10), pp. 398-406.

ZHANG, J., GAO, J., ZHOU, M. & WANG, J., 2001. Improving the Effectiveness of Information Retrieval with Clustering and Fusion. Computational Linguistics and Chinese Language Processing, 6(1), pp. 109-125

Diterbitkan

30-08-2023

Terbitan

Bagian

Ilmu Komputer

Cara Mengutip

Pengelompokan Hasil Pencarian Skripsi Berbahasa Indonesia Menggunakan Metode DBSCAN dengan Pembobotan BM25. (2023). Jurnal Teknologi Informasi Dan Ilmu Komputer, 10(4), 781-790. https://doi.org/10.25126/jtiik.20241046899