Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer
DOI:
https://doi.org/10.25126/jtiik.2023106736Abstrak
Hadis adalah sumber ajaran Islam kedua setelah al-Qur’an. Kedudukannya yakni setelah Al-Qur’an, sebelum Ijma’ dan Qiyas. Saat ini hadis sudah dapat diakses melalui berbagai platform digital, tetapi fitur pencarian yang disediakan masih sebatas data retrieval di mana hasil pencarian hanya didasarkan pada keyword pencarian tanpa memperhitungkan relevansi antara keyword dengan dokumen hasil pencarian. Penelitian ini bertujuan membangun aplikasi pencarian hadis yang dapat digunakan untuk menemukan hasil pencarian yang relevan dengan keyword pencarian. Aplikasi pencarian dibangun menggunakan metode Information Retrieval antara lain Vector Space Model (VSM) dan Term Frequency – Invers Document Frequency (TF-IDF) untuk membangun ruang vektor dan pembobotan term, dan stemming menggunakan algoritma Confix-Stripping Stemmer (CS Stemmer). Selain itu, teknik pre-processing diterapkan menggunakan stopwords removal, dan pengukuran similarity menggunakan Inner Product Similarity Measurement. Penelitian ini menggunakan 162 dokumen hadis dari kitab Bulughul Marom. Dari sejumlah 6006 kata dalam dokumen, stopwords removal berhasil menghapus total 92 stopwords. Pengujian CS Stemmer terhadap 673 kosakata unik dalam dokumen, berhasil dilakukan dengan benar kepada 579 kata unik. Tingkat keberhasilan CS Stemmer adalah sebesar 78.6%. Matrix of words yang terbentuk dari VSM dan TF-IDF adalah matrik dengan ordo 673x 162. Pengujian aplikasi pencarian hadis dilakukan dengan memasukkan keyword yang berbeda ke dalam form pencarian. Hasil pengujian menunjukkan adanya relevansi antara keyword dengan dokumen hasil pencarian. Yakni dokumen dengan nilai inner product tertinggi adalah dokumen paling relevan dengan keyword pencarian. Semakin banyak kata yang muncul dalam dokumen, dan sesuai dengan keyword pencarian maka nilai relevansinya semakin tinggi.
Abstract
Hadith is the second source of Islamic teachings after the Al-Qur'an. Its position is after the Qur'an, before Ijma 'and Qiyas. At present, the hadiths can be accessed through various digital platforms. But the search features are still limited to data retrieval, where search results are only based on search keywords without considering the relevance between the keywords and the search results document. This study aims to build a hadith search application that can be used to find search results relevant to the search keywords. The search application was created using the Information Retrieval method. Including Vector Space Model (VSM) and Term Frequency – Inverse Document Frequency (TF-IDF) to create vector space and term weighting and stemming using the Confix-Stripping Stemmer (CS Stemmer) algorithm. In addition, pre-processing techniques use stopwords removal, and similarity measurements use Inner Product Similarity Measurement. This study used 162 hadith documents from the Bulughul Marom book. Of the 6006 words in the document, stopword removal succeeded in removing 92 stopwords. The CS Stemmer test for 673 unique vocabularies in the document was successfully carried out correctly for 579 unique words. The CS Stemmer success rate is 78.6%. The matrix of words formed from VSM and TF-IDF is a matrix of the order 673x 162. The hadith search application is tested by entering different keywords in the search form. The test results show relevance between keywords and search results documents. That is, the document with the highest inner product value is the document most relevant to the search keyword—the more words that appear in the document and keyword, the higher the relevance value.
Downloads
Referensi
ADAWIYAH, R., dan RULDEVIYANI, Y., 2020. Evaluasi Maturity Level Pada Data Operations Management Menggunakan Capability Maturity Model Integration (CMMI): Studi Kasus Lembaga Penelaah Transaksi Keuangan. Masyarakat Telematika Dan Informasi : Jurnal Penelitian Teknologi Informasi Dan Komunikasi, 11(1), 29.
https://doi.org/10.17933/mti.v11i1.168
ASIH, S. N., FITRIANI, W. R., NABILA, R., HIDAYANTO, A. N., ISMED, I. H., & YUDHOATMOJO, S. B. 2019. Evaluation of Data Operations Management Maturity Level using CMMI in a State-Owned Enterprise. 2019 5th International Conference on Computing Engineering and Design (ICCED).
ATRINAWATI, L. H., RAMADHANI, E., FIQAR, T. P., WIRANTI, Y. T., ABDULLAH, A. I. N. F., SAPUTRA, H. M. J., & TANDIRAU, D. B. 2021.
Assessment of Process Capability Level in University XYZ Based on COBIT 2019. Journal of Physics: Conference Series, 1803(1). https://doi.org/10.1088/1742-6596/1803/1/012033
Badan Pusat Statistik. Retrieved November 26, 2021, from https://www.bps.go.id/indikator/indikator/view_data_pub/0000/api_pub/UFpWMmJZOVZlZTJnc1pXaHhDV1hPQT09/da_01/1
CHAUDHARY, M., & CHOPRA, A., 2017. CMMI for Development. In CMMI for Development. Apress. https://doi.org/10.1007/978-1-4842-2529-5
CMMI Institute - CMMI Levels of Capability and Performance. Retrieved December 24, 2021, from https://stage.cmmiinstitute.com/learning/appraisals/levels
DAMA. (2017). DAMA-DMBOK Data Management Body of Knowledge.
ISACA. (2018a). COBIT® 2019 Framework : introduction and methodology.
ISACA. (2018b). Governance and Management JELITA, A., 2007. Effective Technique for Indonesian Text Retrieval. Tesis, tidak diterbitkan. Australia : School of Computer Science and Information Technology, Science, Engineering, and Technology Portfolio, RMIT University
FATTA, H., 2007. Analisis dan Perancangan Sistem Informasi untuk Keunggulan Bersaing Perusahaan dan Organisasi Modern. Yogyakarta : Andi.
NIE, J., 2010. Cross-Language Information Retrieval. Toronto : Morgan & Claypool Publishers
ZHANG, J., 2008. Visualization for Information Retrieval. Heidelberg : Springer.
IRWANSYAH, E., & V. MONTIAGA, J., 2014. Pengantar Teknologi Informasi. Yogyakarta : Deepublish.
JIMMY L GAOL, CHR., 2008. Sistem Informasi Manajemen Pemahaman dan Aplikasi. Jakarta : Grasindo.
ADRIANI, M., ASIAN, J., NAZIEF, B., TAHAGHOGHI, S.M. AND WILLIAMS, H.E., 2007. Stemming Indonesian: A confix-stripping approach. ACM Transactions on Asian Language Information Processing (TALIP), 6(4), pp.1-33.
JELITA, A., WILLIAMS, H., TAHAGHOGHI, S.M.M., 2007. Stemming Indonesian. School of Computer Science and Information Technology
RMIT University, GPO Box 2476V, Melbourne 3001, Australia
PRATAMA, S.E., DARMALAKSANA, W., MAYLAWATI, D.S.A., SUGILAR, H., MANTORO, T. AND RAMDHANI, M.A., 2020. Weighted inverse document frequency and vector space model for hadith search engine. Indones. J. Electr. Eng. Comput. Sci, 18(2), pp.1004-1014.
KADHIM, A.I., 2019. Term weighting for feature extraction on Twitter: A comparison between BM25 and TF-IDF. In 2019 international conference on advanced science and engineering (ICOASE) (pp. 124-128). IEEE.
NURDIN, A., SHODIK, A.F., 2019. Studi Hadis Teori dan Aplikasi. Bantul: Ladang Kata.
UMAM, K. AND NEGARA, Y.D.P., 2022. Design And Implementation Search Engine Using Method VSM (Vector Space Model).
International Journal of Science, Engineering and Information Technology, 7(1), pp.341-347.
SHAHMIRZADI, O., LUGOWSKI, A. AND YOUNGE, K., 2019, December. Text similarity in vector space models: a comparative study. In 2019 18th IEEE international conference on machine learning and applications (ICMLA) (pp. 659-666). IEEE.
PRADANA, A.W. AND HAYATY, M., 2019. The effect of stemming and removal of stopwords on the accuracy of sentiment analysis on indonesian-language texts. Kinetik: Game Technology, Information System, Computer Network, Computing, Electronics, and Control, pp.375-380.
JALILIFARD, A., CARIDÁ, V.F., MANSANO, A.F., CRISTO, R.S., DA FONSECA, F.P.C., 2021. Semantic Sensitive TF-IDF to Determine Word Relevance in Documents. In: Thampi, S.M., Gelenbe, E., Atiquzzaman, M., Chaudhary, V., Li, KC. (eds) Advances in Computing and Network Communications. Lecture Notes in Electrical Engineering, vol 736. Springer, Singapore.
TRIPATHY, A., AGRAWAL, A. AND RATH, S.K., 2016. Classification of sentiment reviews using n-gram machine learning approach. Expert Systems with Applications, 57, pp.117-126.
RIZKI, A.S., TJAHYANTO, A. AND TRIALIH, R., 2019. Comparison of stemming algorithms on Indonesian text processing. TELKOMNIKA (Telecommunication Computing Electronics and Control), 17(1), pp.95-102.
AL GHOFARI, K., ROZI, N.F., SELMAKARAMY, L. AND ARIANSYAH, F.Y., 2021, June. Pembuatan Sistem Pencarian Hadis dengan menggunakan Metode Pembobotan TF-IDF. In Prosiding Seminar Nasional Teknik Elektro, Sistem Informasi, dan Teknik Informatika (SNESTIK) (Vol. 1, No. 1, pp. 207-212).
UMMAH, S.S., 2019. Digitalisasi Hadis (Studi Hadis Di Era Digital). Diroyah: Jurnal Studi Ilmu Hadis, 4(1).
WIGUNA, G.S., 2022. Pembuatan Bot Telegram Untuk Layanan Pencarian Hadis Riwayat Sahih Bukhari. Jurnal Informatika Terpadu, 8(2), pp.109-116.
AGRA, A., 2021. Analisis Vector Space Model (VSM) TF-IDF dengan Linear Search dan ORM Django pada pencarian data hadis (Doctoral dissertation, UIN Sunan Gunung Djati Bandung).
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi

Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).