Evaluasi Daftar Stopword Bahasa Indonesia
DOI:
https://doi.org/10.25126/jtiik.2019611226Abstrak
Pada sistem temu kembali informasi berbentuk teks maupun text mining, terdapat proses pengindeksan. Teks diproses dengan tujuan mengintisarikan informasi berbentuk teks tersebut. Salah satu proses yang dilakukan adalah stopword filtering, beberapa kata yang tidak layak diindeks diabaikan berdasar sebuah daftar. Di dalam sistem berbahasa Indonesia, terdapat beberapa versi daftar stopword yang tersedia bebas. Penelitian ini bertujuan mengevaluasi daftar yang telah tersedia tersebut. Tujuan akhir dari penelitian ini adalah telaah daftar yang tersedia berdasarkan tata bahasa Indonesia, cara penyusunan, dan kebiasaan perambah internet. Dari hasil telaah diperoleh fakta bahwa daftar yang tersedia dibangun dengan analisis frekuensi kemunculan kata pada sebuah korpus (corpus) teks, tanpa memperhatikan jenis kata ataupun kebiasaan pengguna internet. Hasil lain penelitian ini adalah beberapa rekomendasi lebih lanjut bagi para peneliti di bidang ini ketika membutuhkan daftar stopword bahasa Indonesia, yaitu daftar yang memperhatikan jenis kata dan kebiasaan pengguna internet melalui mesin perambah yang tersedia.
Abstract
Most of text-based information retrieval system uses indexing process. The system processes the texts in order to obtain the information essence. One of the process is stopword filtering, several words are being ignored based on a stopword list. Several Indonesian stopword list are available openly. Therefore, this paper evaluates the available lists based on Indonesian formal grammar, its preparation technique, and internet surfer habit. The results show all of the list are developed by term frequency analysis based on a text corpus. This paper also provides several recommendations for researcher both in text mining and text-based information retrieval field, developing stoplist by the word type and internet surfer habit.
Unduhan
Referensi
ALWI, H., DARDJOWIDJOJO, S., LAPOLIWA, H., & MOELIONO, A. M., 2010. Tata Bahasa Baku Bahasa Indonesia (3rd ed.). Jakarta: Pusat Bahasa dan Balai Pustaka.
BAEZA-YATES, R., & RIBEIRO-NETO, B., 2008. Modern Information Retrieval: The Concepts and Technology Behind Search (2nd ed.). USA: Addison-Wesley Publishing Company.
BAHASA, P., 2008. Kamus Tesaurus Bahasa Indonesia. Departemen Pendidikan Nasional.
DOYLE, D., tanpa tahun. Indonesian Stopword. https://www.ranks.nl/stopwords/indonesian
FLOOD, B. J., 1999. Historical Note: The Start of a Stop List at Biological Abstracts. JASIS, 50(12), 1066.
FOX, C., 1992. Information Retrieval. In W. B. Frakes & R. Baeza-Yates (Eds.) (pp. 102–130). Upper Saddle River, NJ, USA: Prentice-Hall, Inc.
HAMIZAN, Y., 2015. Pedoman Umum Ejaan Bahasa Indonesia yang Disempurnakan dan Intisari Kata Bahasa Indonesia (1st ed.). Seruni Multi Aksara.
LUHN, H. P., 1959. Key word-in-context index for technical literature (kwic index). American Documentation, 11(4), 288–295.
MANNING, C. D., RAGHAVAN, P., & SCHÜTZE, H., 2008. Introduction to Information Retrieval. New York, NY, USA: Cambridge University Press.
SALTON, G., & BUCKLEY, C., 1988. Term-weighting approaches in automatic text retrieval. Inf. Process. Manage., 24(5), 513–523.
SALTON, G., WONG, A., & YANG, C. S., 1975. A Vector Space Model for Automatic Indexing. Commun. ACM, 18(11), 613–620.
WIBISONO, Y., 2008. Indonesian Stopword. https://yudiwbs.wordpress.com/2008/07/23/stop-words-untuk-bahasa-indonesia/
Z TALA, F., 2003. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia.
ZIPF, H., 1949. Human Behaviours and the Principle of Least Effort. Cambridge, MA: Addison- Wesley.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi

Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).