Evaluasi Daftar Stopword Bahasa Indonesia

Penulis

Faisal Rahutomo, Ariadi Retno Tri Hayati Ririd

Abstrak

Pada sistem temu kembali informasi berbentuk teks maupun text mining, terdapat proses pengindeksan. Teks diproses dengan tujuan mengintisarikan informasi berbentuk teks tersebut. Salah satu proses yang dilakukan adalah stopword filtering,  beberapa kata yang tidak layak diindeks diabaikan berdasar sebuah daftar. Di dalam sistem berbahasa Indonesia, terdapat beberapa versi daftar stopword yang tersedia bebas. Penelitian ini bertujuan mengevaluasi daftar yang telah tersedia tersebut. Tujuan akhir dari penelitian ini adalah telaah daftar yang tersedia berdasarkan tata bahasa Indonesia, cara penyusunan, dan kebiasaan perambah internet. Dari hasil telaah diperoleh fakta bahwa daftar yang tersedia dibangun dengan analisis frekuensi kemunculan kata pada sebuah korpus (corpus) teks, tanpa memperhatikan jenis kata ataupun kebiasaan pengguna internet. Hasil lain penelitian ini  adalah beberapa rekomendasi lebih lanjut bagi para peneliti di bidang ini ketika membutuhkan daftar stopword bahasa Indonesia, yaitu daftar yang memperhatikan jenis kata dan kebiasaan pengguna internet melalui mesin perambah yang tersedia.

Abstract

Most of text-based information retrieval system uses indexing process. The system processes the texts in order to obtain the information essence. One of the process is stopword filtering, several words are being ignored based on a stopword list. Several Indonesian stopword list are available openly. Therefore, this paper evaluates the available lists based on Indonesian formal grammar, its preparation technique, and internet surfer habit. The results show all of the list are developed by term frequency analysis based on a text corpus. This paper also provides several recommendations for researcher both in text mining and text-based information retrieval field, developing stoplist by the word type and internet surfer habit.

Teks Lengkap:

PDF

Referensi


ALWI, H., DARDJOWIDJOJO, S., LAPOLIWA, H., & MOELIONO, A. M., 2010. Tata Bahasa Baku Bahasa Indonesia (3rd ed.). Jakarta: Pusat Bahasa dan Balai Pustaka.

BAEZA-YATES, R., & RIBEIRO-NETO, B., 2008. Modern Information Retrieval: The Concepts and Technology Behind Search (2nd ed.). USA: Addison-Wesley Publishing Company.

BAHASA, P., 2008. Kamus Tesaurus Bahasa Indonesia. Departemen Pendidikan Nasional.

DOYLE, D., tanpa tahun. Indonesian Stopword. https://www.ranks.nl/stopwords/indonesian

FLOOD, B. J., 1999. Historical Note: The Start of a Stop List at Biological Abstracts. JASIS, 50(12), 1066.

FOX, C., 1992. Information Retrieval. In W. B. Frakes & R. Baeza-Yates (Eds.) (pp. 102–130). Upper Saddle River, NJ, USA: Prentice-Hall, Inc.

HAMIZAN, Y., 2015. Pedoman Umum Ejaan Bahasa Indonesia yang Disempurnakan dan Intisari Kata Bahasa Indonesia (1st ed.). Seruni Multi Aksara.

LUHN, H. P., 1959. Key word-in-context index for technical literature (kwic index). American Documentation, 11(4), 288–295.

MANNING, C. D., RAGHAVAN, P., & SCHÜTZE, H., 2008. Introduction to Information Retrieval. New York, NY, USA: Cambridge University Press.

SALTON, G., & BUCKLEY, C., 1988. Term-weighting approaches in automatic text retrieval. Inf. Process. Manage., 24(5), 513–523.

SALTON, G., WONG, A., & YANG, C. S., 1975. A Vector Space Model for Automatic Indexing. Commun. ACM, 18(11), 613–620.

WIBISONO, Y., 2008. Indonesian Stopword. https://yudiwbs.wordpress.com/2008/07/23/stop-words-untuk-bahasa-indonesia/

Z TALA, F., 2003. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia.

ZIPF, H., 1949. Human Behaviours and the Principle of Least Effort. Cambridge, MA: Addison- Wesley.




DOI: http://dx.doi.org/10.25126/jtiik.2019611226