POS Tagging Bahasa Madura dengan Menggunakan Algoritma Brill Tagger

Penulis

  • Nindian Puspa Dewi Universitas Madura
  • Ubaidi Ubaidi Universitas Madura

DOI:

https://doi.org/10.25126/jtiik.2020722449

Abstrak

Bahasa Madura adalah bahasa daerah yang selain digunakan di Pulau Madura juga digunakan di daerah lainnya seperti di kota Jember, Pasuruan, dan Probolinggo. Sebagai bahasa daerah, Bahasa Madura mulai banyak ditinggalkan khususnya di kalangan anak muda. Beberapa penyebabnya adalah adanya rasa gengsi dan tingkat kesulitan untuk mempelajari Bahasa Madura yang memiliki ragam dialek dan tingkat bahasa. Berkurangnya penggunaan Bahasa Madura dapat mengakibatkan punahnya Bahasa Madura sebagai salah satu bahasa daerah yang ada di Indonesia. Oleh karena itu, perlu adanya usaha untuk mempertahankan dan memelihara Bahasa Madura. Salah satunya adalah dengan melakukan penelitian tentang Bahasa Madura dalam bidang Natural Language Processing sehingga kedepannya pembelajaran tentang Bahasa Madura dapat dilakukan melalui media digital. Part Of Speech (POS) Tagging adalah dasar penelitian text processing, sehingga perlu untuk dibuat aplikasi POS Tagging Bahasa Madura untuk digunakan pada penelitian Natural Languange Processing lainnya. Dalam penelitian ini, POS Tagging dibuat dengan menggunakan Algoritma Brill Tagger dengan menggunakan corpus yang berisi 10.535 kata Bahasa Madura. POS Tagging dengan Brill Tagger dapat memberikan kelas kata yang sesuai pada kata dengan menggunakan aturan leksikal dan kontekstual.  Brill Tagger merupakan algoritma dengan tingkat akurasi yang paling baik saat diterapkan dalam Bahasa Inggris, Bahasa Indonesia dan beberapa bahasa lainnya. Dari serangkaian percobaan dengan beberapa perubahan nilai threshold tanpa memperhatikan OOV (Out Of Vocabulary), menunjukkan rata-rata akurasi mencapai lebih dari 80% dengan akurasi tertinggi mencapai 86.67% dan untuk pengujian dengan memperhatikan OOV mencapai rata-rata akurasi 67.74%. Jadi dapat disimpulkan bahwa Brill Tagger dapat digunakan untuk Bahasa Madura dengan tingkat akurasi yang baik.

 

Abstract 

Bahasa Madura is regional language which is not only used on Madura Island but is also used in other areas such as in several regions in Jember, Pasuruan, and Probolinggo. Today, Bahasa Madura began to be abandoned, especially among young people. One reason is sense of pride and also quite difficult to learn Bahasa Madura because it has a variety of dialects and language levels. The reduced use of Bahasa Madura can lead to the extinction of Bahasa Madura as one of the regional languages in Indonesia. Therefore, there needs to be an effort to maintain Madurese Language. One of them is by conducting research on Madurese Language in the field of Natural Language Processing so that in the future learning about Madurese can be done through digital media. Part of Speech (POS) Tagging is the basis of text processing research, so the Madura Language POS Tagging application needs to be made for use in other Natural Language Processing research. This study uses Brill Tagger by using a corpus containing 10,535 words. POS Tagging with Brill Tagger Algorithm can provide the appropriate word class to word using lexical and contextual rule. The reason for using Brill Tagger is because it is the algorithm that has the best accuracy when implemented in English, Indonesian and several other languages. The experimental results with Brill Tagger show that the average accuracy without OOV (Out Of Vocabulary) obtained is 86.6% with the highest accuracy of 86.94% and the average accuracy for OOV words reached 67.22%. So it can be concluded that the Brill Tagger Algorithm can also be used for Bahasa Madura with a good degree of accuracy.

Downloads

Download data is not yet available.

Biografi Penulis

  • Nindian Puspa Dewi, Universitas Madura
    Program Studi Informatika Fakultas Teknik
  • Ubaidi Ubaidi, Universitas Madura
    Program Studi Informatika Fakultas Teknik

Referensi

AYANA, A.G. 2015. Improving Brill’s Tagger Lexical and Transformation Rule for Afaan Oromo Language. PeerJ PrePrints, pp.1-11.

BRILL, E., 1992. A simple rule-based part of speech tagger. Proc. third Conf. Appl. Nat. Lang. Process, pp. 152.

CHAER, A. 2007. Linguistik Umum. Jakarta: Rineka Cipta.

CHRISTANTI, V., J. PRAGANTHA, E. PURNAMASARI. 2012. Implementasi Brill Tagger untuk memberikan POS-Tagging pada Dokumen Bahasa Indonesia. Jurnal Teknik dan Ilmu Komputer, 1(3), pp. 301–315.

DEWI, N.P., UBAIDI, 2018. Lexical Rule dan Pengaruh Penggunaan Lexicon Pada Pos Tagging Bahasa Madura. Jurnal Matrik, 18(1) pp.69-70.

DINAKARAMANI, A., RASHEL, F., LUTHFI,A., MANURUNG, R. 2014.

Designing an Indonesian Part of speech Tagset and Manually Tagged Indonesian Corpus. International Conference on Asian Language Processing (IALP), 20-22 Oktober 2014,pp. 66-69.

HALIM, A. 1976. Politik Bahasa Nasional 1 dan 2. Jakarta: Aneka Ilmu.

HASAN, F.M., UZZAMAN, N., KHAN, M. 2007. Comparison of different POS Tagging Techniques (N-Gram, HMM and Brill’s tagger) for Bangla. Advances and Innovations in Systems, Computing Sciences and Software Engineering, pp.121-126.

KRIDALAKSANA, H. 2001. Kamus Linguistik, Jakarta: Gramedia.

MANNING, C. D., HINRICH S. 1999. Foundation of Statistical Natural Language Processing. Cambridge: MIT Press Textbook on statistical and probabilistic methods in NLP.

MEGYESI, B. 1998. Brill’s Rule-Based PoS Tagger for Hungarian. Master's Degree Thesis in Computational Linguistics. Department of Linguistics, Stockholm University, Sweden.

MULYADI. 2014. Pemakaian Bahasa Madura Di Kalangan Remaja. Okara, Vol.2, pp.45-68.

PISCELDO, F., ADRIANI, M., MANURUNG, R. 2009. Probabilistic Part Of Speech Tagging for Bahasa Indonesia. Third International MALINDO Workshop.

PURWO, B.K. 2000. Bangkitnya Kebhinekaan Dunia Linguistik dan Pendidikan. Jakarta: Mega Media Abadi.

SETYANINGSIH, E.R. 2017. Penetapan Tagset dan Modifikasi Brill Tagger untuk Part-of Speech Bahasa Indonesia. Dinamika Teknologi, 9(1), pp.37-42.

SOFYAN, A. 2017. Tata Bahasa Bahasa Madura. Sidoarjo: Bahasa Surabaya.

SRIYATI, N.P.M. 2016. Part-Of-Speech Tagging Untuk Dokumen Bahasa Bali Menggunakan Algoritma Brill Tagger: Fakultas Matematika dan Ilmu Pengetahuan Alam. Tugas Akhir. Universitas Udayana.

WIDHIYANTI, K., HARJOKO, A. 2012. POS Tagging Bahasa Indonesia Dengan HMM dan Rule Based. Jurnal Informatika, 8(2), pp.151-167.

YUWANA, R.S., YULIANI, A.R., PARDEDE,H.F. 2017. On Part of Speech Tagger for Indonesian Language. International conferences on Information Technology, Information Systems and Electrical Engineering (ICITISEE), 1-2 Nopember 2017, pp. 369-372.

Diterbitkan

02-12-2020

Terbitan

Bagian

Ilmu Komputer

Cara Mengutip

POS Tagging Bahasa Madura dengan Menggunakan Algoritma Brill Tagger. (2020). Jurnal Teknologi Informasi Dan Ilmu Komputer, 7(6), 1121-1128. https://doi.org/10.25126/jtiik.2020722449