Algoritma Jaro-Winkler Distance: Fitur Autocorrect dan Spelling Suggestion pada Penulisan Naskah Bahasa Indonesia di BMS TV

Penulis

Agung Prasetyo, Wiga Maulana Baihaqi, Iqbaluddin Syam Had

Abstrak

Autocorrect adalah suatu sistem yang dapat memeriksa dan memperbaiki kesalahan penulisan kata secara otomatis. Dewasa ini fitur autocorrect memang sering ditemui pada berbagai perangkat dan aplikasi, misalkan pada papan ketik smartphone dan aplikasi misalkan sebut saja Microsoft Word. Sistem autocorrect tersebut langsung mengganti kata yang dianggap salah oleh sistem secara otomatis tanpa memberi tahu pengguna sehingga pengguna seringkali tidak sadar tulisannya berubah sedangkan kata penggantinya tidak selalu benar sesuai dengan yang dimaksud pengguna. Pengetahuan Microsoft Word pada fitur autocorrect-nya berbahasa Inggris sehingga tidak dapat diterapkan pada penulisan naskah berita di BMS TV. Setiap harinya News Director BMS TV memeriksa naskah yang akan diberitakan dimana termasuk diantaranya adalah pemeriksaan ejaan. Dengan fitur autocorrect dan spelling suggestion bahasa Indonesia diharapkan dapat membantu News Director BMS TV untuk memeriksa dan memperbaiki kesalahan penulisan kata secara otomatis serta memberi saran penulisan ejaan kata yang benar dalam bahasa Indonesia. Metode pengembangan perangkat lunak yang digunakan adalah Extreme Programming dan algoritme Jaro-Winkler Distance. Jaro-Winkler adalah algoritme untuk menghitung nilai jarak kedekatan antara dua teks. Hasil dari penelitian ini adalah sebuah sistem yang dapat membantu News Director BMS TV dalam pemeriksaan kesalahan penulisan ejaan kata pada naskah bahasa Indonesia dan mempermudah News Director pusat dalam penghimpunan naskah dari berbagai kontributor BMS TV. Dapat disimpulkan bahwa fitur autocorrect dan spelling suggestion dapat menengani kesalahan penulisan ejaan kata dengan pengujian 60 kata yang terdiri dari berbagai skenario kesalahan penulisan kata fitur ini dapat memperbaiki sepuluh kata secara otomatis dengan benar dan memunculkan saran ejaan kata pada 39 kata dengan tepat.

 

Abstract

Autocorrect is a software system that automatically identifies and correct misspelled words. Nowadays autocorrect feature is often encountered in various devices dan applications, like on the smartphone keyboard dan Microsoft Word application. The autocorrect system instantly replaces the word that is considered wrong by the system automatically without notifying the user so that users are often not aware of writing changes while the replacement word is not always true in accordance with the intended user. The Autocorrect feature of Microsoft Word uses English so it can’t be applied on writing news script in BMS TV. Every day News Director of BMS TV checks the script that would be reported where there is a spell checking included. By using bahasa in autocorrect dan spelling suggestion, it is expected to help News Director BMS TV to check dan fix the misspelled word automatically dan give suggestion for the right words spelling in bahasa. The development software method that is used is Extreme Programming dan Jaro-Winkler Distance algorithm. Jaro-Winkler is an algorithm that is applied to calculate the distance of proximity between two texts. The results of this study is a system that could help News Director BMS TV in identifying  misspelled words on script in bahasa dan to make it easier for News Director center in collecting of manuscripts from various contributors of BMS TV. It can be concluded that the autocorrect dan spelling suggestion features can compound the misspelled words with a 60-word test consisting of various error scenarios. This feature can correct ten words automatically dan show correct spelling suggestion word on 39 words.

Kata Kunci


Autocorrect; Spelling suggestion; Naskah; Bahasa indonesia; Jaro-winkler distance; Stemming

Teks Lengkap:

PDF

Referensi


AGARWAL, M., 2013. Text Steganographic Approaches: A Comparison. International Journal of Network Security & Its Applications (IJNSA), 5(1), pp.91–106.

ALIWY, A.H., 2012. Tokenization as Preprocessing for Arabic Tagging System. International Journal of Information and Education Technology, [online] 2(4), pp.348–353. Tersedia di: [Diakses 10 Juli 2018]

BANERJEE, I., BHATTACHARYYA, S. dan SANYAL, G., 2011. Novel Text Steganography through Special Code Generation. International conference on Systemics, Cybernetics and Informatics, pp.298–303.

BIRD, S., KLEIN, E. dan LOPER, E., 2009. Natural Language Processing with Python. Edition, F ed. [online] Sebastopol: O’Reilly Media. Tersedia di: [Diakses 25 januari 2018]

CHANOD, J.-P. dan TAPANAINEN, P., 1996. A Non-deterministic Tokeniser for Finite-State Parsing. In: 12th European Conference on Artificial Intelligence. John Wiley & Sons, Ltd., pp.1–3.

GUEDDAH, H., YOUSFI, A. dan BELKASMI, M., 2016. The filtered combination of the weighted edit distance and the Jaro-Winkler distance to improve spellchecking Arabic texts. Proceedings of IEEE/ACS International Conference on Computer Systems and Applications, AICCSA, 2016–July, pp.1–6.

HANCOX, P. dan POLATIDIS, N., 2012. Query Matching Evaluation in an Infobot for University Admissions Processing. Symposium on Languages, Applications and Technologies, [online] 21, pp.149–161. Tersedia di: [Diakses 27 Juli 2018]

MADISON, J., 2011. Damn You, Auyocorrect! [online] Ebury Publishing. Tersedia di: .

MUTAMMIMAH; SUJAINI, HERRY; NYOTO, R.D., 2017. Analisis Perbandingan Metode Spelling Corrector Peter Norvig dan Spelling Checker BK-Trees pada Kata Berbahasa Indonesia. Jurnal Sistem dan Teknologi Informasi, 5(1), pp.12–16.

NOAMAN, H.M., SARHAN, S.S. dan RASHWAN, M.A.A., 2018. Enhancing recurrent neural network ‑ based language models by word tokenization. Human-centric Computing and Information Sciences, [online] pp.1–13. Tersedia di: [Diakses 10 Juli 2018]

OMAR, N., 2018. Arabic Nested Noun Compound Extraction Based on Linguistic Features and Statistical Measures. Journal of Language Studies, 18(May), pp.93–107.

PANDYA, S. dan VIRPARIA, P., 2011. Testing Various Similarity Metrics and their Permutations with Clustering Approach in Context Free Data Cleaning. International Journal of Computer Science and …, [online] 3(5), pp.344–350. Tersedia di: [Diakses 27 Juli 2018]

PRAYOGO, A.H., MUBAROK, M.S. dan ADIWIJAYA, 2018. On the structure of Bayesian network for Indonesian text document paraphrase identification. Journal of Physics: Conference Series, 971(1), pp.1–15.

PRESSMAN, R.S., 2010. Software Engineering A Practitioner’s Approach 7th Ed - Roger S. Pressman. Seventh Ed ed. New York: McGraw-Hill.

PRESSMAN, R.S. dan MAXIM, B.R., 2015. Software Engineering: A Practitioner’s Approach. Eighth Edi ed. Mc Graw-Hill Higher Education. New York: Mc Graw-Hill Higher Education.

RAHARDIAN, B.A., KURNIANINGTYAS, D., MAHARDIKA, D.P., MAGHFIRA, T.N. dan CHOLISSODIN, I., 2017. Analisis Judul Majalah Kawanku Menggunakan Clustering K-Means Dengan Konsep Simulasi Big Data Pada Hadoop Multi Node Cluster. Jurnal Teknologi Informasi dan Ilmu Komputer, [online] 4(2), p.75. Tersedia di: [Diakses 24 Maret 2018]

ROCHMAWATI, Y. dan KUSUMANINGRUM, R., 2016. Studi Perbandingan Algoritma Pencarian String dalam Metode Approximate String Matching untuk Identifikasi Kesalahan Pengetikan Teks. Jurnal Buana Informatika, [online] 7(2), pp.125–134. Tersedia di: [Diakses 24 maret 2018]

SURYANINGRUM, K.M. dan T, A., 2016. Pengkoreksian dan Suggestion Word pada Keyword Menggunakan Algoritma Jaro-Winkler. Jurnal Teknologi Informasi-AITI, 13(2), pp.169–181.

WIDIANINGSIH, R.K., 2014. PADA BUKU TEKS MATA PELAJARAN BAHASA INDONESIA. Universitas Negeri Yogyakarta.

WINKLER, W.E., 1999. The state of record linkage and current research problems. Technical report, Statistical Research Division, U.S. Bureau of the Census.




DOI: http://dx.doi.org/10.25126/jtiik.201854780