Peringkasan Artikel Berbahasa Indonesia Menggunakan TextRank dengan Pembobotan BM25

Penulis

Yurdha Fadhila Hernawan, Putra Pandu Adikara, Randy Cahya Wihandika

Abstrak

Penggunaan internet sebagai sumber informasi telah membawa manusia pada era one click away. Apa pun bisa diakses di mana pun kapan pun, baik secara visual maupun tidak. Namun, tidak semua informasi yang diakses selalu sesuai dengan konteks yang diinginkan. Untuk memudahkan pengguna internet dalam mendapatkan informasi yang ringkas dengan tidak merusak atau menghilangkan informasi penting, maka dibutuhkan suatu peringkasan otomatis. Salah satu cara untuk mendapatkan ringkasan pada sebuah dokumen adalah dengan mencari kumpulan kalimat penting pada dokumen yang dapat merepresentasikan dokumen asli secara keseluruhan. Metode peringkasan tersebut disebut juga dengan peringkasan ekstraktif. Pada penelitian ini, peringkasan ekstraktif dilakukan dengan memeringkatkan setiap kalimat pada sebuah dokumen dan mengambil kalimat dengan peringkat teratas sebagai ringkasan. Metode TextRank yang digunakan pada penelitian ini merepresentasikan dokumen sebagai graf, setiap kalimat dianggap sebagai node dan hubungan antara kalimat (node) merupakan nilai similarity antar kalimat. Fungsi similarity yang digunakan adalah BM25 dengan metode pemeringkatan PageRank. Panjang ringkasan yang dihasilkan sistem disesuaikan dengan besar nilai compression rate yang digunakan. Setelah membandingkan hasil ringkasan yang didapatkan sistem peringkasan otomatis dengan hasil ringkasan yang didapatkan dari expert (pakar) sebanyak 10 dokumen, penelitian ini berhasil dilakukan dengan kualitas ringkasan terbaik didapatkan pada saat penggunaan compression rate sebesar 30% dengan nilai rata-rata precision, recall, dan f-measure secara berturut-turut adalah 0,552; 0,552; dan 0,552.

 

Abstract

The use of the internet as a source of information has brought humans to a oneclick era. Anything can be accessed anywhere, visually or not. However, every information accessed is not always match with the context itself. An automatic summarization is needed to help people to get the concise informations without ruin the context and missing the point. One way to get a summarize of the document is to find a collection of important sentences in the document that can represent the original document as a whole. That automatic text summarization method is also called extractive summarize. In this study, extractive summarization is done by checking each sentence in a document and ranking the important sentences. The TextRank method used in this study will represent the document as a graph, each sentence will be considered as a node and the relationship between sentences (nodes) is the value of similarity between sentences. The similarity function used is BM25 with the PageRank as ranking method. The resulting length of the system will be adjusted to the value of the level of compression used. After comparing the summarization result between the automatic system and an expert of 10 documents, this research is successfully carried out with the best quality is obtained when using a compression rate of 30% with an average value of precision, recall, and f-measure is 0.552; 0.552; and 0.552. 

 

Teks Lengkap:

PDF

Referensi


ABBASI-GHALEHTAKI, R., KHOTANLOU, H. dan ESMAEILPOUR, M., 2016. Fuzzy evolutionary cellular learning automata model for text summarization. Swarm and Evolutionary Computation, [online] 30, pp.11–26. Available at: .

ALGULIEV, R. dan ALIGULIYEV, R., 2009. Evolutionary Algorithm for Extractive Text Summarization. 2009(November), pp.128–138.

BARRIOS, F., LÓPEZ, F., ARGERICH, L. dan WACHENCHAUZER, R., 2016. Variations of the Similarity Function of TextRank for Automated Summarization. [online] Available at: .

FANG, C., MU, D., DENG, Z. dan WU, Z., 2017. Word-sentence co-ranking for automatic extractive text summarization. Expert Systems with Applications, [online] 72, pp.189–195. Available at: .

GARG, N., FAVRE, B., REIDHAMMER, K. dan HAKKANI-TÜR, D., 2009. ClusterRank: A graph based method for meeting summarization. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, pp.1499–1502.

MANNING, C.C.; RAGGHAVAN, P.; SCHÜTZE, H., 2009. An Introduction to Information Retrival. Cambridge, England: Cambridge University Press.

MUSSINA, A., AUBAKIROV, S. dan TRIGO, P., 2018. Automatic Document Summarization based on Statistical Information. (Data), pp.71–76.

NIU, J., ZHAO, Q., WANG, L., CHEN, H., ATIQUZZAMAN, M. dan PENG, F., 2016. OnSeS: A novel online short text summarization based on BM25 and neural network. 2016 IEEE Global Communications Conference, GLOBECOM 2016 - Proceedings, pp.1–6.

TARAU, R.M. dan P., 1973. TextRank: Bringing Order into Texts. Comparative Biochemistry and Physiology -- Part B: Biochemistry and, [online] 45(4). Available at: .




DOI: http://dx.doi.org/10.25126/jtiik.2022913765