Analisis Judul Majalah Kawanku Menggunakan Clustering K-Means Dengan Konsep Simulasi Big Data Pada Hadoop Multi Node Cluster
Penulis
Brillian Aristyo Rahardian, Diva Kurnianingtyas, Dyan Putri Mahardika, Tusty Nadia Maghfira, Imam Cholissodin Download PDFAbstrak
Abstrak
Saat ini pembaca e-magazine seperti majalah Kawanku semakin marak dan terus berkembang. Sehingga penggunaan data besar sangat dibutuhkan pada majalah Kawanku. Selain itu, dibutuhkan pengkategorian setiap bacaan ke dalam tujuh kategori judul pada majalah Kawanku. Sehingga dibutuhkan suatu pengolahan, pengelompokkan, dan pengkomunikasian antar data teks menggunakan text mining. Kombinasi text mining dengan Big Data dapat menjadi sebuah solusi yang menyediakan cara yang efisien dan reliabel untuk penyimpanan data dan infrastruktur yang efektif. Lalu pengkategorian teks dengan clustering K-Means dirasa cukup meskipun menggunakan data besar karena hasilnya memiliki keakuratan yang tinggi. Dari hasil pengujian yang dilakukan, disimpulkan bahwa perbedaan dari banyaknya data tidak mempengaruhi waktu eksekusi karena perbedaan jumlah data yang digunakan tidak terlalu besar.
Kata kunci: text mining, k-means, hadoop, big data, clustering, multi node cluster
Abstract
Nowadays e-magazine reader like Kawanku magazine are increasing more and more.. So the use of Big Data is needed in managing e-magazine data in server. In addition, it takes the categorization of each reading into 7 categories of Kawanku magazine. So it takes a processing, grouping, and communicating between the text data using text mining. The combination of text mining with Big Data can be a solution that provides an efficient and reliable way for data storage and effective infrastructure. Then the text categorization with K-Means clustering is enough although using Big Data as a result has a high accuracy. From the results of tests performed, it was concluded that the difference of the number of data does not affect the execution time due to differences in the amount of data used is not too big.
Keywords: text mining, k-means, hadoop, big data, clustering, multi node cluster
Teks Lengkap:
PDF (English)Referensi
ÇAKIR, M. U. & GÜLDAMLASIOGLU, S. Text Mining Analysis in Turkish Language Using Big Data Tools. Computer Software and Applications Conference (COMPSAC), 2016 IEEE 40th Annual, 2016. IEEE, 614-618.
HAMMOUDA, K. M. & KAMEL, M. S. Incremental document clustering using cluster similarity histograms. Web Intelligence, 2003. WI 2003. Proceedings. IEEE/WIC International Conference on, 2003. IEEE, 597-601.
HUNG, M.-C., WU, J., CHANG, J.-H. & YANG, D.-L. 2005. An Efficient k-Means Clustering Algorithm Using Simple Partitioning. Journal of Information Science and Engineering, 21, 1157-1177.
HURWITZ, J., NUGENT, A., HALPER, F. & KAUFMAN, M. 2013. Big data for dummies, John Wiley & Sons.
LAROSE, E., YEGHIAZARIANS, Y., LIBBY, P., YUCEL, E. K., AIKAWA, M., KACHER, D. F., AIKAWA, E., KINLAY, S., SCHOEN, F. J. & SELWYN, A. P. 2005. Characterization of human atherosclerotic plaques by intravascular magnetic resonance imaging. Circulation, 112, 2324-2331.
RATHORE, P. & SHUKLA, D. 2015. Analysis And Performance Improvement Of K-Means Clustering In Big Data Environment. Communication Networks (ICCN), 2015 International Conference on, 43-46.
SARKAR, K. 2009. Sentence clustering-based summarization of multiple text documents. International Journal of Computing Science and Communication Technologies, 2, 325-335.
SUJANA, A. P. 2013. Memanfaatkan Big Data Untuk Mendeteksi Emosi. Jurnal Teknik Komputer Unikom-Komputika, 2, 1-4.
VAIDYA, M. 2012. Parallel Processing of cluster by Map Reduce. International journal of distributed and parallel systems, 3, 167.
DOI: http://dx.doi.org/10.25126/jtiik.201742239