Optimasi Proses Klasterisasi di MySQL DBMS dengan Mengintegrasikan Algoritme MIC-Kmeans Menggunakan Bahasa SQL dalam Stored Procedure

Penulis

Issa Arwani

Abstrak

Proses klasterisasi data di DBMS akan lebih efisien jika dilakukan langsung di dalam DBMS itu sendiri karena DBMS mendukung untuk pengelolaan data yang baik. SQL-Kmeans merupakan salah satu metode yang sebelumnya telah digunakan untuk mengintegrasikan algoritme klasterisasi K-means ke dalam DBMS menggunakan SQL. Akan tetapi, metode ini juga membawa kelemahan dari algoritme K-means itu sendiri yaitu lamanya iterasi untuk mencapai konvergen dan keakuratan hasil klasterisasi yang belum optimal akibat dari proses inisialisasi centroid awal secara acak. Algoritme Median Initial Centroid (MIC)-Kmeans merupakan pengembangan dari algoritme K-means yang bisa memberikan solusi optimal dalam menentukan awal centroid yang berdampak pada keakuratan dan lamanya iterasi. Dengan keunggulan yang dimiliki algoritme MIC-Kmeans, maka dalam penelitian ini dipilih sebagai alternatif algoritme yang diintegrasikan dalam proses klasterisasi data secara langsung di DBMS menggunakan SQL. Proses integrasinya meliputi 4 tahap yaitu tahap inisialisasi tabel dataset, tahap pemetaan algoritme MIC-Kmeans pada SQL dan tabel dataset, tahap perancangan SQL untuk tiap hasil pemetaan dan tahap implementasi rancangan SQL dalam MySQL stored procedure. Hasil pengujian menunjukkan bahwa metode SQL MIC-Kmeans bisa mengurangi 43% jumlah iterasi dan mengurangi 39% waktu yang dibutuhkan dari metode SQL-Kmeans untuk mencapai konvergen. Selain itu, nilai rata-rata silhouette coefficient metode SQL MIC-Kmeans adalah 0,79 dan masuk dalam kategori strong structure (nilai rentang 0,7 sampai 1). Sedangkan nilai rata-rata silhouette coefficient metode SQL-Kmeans adalah 0,68 dan masuk dalam kategori medium structure (nilai rentang 0,5 sampai 0,7).

Abstract

The process of data clustering in the DBMS will be more efficient because the DBMS supports good data management. SQL-Kmeans is a method that has been used to integrate K-means clustering algorithms into DBMS using SQL. However, it carries the weakness of the K-means algorithm itself in the duration of iterations to reach convergence and the accuracy of clustering due to the centroid initialization process randomly. Median Initial Centroid (MIC)-Kmeans algorithm is a development of the K-means algorithm that can provide the optimal solution in determining the initial centroid which has an impact on the accuracy and duration of iterations. With the advantages of the MIC-Kmeans algorithm, the method was chosen as an alternative algorithm to be integrated in the DBMS using SQL  for a clustering. The integration process includes 4 stages, there are dataset initialization, SQL algorithm mapping and dataset table, SQL design for each mapping result, and implementation SQL in the MySQL stored procedure. The test results show that the SQL MIC-Kmeans method can reduce 43% the number of iterations and reduce 39% of the time required from the SQL-Kmeans method to reach convergence. In addition, the average value of the coefficient SQL MIC-Kmeans method is 0.79 and categorized as strong structure (value ranges from 0.7 to 1). While, the average value of the coefficient SQL-Kmeans method is 0.68 and categorized as medium structure (value ranges from 0.5 to 0.7).

Teks Lengkap:

PDF

Referensi


ARWANI, I., 2015. Integrasi Algoritme K-Means Dengan Bahasa Sql Untuk Klasterisasi Ipk Mahasiswa (Studi Kasus: Fakultas Ilmu Komputer Universitas Brawijaya), 2(2), p. 143-151, Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).

GOVINDA, R., VARAPRASADA, R.,RAMBABU, R., 2018. A Novel Approach in Clustering Algorithm to Evaluate the Performance of Regression Analysis, 42(6), p.143-146, IEEE 8th International Advance Computing Conference (IACC).

ILHAM, A., IBRAHIM, D., 2018. Tackling Initial Centroid of K-Means with Distance Part (DP-KMeans), 42(6), p.185-189, International Symposium on Advanced Intelligent Informatics (SAIN).

KATARA, JUHI, dan NAVEEN C.A., 2015. Modified Version of the K-means Clustering Algorithm, vol. 15, no. 7, Global Journal of Computer Science and Technology.

ORDONEZ, C., GARCÍA, J., 2016. Managing Big Data Analytics Workflows with a Database System, 18(2), p. 649-655, 16th IEEE/ ACM International Symposium on Cluster, Cloud and Grid Computing (CCGrid).

PREMKUMAR, M.S., GANESH, S.H, 2017. A Median Based External Initial Centroid Selection Method for K-Means Clustering, 42(6), p.143-146, Computing and Communication Technologies (WCCCT).

RAHIM, S.M.D., AHMED, T, 2017. An Initial Centroid Selection Method based on Radial and Angular Coordinates for K-means Algorithm, p.22-24, International Conference of Computer and Information Technology (ICCIT).




DOI: http://dx.doi.org/10.25126/jtiik.2020702639