Optimasi Proses Klasterisasi di MySQL DBMS dengan Mengintegrasikan Algoritme MIC-Kmeans Menggunakan Bahasa SQL dalam Stored Procedure
DOI:
https://doi.org/10.25126/jtiik.2020702639Abstrak
Proses klasterisasi data di DBMS akan lebih efisien jika dilakukan langsung di dalam DBMS itu sendiri karena DBMS mendukung untuk pengelolaan data yang baik. SQL-Kmeans merupakan salah satu metode yang sebelumnya telah digunakan untuk mengintegrasikan algoritme klasterisasi K-means ke dalam DBMS menggunakan SQL. Akan tetapi, metode ini juga membawa kelemahan dari algoritme K-means itu sendiri yaitu lamanya iterasi untuk mencapai konvergen dan keakuratan hasil klasterisasi yang belum optimal akibat dari proses inisialisasi centroid awal secara acak. Algoritme Median Initial Centroid (MIC)-Kmeans merupakan pengembangan dari algoritme K-means yang bisa memberikan solusi optimal dalam menentukan awal centroid yang berdampak pada keakuratan dan lamanya iterasi. Dengan keunggulan yang dimiliki algoritme MIC-Kmeans, maka dalam penelitian ini dipilih sebagai alternatif algoritme yang diintegrasikan dalam proses klasterisasi data secara langsung di DBMS menggunakan SQL. Proses integrasinya meliputi 4 tahap yaitu tahap inisialisasi tabel dataset, tahap pemetaan algoritme MIC-Kmeans pada SQL dan tabel dataset, tahap perancangan SQL untuk tiap hasil pemetaan dan tahap implementasi rancangan SQL dalam MySQL stored procedure. Hasil pengujian menunjukkan bahwa metode SQL MIC-Kmeans bisa mengurangi 43% jumlah iterasi dan mengurangi 39% waktu yang dibutuhkan dari metode SQL-Kmeans untuk mencapai konvergen. Selain itu, nilai rata-rata silhouette coefficient metode SQL MIC-Kmeans adalah 0,79 dan masuk dalam kategori strong structure (nilai rentang 0,7 sampai 1). Sedangkan nilai rata-rata silhouette coefficient metode SQL-Kmeans adalah 0,68 dan masuk dalam kategori medium structure (nilai rentang 0,5 sampai 0,7).
Abstract
The process of data clustering in the DBMS will be more efficient because the DBMS supports good data management. SQL-Kmeans is a method that has been used to integrate K-means clustering algorithms into DBMS using SQL. However, it carries the weakness of the K-means algorithm itself in the duration of iterations to reach convergence and the accuracy of clustering due to the centroid initialization process randomly. Median Initial Centroid (MIC)-Kmeans algorithm is a development of the K-means algorithm that can provide the optimal solution in determining the initial centroid which has an impact on the accuracy and duration of iterations. With the advantages of the MIC-Kmeans algorithm, the method was chosen as an alternative algorithm to be integrated in the DBMS using SQL for a clustering. The integration process includes 4 stages, there are dataset initialization, SQL algorithm mapping and dataset table, SQL design for each mapping result, and implementation SQL in the MySQL stored procedure. The test results show that the SQL MIC-Kmeans method can reduce 43% the number of iterations and reduce 39% of the time required from the SQL-Kmeans method to reach convergence. In addition, the average value of the coefficient SQL MIC-Kmeans method is 0.79 and categorized as strong structure (value ranges from 0.7 to 1). While, the average value of the coefficient SQL-Kmeans method is 0.68 and categorized as medium structure (value ranges from 0.5 to 0.7).
Downloads
Referensi
ARWANI, I., 2015. Integrasi Algoritme K-Means Dengan Bahasa Sql Untuk Klasterisasi Ipk Mahasiswa (Studi Kasus: Fakultas Ilmu Komputer Universitas Brawijaya), 2(2), p. 143-151, Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK).
GOVINDA, R., VARAPRASADA, R.,RAMBABU, R., 2018. A Novel Approach in Clustering Algorithm to Evaluate the Performance of Regression Analysis, 42(6), p.143-146, IEEE 8th International Advance Computing Conference (IACC).
ILHAM, A., IBRAHIM, D., 2018. Tackling Initial Centroid of K-Means with Distance Part (DP-KMeans), 42(6), p.185-189, International Symposium on Advanced Intelligent Informatics (SAIN).
KATARA, JUHI, dan NAVEEN C.A., 2015. Modified Version of the K-means Clustering Algorithm, vol. 15, no. 7, Global Journal of Computer Science and Technology.
ORDONEZ, C., GARCÍA, J., 2016. Managing Big Data Analytics Workflows with a Database System, 18(2), p. 649-655, 16th IEEE/ ACM International Symposium on Cluster, Cloud and Grid Computing (CCGrid).
PREMKUMAR, M.S., GANESH, S.H, 2017. A Median Based External Initial Centroid Selection Method for K-Means Clustering, 42(6), p.143-146, Computing and Communication Technologies (WCCCT).
RAHIM, S.M.D., AHMED, T, 2017. An Initial Centroid Selection Method based on Radial and Angular Coordinates for K-means Algorithm, p.22-24, International Conference of Computer and Information Technology (ICCIT).
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).