Integrasi Algoritma K-Means Dengan Bahasa SQL Untuk Klasterisasi IPK Mahasiswa (Studi Kasus: Fakultas Ilmu Komputer Universitas Brawijaya)
DOI:
https://doi.org/10.25126/jtiik.201522148Abstrak
Abstrak
Secara umum, aplikasi klasterisasi diimplementasikan di luar DBMS dengan mengambil data terlebih dahulu dari basisdata untuk disimpan sementara dalam variabel program (misal dalam sebuah array), kemudian baru dilakukan proses klasterisasi. Permasalahan waktu dan keamanan dalam pengambilan data dari DBMS dan besarnya data yang akan diklasterisasi mendorong metode lain dimana proses klasterisasi bisa langsung dilakukan di DBMS. Klasterisasi dilakukan dengan mengintegrasikan algoritma klasterisasi pada DBMS menggunakan bahasa SQL. Pada penelitian ini difokuskan pada perancangan dan pengimplementasian integrasi algoritma klasterisasi K-means pada Relational DBMS dengan menggunakan bahasa SQL. Proses klasterisasi dilakukan dengan studi kasus data akademik mahasiswa di Fakultas Ilmu Komputer universitas Brawijaya dengan fitur IPK, sks tempuh, sks lulus dan semester. Berdasarkan hasil uji coba dataset akademik dengan variasi jumlah dimensi, jumlah klaster dan metode perhitungan jarak yang berbeda, telah didapatkan hasil pengklasteran data dengan benar. Berdasarkan hasil perhitungan kompleksitas waktu untuk tiap tahap implementasi K-means menggunakan SQL dan tanpa SQL, menunjukkan hasil kompleksitas waktu asimptotik yang sama dimana tahap menghitung euclidean distance membutuhkan kompleksitas waktu yang paling tinggi.
Kata kunci: Clustering, K-means, SQL, IPK (Indeks Prestasi Kumulatif)
Abstract
Generally, clustering implemented with taking data from database to be stored temporarily in a program variable (eg, in an array) then continue with clustering process. Direct clustering where the data is stored by integrating the clustering algorithm using the SQL language on the DBMS is proposed. In this study focused on the design and implementation of K-means clustering algorithm on a Relational DBMS using the SQL language. The clustering process carried out with a case study of GPA student in the Faculty of Computer Science University of Brawijaya. Based on results with a variety of dimensions, the number of clusters and different distance calculation methods, has obtained clustering data correctly. Based on time complexity to review each stage of the implementation K - means using SQL and without SQL, showing the same results of asymptotic time complexity where phase euclidean distance still requires the highest time complexity.
Keywords: Clustering, K-means, SQL, GPA (Grade Point Average)
Abstrak
Secara umum, aplikasi klasterisasi diimplementasikan di luar DBMS dengan mengambil data terlebih dahulu dari basisdata untuk disimpan sementara dalam variabel program (misal dalam sebuah array), kemudian baru dilakukan proses klasterisasi. Permasalahan waktu dan keamanan dalam pengambilan data dari DBMS dan besarnya data yang akan diklasterisasi mendorong metode lain dimana proses klasterisasi bisa langsung dilakukan di DBMS. Klasterisasi dilakukan dengan mengintegrasikan algoritma klasterisasi pada DBMS menggunakan bahasa SQL. Pada penelitian ini difokuskan pada perancangan dan pengimplementasian integrasi algoritma klasterisasi K-means pada Relational DBMSdengan menggunakan bahasa SQL. Proses klasterisasi dilakukan dengan studi kasus data akademik mahasiswa di Fakultas Ilmu Komputer universitas Brawijaya dengan fitur IPK, sks tempuh, sks lulus dan semester. Berdasarkan hasil uji coba dataset akademik dengan variasi jumlah dimensi, jumlah klaster dan metode perhitungan jarak yang berbeda, telah didapatkan hasil pengklasteran data dengan benar. Berdasarkan hasil perhitungan kompleksitas waktu untuk tiap tahap implementasi K-means menggunakan SQL dan tanpa SQL, menunjukkan hasil kompleksitas waktu asimptotik yang sama dimana tahap menghitung euclidean distance membutuhkan kompleksitas waktu yang paling tinggi.
Kata kunci: Clustering, K-means, SQL, IPK (Indeks Prestasi Kumulatif)
Abstract
Generally, clustering implemented with taking data from database to be stored temporarily in a program variable (eg, in an array) then continue with clustering process.Directclustering where the data is storedby integrating the clustering algorithm using the SQL language on the DBMS is proposed.In this study focused on the design and implementation of K-means clustering algorithm on a Relational DBMS using the SQL language. The clustering process carried out with a case study of GPA student in the Faculty of Computer Science University of Brawijaya.Based on results with a variety of dimensions, the number of clusters and different distance calculation methods, has obtained clustering data correctly. Based on time complexity to review each stage of the implementation K - means using SQL and without SQL, showing the same results of asymptotic time complexity where phase euclidean distance still requires the highest time complexity.
Keywords: Clustering, K-means, SQL, GPA (Grade Point Average)
Downloads
Referensi
Akademik PTIIK. 2012. Buku Pedoman Pendidikan PTIIK 2012., UB Press, Malang.
Guy H, 2007, MySQL Stored Procedure Programming., O'Reilly Media, USA.
Han, Jiawei dan Micheline Kamber . 2010. Data Mining : Concepts and Techniques 3rd edition., Morgan Kaufmann Publishers, USA.
Hung ,Ming-Chuan, Jungpin Wu, Jin-Hua Chang, dan Don-Lin Yang. 2005. An Efficient k-Means Clustering Algorithm Using Simple Partitioning. Journal of Information Science and Engineering, 21, 1157-1177.
Nandagopalan, Adiga, Dhanalakshmi. 2010, A Fast K-Means Algorithm for the Segmentation of Echocardiographic Images Using DBMS-SQL, IEEE Trans. Knowledge and Data Eng, 2(2), 162-166.
Ordonez, Carlos. 2004. Programming the K-means Clustering Algorithm in SQL. Proc. ACM Int’l Conf. Knowledge Discovery and Data Mining, 823-828.
Ordonez, Carlos. 2016. Integrating K-means Clustering with a Relational DBMS Using SQL. IEEE Trans. Knowledge and Data Eng., 18(2), 188-201.
Sanjeev. 2009. Computational Complexity: A Modern Approach. Cambridge University Press., New York.
Sasi K. Pitchaimalai, Carlos Ordonez, Carlos Garcia-Alvarado, “Efficient distance computation using SQL queries and UDFs,” IEEE International Conference on Data Mining Workshops, 2008.
Scalzo B. 2011. Introduction to SQL Server: Basic Skills for Any SQL Server User. CreateSpace Independent Publishing Platform., USA.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).