Komparasi Kinerja Algoritma Blocking pada Proses Indexing untuk Deteksi Duplikasi


  • M. Miftakul Amin Politeknik Negeri Sriwijaya, Palembang
  • Yevi Dwitayanti Politeknik Negeri Sriwijaya, Palembang




Proses integrasi data dari heterogeneous data sources memerlukan kualitas data yang baik. Salah satu ciri kualitas data yang baik adalah terhindar dari terjadinya duplikasi data. Untuk melakukan deteksi duplikasi, langkah yang dapat dilakukan adalah membandingkan setiap record dalam sebuah dataset sehingga membentuk candidate record pair. Teknik blocking digunakan untuk proses indexing yang dapat mengurangi jumlah pasangan record dalam proses deteksi duplikasi. Penelitian ini bertujuan untuk melakukan perbandingan beberapa algoritma blocking sehingga diperoleh rekomendasi algoritma mana yang paling optimal digunakan. Penelitian ini melakukan investigasi terhadap 6 buah algoritma blocking, yaitu Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, dan Cosine Similarity. Dataset yang digunakan dalam penelitian ini adalah dataset restaurant yang berisi 112 record, yang di dalamnya terdapat beberapa record yang terindikasi duplikat. Hasil penelitian menunjukkan bahwa algoritma NYSIIS memberikan hasil record blocking paling optimal, yaitu sebesar 97 record. Sedangkan algoritma Soundex dan Cosine Similarity memberikan hasil yang paling optimal, yaitu sebesar 8 buah candidate record pair. Sedangkan dari sisi waktu eksekusi algoritma Soundex dan NYSIIS memberikan proses yang paling cepat dengan durasi 0,04 detik.




The process of integrating data from heterogeneous data sources requires good data quality. One of the characteristics of good data quality is avoiding data duplication. To perform duplication detection, a step that can be done is to compare each record in a dataset to form a candidate record pair. The blocking algorithm is used for the indexing process which can reduce the number of record pairs in the duplication detection process. This research aims to compare several blocking algorithms so as to obtain recommendations on which algorithm is most optimally used. This research investigates 6 blocking algorithms, namely Soundex, NYSIIS, Metaphone, Double Metaphone, Jaro Winkler Similarity, and Cosine Similarity. The dataset used in this research is a restaurant dataset containing 112 records, in which there are several records that indicate duplicates. The results showed that the NYSIIS algorithm provided the most optimal record blocking results, which amounted to 97 records. While the Soundex and Cosine Similarity algorithms provide the most optimal results, which are 8 candidate record pairs. In terms of execution time, the Soundex and NYSIIS algorithms provide the fastest process with a duration of 0.04 seconds.


