Ekstraksi Tabel HTML Bentuk Column-Row Wise ke dalam Basis Data

Penulis

  • Memen Akbar Jurusan Teknologi Informasi - Politeknik Caltex Riau
  • Ardianto Wibowo Jurusan Teknologi Informasi - Politeknik Caltex Riau

DOI:

https://doi.org/10.25126/jtiik.201856905

Kata Kunci:

Data Extraction, HTML Table

Abstrak

Pada halaman web, tabel adalah bagian penting dari masalah yang dijelaskan dalam sebuah artikel. Tabel yang terdapat pada halaman web berbeda dari tabel dalam basis data. Tabel di halaman web cenderung tidak memiliki aturan atau bentuk standar. Salah satu bentuk tabel yang tidak standar pada halaman web adalah column-row wise. Penelitian ini menawarkan pendekatan untuk mengekstraksi isi tabel sedemikian sehingga arti dari keterkaitan antara dua atribut dan data dalam tabel column-row wise tidak hilang. Data yang diekstrak disimpan ke dalam basis data yang membentuk tiga tabel, yaitu tabel yang menyimpan atribut pertama, tabel yang menyimpan atribut kedua, dan tabel yang menyimpan atribut pertama, kedua, dan data dari atribut pertama dan kedua. Penelitian ini menghasilkan sebuah algoritma untuk mengekstrak data dari tabel yang berbentuk column-row wise pada sebuah halaman web. Algoritma yang dihasilkan dari penelitian ini diharapkan dapat diimplementasikan dalam berbagai bahasa pemrograman. Untuk pengujian, algoritma telah diimplementasikan dengan Bahasa pemrograman Python dan berhasil melakukan ekstraksi tabel dan menyimpannya dalam basis data.

 

Abstract

 Tables are an important part of a web page. The table contains tabulations of data or information that you want to convey from the web page. This data tabulation can be used for comparisons with similar tables or as a trigger for action. However, tables on web pages are independent of webpage makers. There is no standard form or layout for a table on a web page. One of the table layouts on a web page is column-row wise. This study offers an approach for extracting table contents such that the meaning of the linkage between two attributes and a data in the column-row wise table is not disappeared. The extracted data is stored into a database that forms three tables, ie the table that stores the first attribute, the table that stores the second attribute, and the table that stores the first, second, and second attributes of the two attributes. Output of this research is an algorithm to extract data of column-row wise table in a web page. The algorithm generated from this research is expected to be implemented in various programming languages. For testing, the algorithm is implemented in Python and success to extract table and save the data into database. Cyclomatic complexity number of the proposed algorithm is 12. This means that the complexity of the proposed algorithm is still high.

Downloads

Download data is not yet available.

Biografi Penulis

  • Memen Akbar, Jurusan Teknologi Informasi - Politeknik Caltex Riau
    Dosen di Jurusan Teknologi Informasi Politeknik Caltex Riau.
  • Ardianto Wibowo, Jurusan Teknologi Informasi - Politeknik Caltex Riau
    Dosen jurusan teknologi informasi politeknik caltex riau

Referensi

AKBAR, M., AZIZAH, F. N. & SAPTAWATI, G. P., 2015. Integration of HTML Tables in Web Pages. Yogyakarta, IEEE, pp. 132-137.

AKBAR, M., PATMALA, C. & NURMALASARI, D., 2016. Ekstraksi Data pada Tabel dari Halaman Web Menggunakan Pohon Document Object Model (DOM). Jurnal Nasional Teknik Elektro dan Teknologi Informasi (JNTETI) UGM, November, 5(4), pp. 265-271.

EMBLEY, D. W., TAO, C. & LIDDLE, S. W., 2004. Automating the extraction of data from HTML tables with unknown structure. Data & Knowledge Engineering (Elsevier), November, Volume 54, pp. 3-28.

KERUI, C. ET AL., 2011. Automatic table integration by domain-specific ontology. International Journal ofDigital Content Technology and Its Application, January, 5(1), pp. 218-226.

KIM, Y.-S. & LEE, K.-H., 2007. Extracting logical structures from HTML tables. Computer Standards and Interfaces (Elsevier), August, 30(5), pp. 296-308.

LIM, S.-J., NG, Y.-K. & YANG, X., 2002. Integrating HTML tables using semantic hierarchies and meta-data sets. s.l., s.n.

WINNETOU, A. B., WICAKSONO, S. A. & PINANDITO, A., 2017. Analisis Peningkatan Performa Proses ETL (Extract, Transform, Dan Loading) Pada Data Warehouse Dengan Menerapkan Delta ExtractionMenggunakan Historical Table. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, Agustus, 2(4), pp. 1366-1371.

Diterbitkan

22-11-2018

Terbitan

Bagian

Ilmu Komputer

Cara Mengutip

Ekstraksi Tabel HTML Bentuk Column-Row Wise ke dalam Basis Data. (2018). Jurnal Teknologi Informasi Dan Ilmu Komputer, 5(6), 653-658. https://doi.org/10.25126/jtiik.201856905