Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring
DOI:
https://doi.org/10.25126/jtiik.20231057082Abstrak
Pendekatan augmentasi teks sering digunakan untuk menangani imbalance data pada kasus klasifikasi teks, seperti teks Konsultasi Kesehatan Daring (KKD), yaitu alodokter.com. Teknik oversampling dapat mengatasi kondisi skewed terhadap kelas mayoritas. Namun, augmentasi teks dapat mengubah konten dan konteks teks karena kata-kata teks tambahan yang berlebihan. Penelitian kami menyelidiki algoritma Easy Data Augmentation (EDA), yang berbasis parafrase kalimat dalam teks KKD dengan menggunakan teknik Synonym Replacement (SR), Random Insertion (RI), Random Swap (RS), dan Random Deletion (RD). Kami menggunakan Tesaurus Bahasa Indonesia untuk mengubah sinonim di EDA dan melakukan percobaan pada parameter yang dibutuhkan oleh algoritma untuk mendapatkan hasil augmentasi teks yang optimal. Kemudian, percobaan menyelidiki proses augmentasi kami menggunakan pengklasifikasi Random Forest, Naïve Bayes, dan metode berbasis peningkatan seperti XGBoost dan ADABoost, yang menghasilkan peningkatan akurasi rata-rata sebesar 0,63. Hasil parameter EDA terbaik diperoleh dengan menambahkan nilai 0,1 pada semua teknik EDA mendapatkan 88,86% dan 88,44% untuk akurasi dan nilai F1-score. Kami juga memverifikasi hasil EDA dengan mengukur koherensi teks sebelum dan sesudah augmentasi menggunakan pemodelan topik Latent Dirichlet Allocation (LDA) untuk memastikan konsistensi topik. Proses EDA dengan RI memberikan koherensi yang lebih baik sebesar 0,55 dan dapat mendukung implementasi EDA untuk menangani imbalance data, yang pada akhirnya dapat meningkatkan kinerja klasifikasi.
Abstract
The text augmentation approach is often utilized for handling imbalanced data of classifying text corpus, such as online health consultation (OHC) texts, i.e., alodokter.com. The oversampling technique can overcome the skewed condition towards majority classes. However, text augmentation could change text content and context because of excessive words of additional texts. Our work investigates the Easy Data Augmentation (EDA) algorithm, which is sentence paraphrase-based in the OHC texts that often in non-formal sentences by using techniques of synonym replacement (SR), random insertion (RI), random swap (RS), and random deletion (RD). We employ the Indonesian thesaurus for changing synonyms in the EDA and do empirical experiments on parameters required by the algorithm to obtain optimal results of text augmentation. Then, the experiments investigate our augmentation process using classifiers of Random Forest, Naïve Bayes, and boosting-based methods like XGBoost and ADABoost, which resulted in an average accuracy increase of 0.63. The best EDA parameter results were acquired by adding a value of 0.1 in all EDA techniques to get 88.86% and 88.44% for accuracy and F1-score values. We also verified the EDA results by measuring coherences of texts before and after augmentation using a topic modeling of Latent Dirichlet Allocation (LDA) to ensure topic consistency. The EDA process with RI gave better coherences of 0.55, and it could support the EDA application to handle imbalanced data, eventually improving the classification performance.
Unduhan
Referensi
ABDILLAH, A.F., PUTRA, C.B.P., APRIANTONI, A., JUANITA, S. dan PURWITASARI, D., 2022. Ensemble-based Methods for Multi-label Classification on Biomedical Question-Answer Data. Journal of Information Systems Engineering and Business Intelligence, 8(1), pp.42–50.
CHEN, T. dan GUESTRIN, C., 2016. XGBoost: A Scalable Tree Boosting System. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’16. [online] New York, NY, USA: Association for Computing Machinery. pp.785–794.
HE, H. dan YANG, H., 2021. Deep visual semantic embedding with text data augmentation and word embedding initialization. Mathematical Problems in Engineering, 2021.
IBAD, A.Z., SOEPRIYANTO, Y. dan HUSNA, A., 2018. Thesaurus Termediasikan Augmented Reality Text Untuk Peningkatan Pemahaman Baca. JKTP: Jurnal Kajian Teknologi Pendidikan, 1(1), pp.1–6.
ISSIFU, A.M. dan GANIZ, M.C., 2021. A simple data augmentation method to improve the performance of named entity recognition models in medical domain. In: 2021 6th International Conference on Computer Science and Engineering (UBMK). IEEE. pp.763–768.
JIN, Q., YUAN, Z., XIONG, G., YU, Q., YING, H., TAN, C., CHEN, M., HUANG, S., LIU, X. dan YU, S., 2022. Biomedical question answering: A survey of approaches and challenges. ACM Computing Surveys (CSUR), 55(2), pp.1–36.
KARIMI, A., ROSSI, L. dan PRATI, A., 2021. Aeda: An easier data augmentation technique for text classification. arXiv preprint arXiv:2108.13230.
KHAN, M.Y., QAYOOM, A., NIZAMI, M.S., SIDDIQUI, M.S., WASI, S. dan RAAZI, S.M.K.-R., 2021. Automated Prediction of Good Dictionary EXamples (GDEX): A Comprehensive Experiment with Distant Supervision, Machine Learning, and Word Embedding-Based Deep Learning Techniques. Complexity, 2021.
LI, B., HOU, Y. dan CHE, W., 2022. Data augmentation approaches in natural language processing: A survey. AI Open.
LONGPRE, S., LU, Y., TU, Z. dan DUBOIS, C., 2019. An exploration of data augmentation and sampling techniques for domain-agnostic question answering. arXiv preprint arXiv:1912.02145.
LUBIS, A.R., NASUTION, M.K.M., SITOMPUL, O.S. dan ZAMZAMI, E.M., 2021. The effect of the TF-IDF algorithm in times series in forecasting word on social media. Indones. J. Electr. Eng. Comput. Sci., 22(2), p.976.
MASLEJ-KRESNAKOVA, V., SARNOVSKY, M. dan JACKOVA, J., 2022. Use of Data Augmentation Techniques in Detection of Antisocial Behavior Using Deep Learning Methods. Future Internet, 14(9), p.260.
SARROUTI, M. dan EL ALAOUI, S.O., 2020. SemBioNLQA: A semantic biomedical question answering system for retrieving exact and ideal answers to natural language questions. Artificial intelligence in medicine, 102, p.101767.
SOHAIL, S.S., SIDDIQUI, J. dan ALI, R., 2019. A comprehensive approach for the evaluation of recommender systems using implicit feedback. International Journal of Information Technology, 11(3), pp.549–567.
SUN, Y., LI, Y., ZENG, Q. dan BIAN, Y., 2020. Application research of text classification based on random forest algorithm. In: 2020 3rd International Conference on Advanced Electronic Materials, Computers and Software Engineering (AEMCSE). IEEE. pp.370–374.
SYED, S. dan SPRUIT, M., 2017. Full-Text or Abstract? Examining Topic Coherence Scores Using Latent Dirichlet Allocation. In: 2017 IEEE International Conference on Data Science and Advanced Analytics (DSAA). pp.165–174.
THANGARAJ, M. dan SIVAKAMI, M., 2018. Text classification techniques: A literature review. Interdisciplinary Journal of Information, Knowledge, and Management, 13, p.117.
THIYAGARAJAN, D. dan SHANTHI, N., 2019. A modified multi objective heuristic for effective feature selection in text classification. Cluster Computing, [online] 22(5), pp.10625–10635.
WEI, J. dan ZOU, K., 2019. Eda: Easy data augmentation techniques for boosting performance on text classification tasks. arXiv preprint arXiv:1901.11196.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2023 Jurnal Teknologi Informasi dan Ilmu Komputer

Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.

Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).