Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier

Penulis

  • Mutiara Persada Pulungan Sekolah Tinggi Ilmu Manajemen dan Ilmu Komputer ESQ, Jakarta
  • Andi Purnomo Sekolah Tinggi Ilmu Manajemen dan Ilmu Komputer ESQ, Jakarta
  • Aliyah Kurniasih Sekolah Tinggi Ilmu Manajemen dan Ilmu Komputer ESQ, Jakarta

DOI:

https://doi.org/10.25126/jtiik.1077989

Kata Kunci:

Myers-Briggs Type Indicator(MBTI), Imbalance Class, Synthetic Minority Over-sampling Technique (SMOTE), Term Frequency-Inverse Document Frequency (TF-IDF), Naive Bayes Classifier

Abstrak

Kepribadian Myers-Briggs Type Indicator ( MBTI ) telah menjadi topik populer dalam memahami karakteristik individu dan dampaknya pada interaksi sosial, karir, dan pengambilan keputusan. Model Machine Learning dengan algoritma Naive Bayes Classifier sering digunakan untuk memprediksi kepribadian MBTI berdasarkan data Twitter. Namun, seringkali terjadi ketidakseimbangan kelas, dengan beberapa jenis kepribadian yang memiliki sampel lebih sedikit. Untuk mengatasi hal ini, penelitian ini menggunakan teknik Synthetic Minority Over-sampling Technique (SMOTE) untuk meningkatkan jumlah sampel pada kelas minoritas. Selain itu, metode Term Frequency-Inverse Document Frequency (TF-IDF) digunakan untuk mengekstraksi fitur penting dari teks. Penelitian ini bertujuan menerapkan teknik SMOTE untuk mengatasi ketidakseimbangan kelas dalam klasifikasi kepribadian MBTI menggunakan beberapa algoritma Naive Bayes Classifier, termasuk Gaussian, Multinomial, Bernoulli, Complement, dan Logistic Regression berdasarkan model Keirsey: Artisan, Guardian, Rational, dan Idealist. Evaluasi menggunakan metode Hold-Out-Validation dengan membagi data menjadi 90% data latih dan 10% data uji. Hasil evaluasi menunjukkan performa rendah algoritma Naive Bayes Classifier untuk kelas Artisan dan Guardian, tetapi baik untuk kelas Rational dan Idealist. Algoritma Logistic Regression memiliki akurasi tertinggi 80% dan performa yang lebih baik secara keseluruhan, meskipun masih rendah untuk kelas Artisan dan Guardian. Dengan demikian, penelitian ini memberikan pemahaman tentang penggunaan algoritma Naive Bayes Classifier dan teknik SMOTE dalam prediksi kepribadian MBTI, dengan potensi peningkatan kinerja melalui penggunaan algoritma Logistic Regression.

 

Abstract

 

Myers-Briggs Type Indicator (MBTI) personality is becoming a popular topic in understanding individual characteristics and their impact on social interaction, career, and decision-making. Machine Learning models with Naive Bayes Classifier algorithms are often used to predict MBTI personalities from Twitter data. However, there is often a class imbalance, with some personality types having a smaller sample. To overcome this, this study used the Synthetic Minority Over-sampling Technique (SMOTE) technique to increase the number of samples in minority classes. Additionally, the Term Frequency-Inverse Document Frequency (TF-IDF) method is used to extract important features from text. This study aims to apply SMOTE techniques to address class imbalances in MBTI personality classification using several Naïve Bayes Classifier algorithms, including Gaussian, Multinomial, Bernoulli, Complement, and Logistic Regression based on Keirsey's model: Artisan, Guardian, Rational, and Idealist. Evaluation using the Hold-Out-Validation method by dividing the data into 90% training data and 10% test data. The evaluation results showed low performance of the Naive Bayes Classifier algorithm for the Artisan and Guardian classes, but both for the Rational and Idealist classes. The Logistic Regression algorithm has the highest accuracy of 79% and better performance overall, although it is still low for the Artisan and Guardian classes. Thus, this study provides insight into the use of Naive Bayes Classifier algorithm and SMOTE technique in MBTI personality prediction, with potential performance improvement through the use of Logistic Regression algorithm.

Downloads

Download data is not yet available.

Referensi

BHARADWAJ, S., SRIDHAR, S., CHOUDHARY, R. AND SRINARTH, R., 2018a. Persona Traits Identification Based On Myers-Briggs Type Indicator(Mbti) - A Text Classification Approach.

BHARADWAJ, S., SRIDHAR, S., CHOUDHARY, R. AND SRINARTH, R., 2018b. Persona Traits Identification Based On Myers-Briggs Type Indicator(Mbti) - A Text Classification Approach.

CLAUDY, Y.I., SETYA PERDANA, R. AND FAUZI, M.A., 2018. Klasifikasi Dokumen Twitter Untuk Mengetahui Karakter Calon Karyawan Menggunakan Algoritme K-Nearest Neighbor (Knn). [Online] Available At: .

FELICIA WATRATAN, A., PUSPITA, A.B., MOEIS, D., INFORMASI, S. AND PROFESIONAL MAKASSAR, S., 2020. Implementasi Algoritma Naive Bayes Untuk Memprediksi Tingkat Penyebaran Covid-19 Di Indonesia. [Online] Journal Of Applied Computer Science And Technology (Jacost), Available At: .

FIKRY, M., 2018a. Ekstrover Atau Introver : Klasifikasi Kepribadian Pengguna Twitter Dengan Menggunakan Metode Support Vector Machine. Jurnal Sains, Teknologi Dan Industri, 16(1), Pp.72–76.

FIKRY, M., 2018b. Ekstrover Atau Introver : Klasifikasi Kepribadian Pengguna Twitter Dengan Menggunakan Metode Support Vector Machine. Jurnal Sains, Teknologi Dan Industri, 16(1), Pp.72–76.

HAQ, F. AND BUDI, E., 2019. Implementasi Naive Bayes Classifier Untuk Prediksi Kepribadian Big Five Pada Twitter Menggunakan Term Frequency-Inverse Document Frequency (Tf-Idf) Dan Term Frequency-Relevance Frequency (Tf-Rf).

HARAHAP, R.N., MUSLIM, K. AND KORESPONDENSI, P., 2020. Peningkatan Akurasi Pada Prediksi Kepribadian Mbti Pengguna Twitter Menggunakan Augmentasi Data. 07, Pp.815–822. Https://Doi.Org/10.25126/Jtiik.202073622.

HASRI, C.F. AND ALITA, D., 2022. Penerapan Metode Naïve Bayes Classifier Dan Support Vector Machine Pada Analisis Sentimen Terhadap Dampak Virus Corona Di Twitter. Jurnal Informatika Dan Rekayasa Perangkat Lunak (Jatika), [Online] 3(2), Pp.145–160. Available At: .

INDRAWATI, A., 2021. Penerapan Teknik Kombinasi Oversampling Dan Undersampling Untuk Mengatasi Permasalahan Imbalanced Dataset. Jurnal Informatika Dan Komputer) Akreditasi Kemenristekdikti, [Online] 4(1). Https://Doi.Org/10.33387/Jiko.

ISKANDAR, J.W. AND NATALIANI, Y., 2021. Perbandingan Naïve Bayes, Svm, Dan K-Nn Untuk Analisis Sentimen Gadget Berbasis Aspek. Jurnal Resti (Rekayasa Sistem Dan Teknologi Informasi), 5(6), Pp.1120–1126. Https://Doi.Org/10.29207/Resti.V5i6.3588.

KHASANA, A., MULADI AND PUJIANTO UTOMO, 2019. Penerapan Teknik Smote Untuk Mengatasi Imbalance Class Dalam Klasifikasi Objektivitas Berita Online Menggunakan Algoritma Knn. Jurnal Resti (Rekayasa Sistem Dan Teknologi Informasi), 1(3), Pp.196–201.

MAHAJAN, R., MAHAJAN, R., SHARMA, E. AND MANSOTRA, V., 2022a. “Are We Tweeting Our Real Selves?” Personality Prediction Of Indian Twitter Users Using Deep Learning Ensemble Model. Computers In Human Behavior, 128. Https://Doi.Org/10.1016/J.Chb.2021.107101.

MAHAJAN, R., MAHAJAN, R., SHARMA, E. AND MANSOTRA, V., 2022b. “Are We Tweeting Our Real Selves?” Personality Prediction Of Indian Twitter Users Using Deep Learning Ensemble Model. Computers In Human Behavior, 128. Https://Doi.Org/10.1016/J.Chb.2021.107101.

QADRINI, L., HIKMAH, H. AND MEGASARI, M., 2022. Oversampling, Undersampling, Smote Svm Dan Random Forest Pada Klasifikasi Penerima Bidikmisi Sejawa Timur Tahun 2017. Journal Of Computer System And Informatics (Josyc), 3(4), Pp.386–391. Https://Doi.Org/10.47065/Josyc.V3i4.2154.

SHER KHAN, A., AHMAD, H., ZUBAIR ASGHAR, M., KHAN SADDOZAI, F., ARIF, A. AND ALI KHALID, H., 2020. Personality Classification From Online Text Using Machine Learning Approach. [Online] Ijacsa) International Journal Of Advanced Computer Science And Applications, Available At: .

SULISTIYONO, M., PRISTYANTO, Y., ADI, S. AND GUMELAR, G., 2021. Implementasi Algoritma Synthetic Minority Over-Sampling Technique Untuk Menangani Ketidakseimbangan Kelas Pada Dataset Klasifikasi. Sistemasi: Jurnal Sistem Informasi, [Online] 10, Pp.445–459. Available At: .

SULISTIYOWATI, N. AND JAJULI, M., 2020. Integrasi Naïve Bayes Dengan Teknik Sampling Smote Untuk Menangani Data Tidak Seimbang. Jurnal Nuansa Informatika, [Online] 14(1). Available At: .

UTAMI, G. AND BATHIAR, N., 2020. Aplikasi Pengenalan Kepribadian Tipe Myers Briggs Menggunakan Metode Fuzzy Saw Berbasis Android. Jurnal Masyarakat Informatika, Volume 11, Nomor 1, Issn 2086 – 4930.

WIJAYA, A. AND CENDANA, M., 2020. Klasifikasi Kepribadian Myres-Briggs Type Indicator Berdasarkan Cuitan Di Twitter Menggunakan Metode Tf-Idf Dan Naive Bayes Classifier. Jurnal Linguistik Komputasional, 3.

Diterbitkan

29-12-2023

Cara Mengutip

Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier. (2023). Jurnal Teknologi Informasi Dan Ilmu Komputer, 10(7), 1493-1502. https://doi.org/10.25126/jtiik.1077989