Vision Transformer untuk Klasifikasi Kematangan Pisang


  • Arya Pangestu Fakultas Informatika, Universitas Telkom, Bandung
  • Bedy Purnama Fakultas Informatika, Universitas Telkom, Bandung
  • Risnandar Risnandar Fakultas Informatika, Universitas Telkom, Bandung


Kata Kunci:

klasifikasi, kematangan pisang, computer vision, vision transformer, pre-trained model, cross-dataset evaluation


Produksi pisang di Indonesia pada tahun 2022 mencapai 9,6 juta ton buah. Metode konvensional yang digunakan untuk menentukan tingkat kematangan pisang masih mengandalkan indera penglihatan manusia dengan memperhatikan perubahan warna kulit pisang. Namun, penentuan tingkat kematangan pisang dengan metode ini memiliki beberapa kekurangan, seperti waktu yang lama, penilaian yang bersifat subjektif dan dapat menghasilkan hasil yang berbeda-beda bagi setiap individu. Oleh karena itu, teknologi computer vision dapat menjadi solusi yang efektif dalam mengklasifikasikan kematangan buah pisang secara otomatis. Penelitian ini menggunakan metodologi Vision Transformer (ViT) untuk mengklasifikasikan tingkat kematangan pada buah pisang, dengan tingkatan yang dibagi menjadi empat kategori, yaitu mentah, setengah matang, matang, dan terlalu matang. Penelitian dilakukan dengan menggunakan lima model ViT yang sudah dilatih sebelumnya atau pre-trained, yaitu ViT-B/16, ViT-B/32, ViT-L/16, ViT-L/32, and ViT-H/14 pada ImageNet-21k dan ImageNet-1k. Kemudian, model ViT tersebut dievaluasi dan dibandingkan dengan model CNN. Evaluasi dilakukan menggunakan metode cross-dataset dengan 5.068 citra pisang yang berbeda dari dataset latih. Hasil evaluasi menunjukkan model ViTL/16-in21k memiliki akurasi tertinggi sebesar 91,61%. Model ViT menunjukkan kemampuan generalisasi yang lebih baik, sementara CNN memiliki ukuran model dan waktu pelatihan yang lebih efisien.


Download data is not yet available.


Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. CoRR, abs/2010.11929.

Eloise. (2023). Banana Ripeness Detection Dataset. Dalam Roboflow Universe. Roboflow.

Falcomer, A. L., Riquette, R. F. R., De Lima, B. R., Ginani, V. C., & Zandonadi, R. P. (2019). Health Benefits of Green Banana Consumption: A Systematic Review. Nutrients, 11(6), 1222.

Fracarolli, J. A., Adimari Pavarin, F. F., Castro, W., & Blasco, J. (2020). Computer vision applied to food and agricultural products. Revista Ciencia Agronomica, 51(5), 1–20.

gbc. (2023). Banana ripeness Dataset. Dalam Roboflow Universe. Roboflow.

Gheflati, B., & Rivaz, H. (2022). Vision Transformers for Classification of Breast Ultrasound Images. 2022 44th Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC), 480–483.

Hadfi, I. H., & Mohd Yusoh, Z. I. (2018). Banana Ripeness Detection and Servings Recommendation System using Artificial Intelligence Techniques. Journal of Telecommunication, Electronic and Computer Engineering (JTEC), 10(2–8), 83–87.

He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition. CoRR, abs/1512.03385.

Howard, A., Sandler, M., Chu, G., Chen, L.-C., Chen, B., Tan, M., Wang, W., Zhu, Y., Pang, R., Vasudevan, V., Le, Q. V, & Adam, H. (2019). Searching for MobileNetV3. CoRR, abs/1905.02244.

Huang, G., Liu, Z., & Weinberger, K. Q. (2016). Densely Connected Convolutional Networks. CoRR, abs/1608.06993.

Iandola, F. N., Moskewicz, M. W., Ashraf, K., Han, S., Dally, W. J., & Keutzer, K. (2016). SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <1MB model size. CoRR, abs/1602.07360., I. (2022). Download Banana labeled image classifcation dataset labeled image dataset. Dalam

Indonesia, S. (2023). Statistical Yearbook of Indonesia 2023 (D. of Statistical Dissemination, Ed.). BPS-Statistics Indonesia.

Krizhevsky, A. (2014). One weird trick for parallelizing convolutional neural networks. CoRR, abs/1404.5997.

Luciano, N., de Freitas, E. D. G., Xavier, M. V., Gomes, D. G., & Neves, J. P. H. (2023). Banana ripeness dataset. Kaggle.

Mazen, F. M. A., & Nashat, A. A. (2019). Ripeness Classification of Bananas Using an Artificial Neural Network. Arabian Journal for Science and Engineering, 44(8), 6901–6910.

Mishra, R., Goyal, S., Choudhury, T., & Sarkar, T. (2022). Banana ripeness classification using transfer learning techniques. 2022 International Conference on Computing, Communication, Security and Intelligent Systems (IC3SIS), 1–6.

Mohamedon, M. F., Rahman, F. A., Mohamad, S. Y., & Khalifa, O. O. (2021). Banana Ripeness Classification Using Computer Vision-based Mobile Application. 2021 8th International Conference on Computer and Communication Engineering (ICCCE), 335–338.

Murmu, S. B., & Mishra, H. N. (2018). Post-harvest shelf-life of banana and guava: Mechanisms of common degradation problems and emerging counteracting strategies. Innovative Food Science & Emerging Technologies, 49, 20–30.

Rico-Fernández, M. P., Rios-Cabrera, R., Castelán, M., Guerrero-Reyes, H. I., & Juarez-Maldonado, A. (2019). A contextualized approach for segmentation of foliage in different crop species. Computers and Electronics in Agriculture, 156, 378–386.

Sandler, M., Howard, A. G., Zhu, M., Zhmoginov, A., & Chen, L.-C. (2018). Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and Segmentation. CoRR, abs/1801.04381.

Saragih, R. E., & Emanuel, A. W. R. (2021). Banana Ripeness Classification Based on Deep Learning using Convolutional Neural Network. 2021 3rd East Indonesia Conference on Computer and Information Technology (EIConCIT), 85–89.

Saranya, N., Srinivasan, K., & Kumar, S. K. P. (2022). Banana ripeness stage identification: a deep learning approach. Journal of Ambient Intelligence and Humanized Computing, 13(8), 4033–4039.

Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. Dalam Y. Bengio & Y. LeCun (Ed.), 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings.

Tanzi, L., Audisio, A., Cirrincione, G., Aprato, A., & Vezzetti, E. (2022). Vision Transformer for femur fracture classification. Injury, 53(7), 2625–2634.

Tri Judi Mulajati. (2022). fresh-raw-rotten-banana Dataset. Dalam Roboflow Universe. Roboflow.

Von Loesecke, H. W. (1950). Bananas: Chemistry, Physiology, Technology. Interscience Publishers.

Zhang, Y., Zhang, F., & Chen, N. (2022). Migratable urban street scene sensing method based on vision language pre-trained model. International Journal of Applied Earth Observation and Geoinformation, 113, 102989.

Zheng, H., Wang, G., & Li, X. (2022). Identifying strawberry appearance quality by vision transformers and support vector machine. Journal of Food Process Engineering, 45(10), e14132.






Ilmu Komputer

Cara Mengutip

Vision Transformer untuk Klasifikasi Kematangan Pisang. (2024). Jurnal Teknologi Informasi Dan Ilmu Komputer, 11(1), 75-84.