Identifikasi Emosi Manusia Berdasarkan Ucapan Menggunakan Metode Ekstraksi Ciri LPC dan Metode Euclidean Distance
DOI:
https://doi.org/10.25126/jtiik.2020722693Abstrak
Ucapan merupakan sinyal yang memiliki kompleksitas tinggi terdiri dari berbagai informasi. Informasi yang dapat ditangkap dari ucapan dapat berupa pesan terhadap lawan bicara, pembicara, bahasa, bahkan emosi pembicara itu sendiri tanpa disadari oleh si pembicara. Speech Processing adalah cabang dari pemrosesan sinyal digital yang bertujuan untuk terwujudnya interaksi yang natural antar manusia dan mesin. Karakteristik emosional adalah fitur yang terdapat dalam ucapan yang membawa ciri-ciri dari emosi pembicara. Linear Predictive Coding (LPC) adalah sebuah metode untuk mengekstraksi ciri dalam pemrosesan sinyal. Penelitian ini, menggunakan LPC sebagai ekstraksi ciri dan Metode Euclidean Distance untuk identifikasi emosi berdasarkan ciri yang didapatkan dari LPC. Penelitian ini menggunakan data emosi marah, sedih, bahagia, netral dan bosan. Data yang digunakan diambil dari Berlin Emo DB, dengan menggunakan tiga kalimat berbeda dan aktor yang berbeda juga. Penelitian ini menghasilkan akurasi pada emosi sedih 58,33%, emosi netral 50%, emosi marah 41,67%, emosi bahagia 8,33% dan untuk emosi bosan tidak dapat dikenali. Penggunaan Metode LPC sebagai ekstraksi ciri memberikan hasil yang kurang baik pada penelitian ini karena akurasi rata-rata hanya sebesar 31,67% untuk identifikasi semua emosi. Data suara yang digunakan dengan kalimat, aktor, umur dan aksen yang berbeda dapat mempengaruhi dalam pengenalan emosi, maka dari itu ekstraksi ciri dalam pengenalan pola ucapan emosi manusia sangat penting. Hasil akurasi pada penelitian ini masih sangat kecil dan dapat ditingkatkan dengan menggunakan ekstraksi ciri yang lain seperti prosidis, spektral, dan kualitas suara, penggunaan parameter max, min, mean, median, kurtosis dan skewenes. Selain itu penggunaan metode klasifikasi juga dapat mempengaruhi hasil pengenalan emosi.
Abstract
Speech is a signal that has a high complexity consisting of various information. Information that can be captured from speech can be in the form of messages to interlocutor, the speaker, the language, even the speaker's emotions themselves without the speaker realizing it. Speech Processing is a branch of digital signal processing aimed at the realization of natural interactions between humans and machines. Emotional characteristics are features contained in the speech that carry the characteristics of the speaker's emotions. Linear Predictive Coding (LPC) is a method for extracting features in signal processing. This research uses LPC as a feature extraction and Euclidean Distance Method to identify emotions based on features obtained from LPC. This study uses data on emotions of anger, sadness, happiness, neutrality, and boredom. The data used was taken from Berlin Emo DB, using three different sentences and different actors. This research resulted in inaccuracy in sad emotions 58.33%, neutral emotions 50%, angry emotions 41.67%, happy emotions 8.33% and bored emotions could not be recognized. The use of the LPC method as feature extraction gave unfavorable results in this study because the average accuracy was only 31.67% for the identification of all emotions. Voice data used with different sentences, actors, ages, and accents can influence the recognition of emotions, therefore the extraction of features in the recognition of speech patterns of human emotions is very important. Accuracy results in this study are still very small and can be improved by using other feature extractions such as provides, spectral, and sound quality, using parameters max, min, mean, median, kurtosis, and skewness. Besides the use of classification methods can also affect the results of emotional recognition.
Unduhan
Referensi
ASWARI, P. and DIANA, N. E. (2016) ‘Identifikasi Emosi Berdasarkan Action Unit Menggunakan Metode Bézier Curve’, Sinergi. Mercu Buana University, 20(1), pp. 74–84. doi: 10.22441/sinergi.2016.1.010.
CHAMOLI, A., SEMWAL, A. and SAIKIA, N. (2017) ‘Detection Of Emotion In Analysis Of Speech Using Linear Predictive Coding Techniques (L.P.C)’, in Proceedings of the International Conference on Inventive Systems and Control, ICISC 2017, pp. 1–4. doi: 10.1109/ICISC.2017.8068642.
CHAUDHARI, P. R. and ALEX, J. S. R. (2016) ‘Selection of Features for Emotion Recognition from Speech’, Indian Journal of Science and Technology, 9(39), pp. 1–5. doi: 10.17485/ijst/2016/v9i39/95585.
DEWI, I. A., ZULKARNAIN, A. and LESTARI, A. A. (2018) ‘Identifikasi Suara Tangisan Bayi menggunakan Metode LPC dan Euclidean Distance’, ELKOMIKA: Jurnal Teknik Energi Elektrik, Teknik Telekomunikasi, & Teknik Elektronika, 6(1), p. 153. doi: 10.26760/elkomika.v6i1.153.
DEZA, M. M. and DEZA, E. (2009) ‘Encyclopedia of distances’, in Encyclopedia of distances. Springer, pp. 1–583.
GUMELAR, A. B. et al. (2019) ‘Human Voice Emotion Identification Using Prosodic and Spectral Feature Extraction Based on Deep Neural Networks’, in 2019 IEEE 7th International Conference on Serious Games and Applications for Health (SeGAH). IEEE, pp. 1–8.
IRMAWAN et al. (2014) ‘Pengenalan Kata dengan Metode Linear Predictive Coding dan Jaringan Syaraf Tiruan Pada Mobile Robot’, in Conference on Information Technology and Electrical Engineering, pp. 139–144.
KUMAR, Y. and MAHAJAN, M. (2019) ‘Machine Learning Based Speech Emotions Recognition System’, International Journal of Scientific and Technology Research, 8(7), pp. 722–729.
LANJEWAR, R. B., MATHURKAR, S. and PATEL, N. (2015) ‘Implementation and Comparison of Speech Emotion Recognition System Using Gaussian Mixture Model (GMM) and K- Nearest Neighbor (K-NN) Techniques’, Procedia Computer Science. Elsevier, 49, pp. 50–57. doi: 10.1016/J.PROCS.2015.04.226.
LIKITHA, M. S. et al. (2017) ‘Speech based human emotion recognition using MFCC’, in 2017 International Conference on Wireless Communications, Signal Processing and Networking (WiSPNET), pp. 2257–2260. doi: 10.1109/WiSPNET.2017.8300161.
PRASETIO, B. H., KURNIAWAN, W. and ICHSAN, M. H. H. (2017) ‘Pengenalan Emosi Berdasarkan Suara Menggunakan Algoritma HMM’, 4(3), pp. 168–172. doi: 10.25126/jtiik.201743339.
RAHMAWANTHI, I., RAHARJO, J. and RUSDINAR, A. (2019) ‘Deteksi Suara Manusia dalam Keadaan Emosi dengan menggunakan Linear Predictive Coding (LPC) dengan Klasifikasi Coarse To Fine Search (CFS) Berbasis Pengolahan Data’, eProceedings of Engineering, 6(1).
SURYA, R. A., FADLIL, A. and YUDHANA, A. (2017) ‘Ekstraksi Ciri Metode Gray Level Co-Occurrence Matrix (GLCM) dan Filter Gabor untuk Klasifikasi citra Batik Pekalongan’, JURNAL INFORMATIKA : Jurnal Pengembangan IT, 2(2), pp. 23–26. Available at: http://ejournal.poltektegal.ac.id/index.php/informatika/article/view/520.
THIANG, H. S. (2005) ‘Sistem Pengenalan Kata dengan Menggunakan Linear Predictive Coding dan Nearest Neighbor Classifier’, Jurnal Teknik Elektro, 5(1), pp. 19–24.
WANG, K. et al. (2015) ‘Speech Emotion Recognition Using Fourier Parameters’, IEEE Transactions on Affective Computing, 6(1), pp. 69–75. doi: 10.1109/TAFFC.2015.2392101.
YUDHANA, A. et al. (2017) ‘Pengolahan Sinyal Fleks Sensor pada Sarung Tangan Pintar Penerjemah Bahasa Isyarat’, in Annual Research Seminar (ARS), pp. 296–299.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi

Artikel ini berlisensi Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Penulis yang menerbitkan di jurnal ini menyetujui ketentuan berikut:
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).