Speech Emotion Recognition Using Fourier Parameters

Thesis: Speech Emotion Recognition Using Fourier Parameter

Author:Kunxia Wang
Dept. of Electron. Eng., Hefei Univ. of Technol., Hefei, China
Ning An ; Bing Nan Li ; Yanyong Zhang ; Lian Li

Date of publication: 2015, January 14

bigstock-Speech-Recognition-Blue-Wavef-25004582 (2)

Thesis ini menjelaskan tentang pengenalan emosi seseorang berdasarkan intonasi saat berbicara. Metode yang digunakan kali ini adalah melalui pendekatan perubahan fourier.

Kemajuan teknologi saat ini telah mencapai tahap dimana sistem dapat mengenali emosi dan perasaan seseorang berdasarkan intonasi saat mereka berbicara. “Speech Emotion Recognition” yang belakangan ini menjadi pusat perhatian para ilmuan, merupakan proses pengenalan emosi manusia berdasarkan proses ekstrasi dari perubahan nada bicara. Banyak sekali fungsi dalam pengaplikasian sistem ini, misalnya dalam Health-care system, alat pembantu pengingat, serta investigasi kriminal.

Agar mendapatkan hasil gelombang suara yang maksimal, data mentah yang berupa suara diubah dalam bentuk format yang sesuai. Namun, data tersebut harus mengandung ke-khas-an dari pitch suara serta energi. Dalam thesis sebelumnya, MFCC(Mel-frequency Cepstral Coefficient) berperan penting untuk membedakan frekuensi data suara. Lalu untuk dapat membedakan perasaan atau emosi seseorang, seperti: rasa marah, bahagia, sedih, terkejut, cemas, etc., digunakan Markov Model(HMM). Dari penggunaan MFCC saja, hasil penelitian menunjukkan bahwa sistem dapat mengenali perasaan sesorang dengan tepat sekitar 65.5%. Jika model tersebut digabungkan dengan metode lain, maka tingkat keakuratan sistem dalam mengenali emosi manusia dapat meningkat.

Dalam thesis kali ini, fungsi dari perubahan Fourier parameter yang menjadi peran utama. Mengapa harus menggunakan FP? Karena FP berfungsi dalam pemrosesan sinyal, seperti: filtering, coding, pengenalan khas pola. Sinyal suara dapat dinyatakan sebagai hasil saat lolos melewati gelombang eksitasi glottal melalui variasi waktu filter linear. Dari hasil percobaan menggunakan database dari EMODB (German emotional corpus) dan CASIA (Chinese emotional database), pengaplikasian MFCC dan digabungkan dengan FP method, akan menghasilkan tingkat keakuratan hingga mencapai 81% dalam proses pengenalan emosi manusia.

Well, kalau sistem saja bisa mengenali perasaan dan emosi manusia hanya dari mendengar saat mereka berbicara, kenapa manusia kadang kurang peka ya dalam menyadari perasaan orang lain? Lol. Intinya, dengan penggabungan metode MFCC dan FP, tingkat keakuratan menjadi lebih tinggi, dan mungkin jika dikembangkan lagi dapat mencapai hingga 90% (who knows..). 

Dirangkum dan ditranslete dalam bahasa Indonesia oleh Ghita Athalina

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s