Optimasi Multi Fitur pada Sistem Pengenalan Emosi Suara

Abstract

Dalam mengembangkan suatu sistem interaksi antara manusia dan mesin (komputer), kompenen pengenal emosi yang terkandung dalam suara manusia adalah bagian yang penting, atau yang lebih dikenal dengan istilah Speech Emotion Recognition (SER). Penelitian di bidang SER berkembang pesat. Dari sisi fitur, sudah banyak jenis fitur yang digunakan. Fitur yang berhungan dengan energi dan turunannya adalah Mel-Frequency Cepstral Coefficient (MFCC); yang berhubungan dengan tinggi rendahnya intonasi suara seperti prosodi; dan lain-lain. Fitur-fitur ini kemudian diolah oleh algoritma machine learning untuk membangun model classifier-nya, baik fitur tunggal maupun gabungan. Namun, jika menggunakan gabungan lebih dari satu jenis fitur, urutan penggabungan fitur-fitur tersebut masih perlu diteliti lebih lanjut. Urutan fitur seperti apa yang mampu menghasilkan model klasifikasi emosi yang paling optimum? Inilah yang menjadi rumusan masalah penelitian yang ingin diselesaikan. Dengan demikian, tujuan penelitian ini adalah untuk menemukan urutan tumpukan fitur-fitur suara yang paling optimum serta menemukan arsitektur Convolutional Neural Network (CNN) yang paling cocok sebagai model classfier-nya, dalam arti yang dapat memberikan kinerja terbaik. Untuk mencapai tujuan tersebut, tahap-tahap penelitian yang akan dilalui adalah pengumpulan data beserta pre-processing-nya, ekstraksi 5 jenis fitur, yakni MFCC, Chromagram, Mel-Spectogram, Contrast, dan Tonnetz, proses penumpukan fiturfitur tersebut, pengembangan model klasifikasi (training), termasuk hyperparameter tuning, dan terakhir adalah pengujian model beserta evaluasi dan analisisnya. Adapun luaran penelitian yang diharapkan adalah satu artikel yang diterima di jurnal internasional atau jurnal berindeks Scopus di samping tesis yang memang sudah menjadi luaran wajib yang diharapkan program studi. Dari sisi Tingkat Kesiapterapan Teknologi (TKT), target TKT penelitian ini adalah level 2, di mana konsep-konsep dari teknologi suara, khususnya teknologi pengenalan emosi pada suara, diterapkan/diaplikasikan hingga diperoleh model yang berfungsi baik, yang nantinya dapat dikembangkan menjadi suatu purwarupa atau aplikasi siap pakai.

Keywords

Speech Emotion Recognition; klasifikasi emosi suara; fitur suara; penumpukan fitur suara; Convolutional Neural Network (CNN)

Author(s)

Amalia Zahra, S.Kom., Ph. D.

Amalia Zahra, S.Kom., Ph. D.