Framework Sistem Dialog Multimodal Menggunakan Deep Reinforcement dan Self-Supervised Contrastive Learning dengan Variabel Tambahan Emosi dan Kepribadian

Abstract

Saat ini banyak sekali chat-bot yang sudah dikembangkan sebagai virtual assistant. Namun sampai sekarang belum ada teknologi yang dapat berinteraksi secara natural dengan manusia. Virtual assistant seperti Siri atau Google belum dapat benar-benar mengerti intesi kita, emosi kita, serta belum dapat menginterpretasikan hubungan sosial [1]. Hal ini dikarenakan model dialog atau komunikasi yang kita miliki sangatlah kompleks untuk dapat dimengerti dan diproses oleh komputer yang secara hakikinya tidak mengerti kecerdasan sosial Salah satu kesulitan dalam membangun model komputasi untuk dialog adalah tidak adanya dataset lokal (Bahasa Indonesia) yang komprehensif untuk dialog multimodal (speech, ekspresi wajah, dan text). Berdasarkan latar belakang tersebut, peneliti mengusulkan untuk merancang dataset untuk dialog multimodal dalam Bahasa Indonesia dan juga membangun framework sistem dialog multimodal Menggunakan Deep Reinforcement dan Self-Supervised Contrastive Learning dengan variabel tambahan emosi dan kepribadian. Gabungan antara Deep Reinforcement dan Self-Supervised Contrastive Learning akan mengatasi permasalah kurangnya dataset yang ada. Penelitian ini akan berjalan selama dua tahun, dimana pembanguan dataset multimodal dan pembentukan model emosi dan kepribadian akan dilaksanakan pada tahun pertama. Keseluruhan framework untuk sistem dialog multimodal akan dilaksanakan pada tahun kedua. Pada tahun kedua juga akan dirancang sebuah teman cerita virtual, dimana para pengguna dapat bercerita tentang apa saja dengan komputer. Skenario ini dipilih karena pada kondisi pandemi ini banyak sekali orang yang butuh teman untuk cerita atau curhat. Evaluasi yang akan dilaksanakan pada penelitian ini adalah evaluasi secara model dengan F1 Score, Precision, Recall dan Perplexity. Selain itu akan ada evaluasi dengan menggunakan kuisioner dan wawancara singkat untuk menceritakan pengalaman dalam berinteraksi secara sosial dengan komputer dengan model yang diajukan. Hasil akhir yang ingin dicapai pada tahun ke 2 penelitian adalah framework sistem dialog multimodal dengan emosi dan kepribadian. Luaran yang ditargetkan pada penelitian ini adalah sebuah jurnal internasional Q1 dan sebuah prosiding seminar internasional terindex scopus pada setiap tahun. Dengan luaran tambahan berupa HKI, dataset dan dokumentasi penelitian

Keywords

Model emosi multimodal, Model kepribadian, model dialog, self-supervised learning, Deep Reinforcement Learing.

Author(s)

Dr. Esther Widhi Andangsari, M.Si., Psi.
Ir. Andry Chowanda, S.Kom., MM, Ph.D., MBCS, CCP, CME, IPM, SMIEEE
Irene Anindaputri Iswanto, S.Kom., M.Sc.Eng.

Dr. Esther Widhi Andangsari, M.Si., Psi.

Ir. Andry Chowanda, S.Kom., MM, Ph.D., MBCS, CCP, CME, IPM, SMIEEE

Irene Anindaputri Iswanto, S.Kom., M.Sc.Eng.