Text Mining Study on Various Problem Using Bidirectional Encoder Representations from Transformer

Abstract

Sebagai salah satu komponen penting dalam menyampaikan informasi, studi teks menjadi sangat menarik termasuk text mining yang merupakan salah satu cabang keilmuan dari data mining. Ada banyak variasi permasalahan dalam data mining seperti klasifikasi, clustering, prediksi dan asosiasi. Subjek masalah dalam teks mining juga sangat bervariasi. Pada penelitian ini akan berfokus pada peringkasan teks (ekstraktif), argument mining yang pemecahan masalahnya dilakukan seperti regresi dan klasfikasi teks yang pada penelitian berfokus pada dua kasus, sarkasme dan sentiment analisis. Penilitian ini menggunakan dataset dengan bahasa yang berbeda. Untuk ringkasan, dan klasifikasi sarkasme dan sentiment akan menggunakan dataset berbahasa Indonesia, sedangkan untuk argument mining akan menggunakan dataset berbahasa inggris. Oleh karena itu pre train yang digunakan juga berbeda untuk setiap Bahasa yang digunakan. Word embedding yang dilakukan dengan menggunakan wordpiece, yang memang digunakan dalam Bidirectional Encoder Representations from Transformer atau BERT. Untuk setiap kasus akan diimplementasikan menggunakan BERT, sehingga ada tiga atau empat model yang akan dilakukan. Namun demikian untuk beberapa kasus, pembangunan model akan dikombinasi dengan CNN model, sehingga hasilnya bisa diperoleh yang terbaik. Evaluasi juga akan dilakukan dengan membandingkan performance metode-metode sebelumnya

Keywords

ringkasan, argument, klasifikasi, text mining, BERT

Source of Fund

International

Funding Institution

BINUS

Fund

Rp.45.000.000,00

Contract Number

061/VR.RTT/IV/2022

Author(s)

Melva Hermayanty Saragih, S.I.P., MBA
Prof. Abba Suganda Girsang, S.T., M.Cs., Ph.D.

Melva Hermayanty Saragih, S.I.P., MBA

Prof. Abba Suganda Girsang, S.T., M.Cs., Ph.D.