Abstract
Sebagai salah satu komponen penting dalam menyampaikan informasi, studi teks menjadi sangat menarik termasuk text mining yang merupakan salah satu cabang keilmuan dari data mining. Ada banyak variasi permasalahan dalam data mining seperti klasifikasi, clustering, prediksi dan asosiasi. Subjek masalah dalam teks mining juga sangat bervariasi. Pada penelitian ini akan berfokus pada peringkasan teks (ekstraktif), argument mining yang pemecahan masalahnya dilakukan seperti regresi dan klasfikasi teks yang pada penelitian berfokus pada dua kasus, sarkasme dan sentiment analisis. Penilitian ini menggunakan dataset dengan bahasa yang berbeda. Untuk ringkasan, dan klasifikasi sarkasme dan sentiment akan menggunakan dataset berbahasa Indonesia, sedangkan untuk argument mining akan menggunakan dataset berbahasa inggris. Oleh karena itu pre train yang digunakan juga berbeda untuk setiap Bahasa yang digunakan. Word embedding yang dilakukan dengan menggunakan wordpiece, yang memang digunakan dalam Bidirectional Encoder Representations from Transformer atau BERT. Untuk setiap kasus akan diimplementasikan menggunakan BERT, sehingga ada tiga atau empat model yang akan dilakukan. Namun demikian untuk beberapa kasus, pembangunan model akan dikombinasi dengan CNN model, sehingga hasilnya bisa diperoleh yang terbaik. Evaluasi juga akan dilakukan dengan membandingkan performance metode-metode sebelumnya
Keywords
ringkasan, argument, klasifikasi, text mining, BERT