Peringkasan Teks Otomatis Bahasa Indonesia Secara Abstraktif Dengan Menggunakan Pre-Trained model mT5

Abstract

Dengan banyaknya informasi yang tersebar di berbadai media, user harusnya bisa memilih, data terbaik untuk kebutuhan informasi tertentu dan waktu yang secepat mungkin. Oleh karena itu ada kebutuhan sistem peringkasan text /artikel agar user tertolong untuk memahami konten isi media tersebut dengan cepat. Peringkasan teks otomatis secara ekstraktif adalah dimana seluruh hasil ringkasannya terdiri dari kata kata atau kalimat ide utama yang diekstraksi dari dokumen aslinya. Sedangkan, peringkasan teks otomatis secara abstraktif menghasilkan ringkasan yang bisa saja mempunyai kalimat baru seperti melakukan paraphrase pada dokumen original sehingga hasil ringkasan secara abstraktif tidak terlihat canggung. Penelitian ini berfokus pada abstraktif. Peringkasan teks otomatis secara abstraktif bahasa Indonesia masih sangat sedikit jumlahnya. Penelitian dengan dataset berbahasa Indonesia sudah pernah dilakukan menggunakan metode Bi-GRU tetapi ringkasan hasil penelitian tersebut kurang baik. Ada juga penelitian dalam bahasa lain menggunakan model yang lebih baru seperti GPT2, BERT, mBART, pointer generator untuk mendapatkan hasil ringkasan yang lebih baik, Berdasarkan analisis penelitian terdahulu, didapatkan bahwa keuntungan T5 (model dasar dari mT5) adalah arsitektur model encoder decoder seperti T5 secara umum mengungguli arsitektur model yang hanya menggunakan decoder atau encoder saja. Keuntungan lain dari T5 adalah memungkinkannya penggunaan satu set hyperparameter dapat dipakai untuk melakukan fine-tuning efektif dalam tugas downstream natural language processing (NLP) apapun seperti: machine translation, abstractive summarization, question answering, dan classification task.

Keywords

abstractive text summarization; fine-tuning; peringkas teks otomatis abstraktif, pre-trained model

Source of Fund

Penelitian Tesis Magister

Funding Institution

DIKTI

Fund

Rp.25.800.000,00

Contract Number

149/VR.RTT/VII/2023

Author(s)

Prof. Abba Suganda Girsang, S.T., M.Cs., Ph.D.

Prof. Abba Suganda Girsang, S.T., M.Cs., Ph.D.