PERBANDINGAN KINERJA KLASIFIKASI DOKUMEN TEKS DENGAN PENDEKATAN OPTIMALISASI K-NN DAN NAVE BAYES

Abstract

Di era saat ini, informasi tersedia dalam berbagai format, seperti teks, gambar, video, audio dan bentuk lainnya. Korpus adalah sebuah kumpulan dokumen dalam jumlah yang besar. Dengan menggunakan Information Retrieval (IR), dimungkinkan untuk mendapatkan informasi (informasi tidak terstruktur) dan automatic summary, klasifikasi dan pengelompokkan. Penelitian ini focus pada klasifikasi data dengan menggunakan dua dari enam pendekatan klasifikasi data, yaitu k-NN (k-Nearest Neighbors) dan Nave Bayes. Dokumen teks yang digunakan dalam bentuk format XML. Korpus yang digunakan dalam penelitian ini diunduh dari TREC Legal Track dengan jumlah data lebih dari tiga ribu dokumen teks dan lebih dari dua puluh pengelompokkan. Dari dua puluh kelompok dipilih enam kelompok dengan jumlah dokumen teks terbanyak. Data diproses menggunakan software RapidMiner dan hasil menunjukkan nilai k optimum dari k-NN terjadi pada k=13. Dengan nilai k ini, rata-rata akurasi yang didapat adalah 55,17 persen, yang mana rata-rata akurasi ini lebih baik dibandingkan akurasi dari Nave Bayes sebesar 39,01 persen.

Keywords

k-NN, Nave Bayes, Klasifikasi dokumen teks, Information Retrieval

Source of Fund

Hibah BINUS

Funding Institution

BINUS

Fund

Rp.10.000.000,00

Contract Number

020A/VR.RTT/IV/2017

Author(s)

Dr. Reina, S.Kom., M.M.
Dr. Zulfany Erlisa Rasjid, B.Sc., MMSI.

Dr. Reina, S.Kom., M.M.

Dr. Zulfany Erlisa Rasjid, B.Sc., MMSI.