Abstract
Di era saat ini, informasi tersedia dalam berbagai format, seperti teks, gambar, video, audio dan bentuk lainnya. Korpus adalah sebuah kumpulan dokumen dalam jumlah yang besar. Dengan menggunakan Information Retrieval (IR), dimungkinkan untuk mendapatkan informasi (informasi tidak terstruktur) dan automatic summary, klasifikasi dan pengelompokkan. Penelitian ini focus pada klasifikasi data dengan menggunakan dua dari enam pendekatan klasifikasi data, yaitu k-NN (k-Nearest Neighbors) dan Nave Bayes. Dokumen teks yang digunakan dalam bentuk format XML. Korpus yang digunakan dalam penelitian ini diunduh dari TREC Legal Track dengan jumlah data lebih dari tiga ribu dokumen teks dan lebih dari dua puluh pengelompokkan. Dari dua puluh kelompok dipilih enam kelompok dengan jumlah dokumen teks terbanyak. Data diproses menggunakan software RapidMiner dan hasil menunjukkan nilai k optimum dari k-NN terjadi pada k=13. Dengan nilai k ini, rata-rata akurasi yang didapat adalah 55,17 persen, yang mana rata-rata akurasi ini lebih baik dibandingkan akurasi dari Nave Bayes sebesar 39,01 persen.
Keywords
k-NN, Nave Bayes, Klasifikasi dokumen teks, Information Retrieval