5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk 450 GB. Praproses HASIL DAN PEMBAHASAN Dokumen dalam format XML terdiri atas data latih dan data uji serta dilakukan proses indexing menggunakan sistem dari Cidhy (2009). Pada dokumen latih pertanian berjumlah 174 dihasilkan 2868 kata unik atau term sedangkan pada dokumen latih berita berjumlah 500 dihasilkan 11285 kata unik. Pelatihan Pada tahap pelatihan ini keempat metode atau classifier memiliki cara berbeda dalam perhitungannya. Pada metode Rocchio kata unik atau term dihitung bobotnya dengan metode sublinear tf scaling. Setelah itu term atau kata unik dianggap sebuah vektor dan setiap kelas dihitung vektor centroid-nya masing-masing. Nilai vektor centroid disimpan dalam database untuk digunakan dalam perhitungan klasifikasi berikutnya. Pada metode Naїve Bayes, dihitung peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata disimpan dalam database. Pada metode Bernoulli, dihitung juga peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata juga disimpan dalam database seperti pada metode Naїve Bayes. Pada metode Poisson Naїve Bayes dihitung peluang dari setiap term, nilai rata-rata dari distribusi poisson terhadap masing-masing kelas, dan bobot dari setiap term menggunakan pembobotan rasio peluang. Nilai peluang, bobot, dan nilai rata-rata distribusi poisson setiap term disimpan dalam database. Classifier Tunggal Pada metode Rocchio dokumen uji dihitung bobotnya dengan metode Sublinear tf scaling. Setelah itu dihitung jarak centroid kelas dengan dokumen uji mengunakan metode Euclidean distance. Dokumen uji akan diklasifikasikan ke- dalam kelas memiliki jarak terdekat dengan dokumen uji. klasifikasi dari setiap metode ada dapat dihitung dengan bantuan tabel confusion matrix. Pada dokumen pertanian akurasi metode rocchio dihitung dengan tabel confusion matrix dapat dilihat pada Tabel 2. Demikian juga akurasi untuk dokumen berita dapat dilihat pada Tabel 3. Dari Tabel 2 dan Tabel 3 dapat dilihat bahwa pada dokumen pertanian banyak terjadi kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. pada dokumen pertanian dengan metode Rocchio ini adalah 61.23%, dan untuk dokumen berita menghasilkan akurasi 97.2%. pada dokumen pertanian lebih rendah dibandingkan. Hal ini karena pada dokumen pertanian setiap kelasnya masih memiliki hubungan atau keterkaitan, sehingga setiap centroid kelas memiliki jarak sama. Akibat centorid jarak sama ini banyak terjadi Pada dokumen berita hasil akurasinya tinggi karena tidak ada keterkaitan setiap kelas, sehingga jarak antara centroid setiap kelas berbeda. Akibatnya sedikit terjadi kesalahan pengklasifikasian. Hasil klasifikasi dengan metode ini sangat dipengaruhi oleh nilai centroid setiap kelas. Tabel 2 Confusion matrix metode Rocchio EA 16 5 4 0.64 PTB 4 18 3 0.72 P 9 4 12 0.48 Tabel 3 Confusion matrix metode Rocchio B 48 1 0 0 1 0.96 E 0 50 0 1 0 1.00 K 0 1 48 1 0 0.96 L 0 1 0 48 1 0.96 P 0 0 0 1 49 0.98
6 Pada metode Naїve Bayes, peluang setiap term pada dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji terhadap kelas ada. Dokumen uji akan dimasukkan pada kelas memiliki peluang terbesar. pada dokumen pertanian dengan metode Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 4. Hal serupa dilakukan pada dokumen berita, hasil akurasinya dapat dilihat pada Tabel 5. Tabel 4 Confusion matrix metode Naїve Bayes EA 13 5 7 0.52 PTB 2 20 3 0.80 P 4 5 16 0.64 Tabel 5 Confusion matrix metode Naїve Bayes B 46 1 1 0 2 0.92 E 0 48 0 1 1 0.96 K 0 0 49 1 0 0.98 L 0 1 0 48 1 0.96 P 2 0 0 0 48 0.96 Dari Tabel 4 dan Tabel 5 dapat dilihat pada dokumen pertanian terjadi banyak kesalahan berita sedikit. pada dokumen pertanian dengan metode Naїve Bayes ini adalah 65.33%, dan untuk dokumen berita menghasilkan 76.8%. dokumen berita lebih tinggi dibandingkan dokumen pertanian. Hal ini karena pada dokumen berita setiap kelasnya saling bebas atau tidak ada keterkaitan antara kelasnya. Akibatnya setiap kelas memiliki penciri kata atau term berbeda, sehingga terjadi sedikit Pada dokumen pertanian hasil akurasinya rendah karena setiap kelas memiliki keterkaitan. Akibatnya kata atau term dari masing-masing kelas sama, sehingga banyak terjadi kesalahan pengklasifikasian. Pada metode Bernoulli peluang kata atau term dari dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji masuk ke dalam kelas ada. Perhitungan ini mirip dengan metode Naїve Bayes, perbedaannya adalah metode Bernoulli hanya memperhitungkan rasio dokumen dari setiap kelas mengandung kata atau term. pada dokumen pertanian dengan metode Bernoulli dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 6. Demikian juga hasil akurasi untuk dokumen berita dapat dilihat pada Tabel 7. Dari Tabel 6 dan Tabel 7 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pertanian banyak pada dokumen pertanian dengan metode Bernoulli ini adalah 61.33%, dan untuk dokumen berita menghasilkan 76.8%. dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan sehingga kata atau term dari setiap kelas sama. Akibatnya banyak terjadi Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian. Tabel 6 Confusion matrix metode Bernoulli EA 11 1 13 0.44 PTB 2 16 7 0.64 P 3 3 19 0.76 Tabel 7 Confusion matrix metode Bernoulli B 37 2 2 1 8 0.74 E 0 27 0 5 18 0.54 K 0 0 38 4 8 0.76 L 0 0 0 41 9 0.82 P 0 1 0 0 49 0.98 Pada metode Poisson Naїve Bayes dokumen uji dihitung bobot setiap term (w ic ), serta nilai rata-rata kemunculan kata setiap dokumen pada kelas c dan kelas bukan c (λ dan μ). Setelah itu, dihitung peluang dokumen uji terhadap kelas
7 ada. Dokumen uji akan dimasukkan pada kelas memiliki peluang terbesar. pada dokumen pertanian dengan metode Poisson Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 8. Hal serupa dilakukan pada dokumen berita, sehingga hasil akurasinya dapat dilihat pada Tabel 9. Tabel 8 Confusion matrix metode Poisson Naïve Bayes EA 14 9 2 0.56 PTB 4 19 2 0.76 P 8 6 11 0.44 Tabel 9 Confusion matrix metode Poisson Naïve Bayes B 50 0 0 0 0 1.00 E 0 50 0 0 0 1.00 K 0 0 50 0 0 1.00 L 0 4 1 43 2 0.86 P 0 0 0 1 49 0.98 Dari Tabel 8 dan Tabel 9 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pertanian banyak pada dokumen pertanian dengan metode Poisson Naїve Bayes ini adalah 58.67 %, dan untuk dokumen berita menghasilkan akurasi 96.8%. dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan atau tidak saling bebas sehingga kata atau term dari setiap kelas sama. Akibatnya banyak terjadi Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan atau saling bebas sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit Klasifikasi DCS-LA Hasil klasifikasi dari empat classifier dihitung dengan metode DCS-LA. Pada perhitungan pertama dilakukan simple voting. Jika semua classifier ini menghasilkan kelas sama atau setuju maka langsung dilabelkan kelas tersebut. Jika hasil klasifikasi masingmasing classifier berbeda maka dilakukan proses k-nn. Pada perhitungan k-nn, digunakan IDW sebagai pembobotan untuk menentukan hasil klasifikasi terpilih. Pada dokumen pertanian dan berita dilakukan beberapa percobaan dengan nilai k = 1 sampai k = 30. Pada dokumen pertanian akurasi tertinggi terdapat pada nilai k sama dengan 24 dan 25 sebesar 66.67%. terendah pada klasifikasi DCS-LA ini adalah ketika k bernilai 6 sampai 30 sebesar 57.33%. Pada dokumen berita akurasi tertinggi terdapat pada k = 1 sebesar 97.6% dan terendah ketika k bernilai 3 sampai 30 sebesar 96.4%. Hasil akurasi klasifikasi DCS-LA dapat dilihat pada Gambar 3. 6 4 2 Dokumen Pertanian Dokumen Berita 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 Parameter- k Gambar 3 Grafik hasil klasifikasi DCS-LA menggunakan IDW. Dari Gambar 3 dapat dilihat bahwa akurasi dari dokumen berita lebih tinggi dari dokumen pertanian. Hasil ini dipengaruhi oleh akurasi dari setiap classifier. Semakin tinggi akurasi dari setiap classifier maka semakin tinggi pula akurasi dari DCS-LA begitu pula sebaliknya. Pada dokumen pertanian parameter-k mempengaruhi akurasi klasifikasi, terlihat bahwa rentang akurasi dari dokumen pertanian mencapai 9.34%. Pada dokumen berita parameter-k tidak berpengaruh secara signifikan, terlihat bahwa rentang akurasinya hanya 1.2%. Perbandingan akurasi ini dapat dilihat pada Gambar 3. Hasil akurasi pada dokumen pertanian dengan metode DCS-LA adalah 66.67%, sedangkan pada dokumen berita sebesar 96.4% Pada penelitian ini, tinggi rendahnya akurasi dimiliki oleh DCS-LA dipengaruhi oleh ke-
8 empat classifier yaitu: Rocchio, Naїve Bayes, Bernoulli dan Poisson Naїve Bayes. Dari Gambar 3 akurasi DCS-LA pada dokumen pertanian lebih rendah dibandingan dokumen berita. Hal ini disebabkan pada dokumen berita setiap kelasnya tidak berhubungan atau saling bebas, sedangkan pada dokumen pertanian setiap kelasnya berkaitan. Keterkaitan antarkelas pada dokumen pertanian dan berita masing-masing 48% dan 1 (Ramadhan 2010), keterkaitan kecil pada dokumen berita mempengaruhi akurasi klasifikasi Jika dihitung akurasi rata-rata dari classifier pada dokumen pertanian sebesar 61% dan dokumen berita sebesar 91.6%. Jika dibandingkan akurasi rata-rata dengan akurasi DCS-LA, maka metode DCS-LA memiliki akurasi lebih tinggi dari akurasi rata-rata classifier. dapat ditingkatkan dengan penambahan classifier. Perbandingan akurasi setiap classifier dengan DCS-LA dapat dilihat pada Gambar 4. 6 4 2 97% 95% 61% 65% 61% 58% Dokumen pertanian Gambar 4 Diagram perbandingan classifier dengan DCS-LA. Perbandingan Klasifikasi 76% 96% 96% 66% Dokumen berita Perbandingan dilakukan dengan cara membandingkan DCS-LA menggunakan IDW dengan DCS-LA tanpa IDW dari Ramadhan (2010). Hasil akurasi DCS-LA dengan IDW lebih baik dibandingkan DCS-LA tanpa IDW. Perbandingan akurasi ini dapat dilihat pada Gambar 5. Penambahan satu classifier yaitu Poisson Naїve Bayes dapat menambah akurasi dari DCS- LA. Pada Gambar 5 dapat dilihat bahwa DCS- LA dengan empat classifier memiliki akurasi lebih tinggi dibandingkan dengan DCS-LA dengan tiga classifier. DCS-LA tanpa IDW dengan tiga classifier menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita, dan pada DCS-LA tanpa IDW dengan empat classifier menghasilkan akurasi 61.33% untuk dokumen pertanian dan 91.6% untuk dokumen berita. 6 4 2 56% 84% 61% 91.6 94% 96.4 64% 66.67% a b c d Dokumen pertanian Dokumen berita Gambar 5 Perbandingan akurasi DCS-LA: a = klasifikasi DCS-LA tanpa IDW dengan tiga classifier, b = klasifikasi DCS-LA tanpa IDW dan empat classifier, c = klasifikasi DCS-LA dengan IDW dan tiga classifier, d = klasifikasi DCS-LA dengan IDW dan empat classifier. Pengaruh penambahan Poisson Naїve Bayes pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat dua kasus (dokumen nomor 25 dan 67) menunjukkan bahwa tiga classifier Rocchio, Naїve Bayes dan Bernoulli menghasilkan kelas prediksi salah sedangkan Poisson Naїve Bayes menghasilkan kelas prediksi benar, sehingga menghasilkan kelas prediksi dari DCS- LA benar. Penambahan pembobotan IDW juga dapat meningkatkan akurasi dari DCS-LA. Pada Gambar 5 dapat dilihat untuk DCS-LA dengan tiga classifier bahwa penambahan IDW pada metode tersebut dapat meningkatkan akurasi sampai 64% untuk dokumen pertanian dan 94 % untuk dokumen berita. Begitu pula dengan DCS-LA dengan empat classifier akurasinya meningkat menjadi 66.67% untuk dokumen pertanian dan 96.4% untuk dokumen berita setelah penambahan IDW.
9 Pengaruh penambahan pembobotan IDW pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat tiga kasus (dokumen nomor 27, 58, dan 66) menunjukkan bahwa DCS-LA dengan penambahan IDW memiliki kelas prediksi benar sedangkan pada DCS-LA hanya menambahkan satu classifier menghasilkan kelas prediksi salah. Pada Gambar 5 dapat dilihat pula bahwa penambahan IDW dapat meningkatkan akurasi lebih tinggi dibandingkan dengan hanya menambahkan satu classifier. Selain itu, penambahan IDW dan satu classifier sekaligus, memiliki akurasi lebih tinggi dibandingkan dengan hanya menambahkan satu classifier atau IDW saja. KESIMPULAN DAN SARAN Dari penelitian dalam menerapkan algoritme DCS-LA dengan IDW untuk klasifikasi dokumen pertanian dan dokumen berita dalam bahasa Indonesia, didapatkan kesimpulan sebagai berikut: 1 Penerapan klasifikasi DCS-LA dengan IDW untuk dokumen teks bahasa Indonesia berhasil dilakukan. 2 dari metode DCS-LA ini sebesar 66.67% pada dokumen pertanian dan dokumen berita 96.4%. 3 metode DCS-LA dengan IDW lebih tinggi dibandingkan dengan DCS-LA tanpa IDW. 4 DCS-LA dengan empat classifier lebih tinggi dibandingkan dengan tiga classifier. 5 Metode DCS-LA menghasilkan akurasi lebih tinggi dari akurasi rata-rata classifier. 6 saling berhubungan atau terkait dapat memberikan hasil akurasi rendah. Saran diberikan untuk pengembangan lebih lanjut pada penelitian ini adalah sebagai berikut: 1 Mencoba menggunakan komponen classifier lainnya misalkan MCA atau SVM untuk dibandingkan. 2 Menambahkan atau mengganti komponen classifier pada sistem DCS-LA ini. 3 Membandingkan akurasi DCS-LA dengan AAC untuk dokumen berbahasa Indonesia. DAFTAR PUSTAKA Cidhy DATK. 2009. Implementasi Question Answering System dengan Pembobotan Heuristic [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Hamel L. 2008. The Encyclopedia of Data Warehousing and Mining. Ed. ke-2. Rhode Island: Idea Group Publisher. Han J, Kamber M. 2006. Data Mining: Concept and Techniques. Ed. ke-2. San Francisco: Morgan Kaufmann Publishers. Ho TK, Hull JJ, Srihari SN. 1994. Desicion Combination in Multiple Classifier Systems. IEEE Transactions on Analisys and Machine Intelegence 16(1): 66-75. Juniawan I. 2009. Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Kim SB. 2001. Poisson Naive Bayes for Text Classification with Feature Weighting. Di dalam: Adachi J, editor. Proceedings of the 6th International Workshop on Information Retrieval with Asian Languange; Sappro, 7 Juli 2003. Stroudsburg: Association for Computational Linguistics. hlm 33-40. Li YH, Jain AK. 1998. Classification of Text Document. The Computer Journal 41(8): 537-546. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Morales AI, Valdovinos RM, Sanchez JS. 2008. On the Weighted Dynamic Classifier Selection with Local Accuracies. Di dalam: Grigoriadis K, editor. Proceedings of the 11th IASTED International Conference; Orlando, 16-18 November 1998. Anaheim: ACTA Press. hlm 204-206. Ramadhan R. 2010. Klasifikasi Dokumen Berbahasa Indonesia Menggunakan Dinamic Classifier Selection with Local Accuracies (DCS-LA) [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Ridha A. 2002. Pengindeksan Otomatis Dengan Istilah Tunggal Untuk Dokumen Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB.