HASIL DAN PEMBAHASAN. Praproses

dokumen-dokumen yang mirip
KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE DCS-LA DENGAN INVERSE DISTANCE WEIGHTING RONI NOVETTIO CHAIRULLAH

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

BAB II TINJAUAN PUSTAKA

PENDAHULUAN. Latar belakang

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

JULIO ADISANTOSO - ILKOM IPB 1

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes

ROCCHIO CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION

KLASIFIKASI PADA TEXT MINING

BAB II LANDASAN TEORI

KLASIFIKASI PADA TEXT MINING

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Lingkungan Pengembangan Data Mining HASIL DAN PEMBAHASAN Preprocessing Data

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

Jurnal Politeknik Caltex Riau

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

Pemanfaatan Educational Data Mining (EDM)...

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

HASIL DAN PEMBAHASAN

Implementasi Algoritme Fuzzy K-Nearest Neighbor untuk Penentuan Lulus Tepat Waktu (Studi Kasus : Fakultas Ilmu Komputer Universitas Brawijaya)

SISTEM TEMU KEMBALI INFORMASI

BAB II TINJAUAN PUSTAKA

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

DATA MINING UNTUK REKOMENDASI KERJA BAGI ALUMI DENGAN ALGORITMA GARC(GAIN BASED ASSOCIATION RULE CLASSIFICTION)

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

BAB 3 LANDASAN TEORI

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

Penentuan Jurusan Sekolah Menengah Atas Menggunakan Metode K-Nearest Neighbor Classifier Pada SMAN 16 Semarang

PENERAPAN ALGORITMA K-NEAREST NEIGHBORS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA STMIK SINAR NUSANTARA SURAKARTA

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

Klasifikasi Posting Twitter Kemacetan Lalu Lintas Kota Bandung Menggunakan Naive Bayesian Classification

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

PENENTUAN JALUR TERPENDEK PADA APLIKASI OJEK ONLINE GO-JEK DENGAN PROBABILISTIC NEURAL NETWORK (PNN) DAN PARTICLE SWARM OPTIMIZATION (PSO)

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

Abidah Elcholiqi, Beta Noranita, Indra Waspada

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang

JURNAL ITSMART Vol 4. No 1. Juni 2015 ISSN :

BAB IV HASIL DAN PEMBAHASAN

Gambar 1.1 Proses Text Mining [7]

BAB III METODE PENELITIAN

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

FM-UDINUS-BM-08-04/R0 SILABUS MATAKULIAH. Silabus: Information Retrieval Hal: 1 dari 5. Revisi : - Tanggal Berlaku : Januari 2015

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI

DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED

Sekip Utara Yogyakarta * 1 2

BAB III METODOLOGI PENELITIAN

Online News Classification Using Naive Bayes Classifier with Mutual Information for Feature Selection

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH

HASIL DAN PEMBAHASAN. Gambar 3 Ilustrasi pencarian titik pusat dan jari-jari pupil. Segmentasi

Gambar 6 Kenampakan pada citra Google Earth.

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

Agus Alim Muin S.Kom, M.Kom

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI PADA TWEET BERBAHASA INDONESIA MENGGUNAKAN METODE GRAVITASI DATA TUGAS AKHIR. Disusun Oleh : Mufida Lutfiah Ulfa

PENERAPAN DATA MINING UNTUK RENCANA SUKSESI SUMBER DAYA MANUSIA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOUR DI PT POS INDONESIA

Lingkungan Implementasi Clustering Menggunakan SOM HASIL DAN PEMBAHASAN Pengumpulan Data Perkembangan Anak Validasi Cluster Menggunakan

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

OPTIMASI NAÏVE BAYES DENGAN PEMILIHAN FITUR DAN PEMBOBOTAN GAIN RATIO

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

Analisis Sentimen Tentang Opini Pilkada Dki 2017 Pada Dokumen Twitter Berbahasa Indonesia Menggunakan Näive Bayes dan Pembobotan Emoji

PENGKLASIFIKASIAN BUNGA DENGAN MENGGUNAKAN METODE ISOMAP DAN NAIVE BAYES CLASSIFIER

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB II TINJAUAN PUSTAKA

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Transkripsi:

5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk 450 GB. Praproses HASIL DAN PEMBAHASAN Dokumen dalam format XML terdiri atas data latih dan data uji serta dilakukan proses indexing menggunakan sistem dari Cidhy (2009). Pada dokumen latih pertanian berjumlah 174 dihasilkan 2868 kata unik atau term sedangkan pada dokumen latih berita berjumlah 500 dihasilkan 11285 kata unik. Pelatihan Pada tahap pelatihan ini keempat metode atau classifier memiliki cara berbeda dalam perhitungannya. Pada metode Rocchio kata unik atau term dihitung bobotnya dengan metode sublinear tf scaling. Setelah itu term atau kata unik dianggap sebuah vektor dan setiap kelas dihitung vektor centroid-nya masing-masing. Nilai vektor centroid disimpan dalam database untuk digunakan dalam perhitungan klasifikasi berikutnya. Pada metode Naїve Bayes, dihitung peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata disimpan dalam database. Pada metode Bernoulli, dihitung juga peluang dari setiap term atau kata unik dan peluang prior dari setiap dokumen latih. Nilai peluang dari setiap term atau kata juga disimpan dalam database seperti pada metode Naїve Bayes. Pada metode Poisson Naїve Bayes dihitung peluang dari setiap term, nilai rata-rata dari distribusi poisson terhadap masing-masing kelas, dan bobot dari setiap term menggunakan pembobotan rasio peluang. Nilai peluang, bobot, dan nilai rata-rata distribusi poisson setiap term disimpan dalam database. Classifier Tunggal Pada metode Rocchio dokumen uji dihitung bobotnya dengan metode Sublinear tf scaling. Setelah itu dihitung jarak centroid kelas dengan dokumen uji mengunakan metode Euclidean distance. Dokumen uji akan diklasifikasikan ke- dalam kelas memiliki jarak terdekat dengan dokumen uji. klasifikasi dari setiap metode ada dapat dihitung dengan bantuan tabel confusion matrix. Pada dokumen pertanian akurasi metode rocchio dihitung dengan tabel confusion matrix dapat dilihat pada Tabel 2. Demikian juga akurasi untuk dokumen berita dapat dilihat pada Tabel 3. Dari Tabel 2 dan Tabel 3 dapat dilihat bahwa pada dokumen pertanian banyak terjadi kesalahan pengklasifikasian sedangkan pada dokumen berita sedikit. pada dokumen pertanian dengan metode Rocchio ini adalah 61.23%, dan untuk dokumen berita menghasilkan akurasi 97.2%. pada dokumen pertanian lebih rendah dibandingkan. Hal ini karena pada dokumen pertanian setiap kelasnya masih memiliki hubungan atau keterkaitan, sehingga setiap centroid kelas memiliki jarak sama. Akibat centorid jarak sama ini banyak terjadi Pada dokumen berita hasil akurasinya tinggi karena tidak ada keterkaitan setiap kelas, sehingga jarak antara centroid setiap kelas berbeda. Akibatnya sedikit terjadi kesalahan pengklasifikasian. Hasil klasifikasi dengan metode ini sangat dipengaruhi oleh nilai centroid setiap kelas. Tabel 2 Confusion matrix metode Rocchio EA 16 5 4 0.64 PTB 4 18 3 0.72 P 9 4 12 0.48 Tabel 3 Confusion matrix metode Rocchio B 48 1 0 0 1 0.96 E 0 50 0 1 0 1.00 K 0 1 48 1 0 0.96 L 0 1 0 48 1 0.96 P 0 0 0 1 49 0.98

6 Pada metode Naїve Bayes, peluang setiap term pada dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji terhadap kelas ada. Dokumen uji akan dimasukkan pada kelas memiliki peluang terbesar. pada dokumen pertanian dengan metode Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 4. Hal serupa dilakukan pada dokumen berita, hasil akurasinya dapat dilihat pada Tabel 5. Tabel 4 Confusion matrix metode Naїve Bayes EA 13 5 7 0.52 PTB 2 20 3 0.80 P 4 5 16 0.64 Tabel 5 Confusion matrix metode Naїve Bayes B 46 1 1 0 2 0.92 E 0 48 0 1 1 0.96 K 0 0 49 1 0 0.98 L 0 1 0 48 1 0.96 P 2 0 0 0 48 0.96 Dari Tabel 4 dan Tabel 5 dapat dilihat pada dokumen pertanian terjadi banyak kesalahan berita sedikit. pada dokumen pertanian dengan metode Naїve Bayes ini adalah 65.33%, dan untuk dokumen berita menghasilkan 76.8%. dokumen berita lebih tinggi dibandingkan dokumen pertanian. Hal ini karena pada dokumen berita setiap kelasnya saling bebas atau tidak ada keterkaitan antara kelasnya. Akibatnya setiap kelas memiliki penciri kata atau term berbeda, sehingga terjadi sedikit Pada dokumen pertanian hasil akurasinya rendah karena setiap kelas memiliki keterkaitan. Akibatnya kata atau term dari masing-masing kelas sama, sehingga banyak terjadi kesalahan pengklasifikasian. Pada metode Bernoulli peluang kata atau term dari dokumen uji akan dihitung. Setelah itu dihitung peluang dokumen uji masuk ke dalam kelas ada. Perhitungan ini mirip dengan metode Naїve Bayes, perbedaannya adalah metode Bernoulli hanya memperhitungkan rasio dokumen dari setiap kelas mengandung kata atau term. pada dokumen pertanian dengan metode Bernoulli dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 6. Demikian juga hasil akurasi untuk dokumen berita dapat dilihat pada Tabel 7. Dari Tabel 6 dan Tabel 7 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pertanian banyak pada dokumen pertanian dengan metode Bernoulli ini adalah 61.33%, dan untuk dokumen berita menghasilkan 76.8%. dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan sehingga kata atau term dari setiap kelas sama. Akibatnya banyak terjadi Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit kesalahan pengklasifikasian. Tabel 6 Confusion matrix metode Bernoulli EA 11 1 13 0.44 PTB 2 16 7 0.64 P 3 3 19 0.76 Tabel 7 Confusion matrix metode Bernoulli B 37 2 2 1 8 0.74 E 0 27 0 5 18 0.54 K 0 0 38 4 8 0.76 L 0 0 0 41 9 0.82 P 0 1 0 0 49 0.98 Pada metode Poisson Naїve Bayes dokumen uji dihitung bobot setiap term (w ic ), serta nilai rata-rata kemunculan kata setiap dokumen pada kelas c dan kelas bukan c (λ dan μ). Setelah itu, dihitung peluang dokumen uji terhadap kelas

7 ada. Dokumen uji akan dimasukkan pada kelas memiliki peluang terbesar. pada dokumen pertanian dengan metode Poisson Naїve Bayes dihitung dengan menggunakan bantuan tabel confusion matrix pada Tabel 8. Hal serupa dilakukan pada dokumen berita, sehingga hasil akurasinya dapat dilihat pada Tabel 9. Tabel 8 Confusion matrix metode Poisson Naïve Bayes EA 14 9 2 0.56 PTB 4 19 2 0.76 P 8 6 11 0.44 Tabel 9 Confusion matrix metode Poisson Naïve Bayes B 50 0 0 0 0 1.00 E 0 50 0 0 0 1.00 K 0 0 50 0 0 1.00 L 0 4 1 43 2 0.86 P 0 0 0 1 49 0.98 Dari Tabel 8 dan Tabel 9 dapat dilihat pada dokumen berita terjadi sedikit kesalahan pertanian banyak pada dokumen pertanian dengan metode Poisson Naїve Bayes ini adalah 58.67 %, dan untuk dokumen berita menghasilkan akurasi 96.8%. dari dokumen berita lebih tinggi dari dokumen pertanian karena pada dokumen pertanian setiap kelasnya memiliki keterkaitan atau tidak saling bebas sehingga kata atau term dari setiap kelas sama. Akibatnya banyak terjadi Pada dokumen berita akurasinya tinggi karena setiap kelasnya tidak ada keterkaitan atau saling bebas sehingga kata atau term dari setiap kelas berbeda. Akibatnya terjadi sedikit Klasifikasi DCS-LA Hasil klasifikasi dari empat classifier dihitung dengan metode DCS-LA. Pada perhitungan pertama dilakukan simple voting. Jika semua classifier ini menghasilkan kelas sama atau setuju maka langsung dilabelkan kelas tersebut. Jika hasil klasifikasi masingmasing classifier berbeda maka dilakukan proses k-nn. Pada perhitungan k-nn, digunakan IDW sebagai pembobotan untuk menentukan hasil klasifikasi terpilih. Pada dokumen pertanian dan berita dilakukan beberapa percobaan dengan nilai k = 1 sampai k = 30. Pada dokumen pertanian akurasi tertinggi terdapat pada nilai k sama dengan 24 dan 25 sebesar 66.67%. terendah pada klasifikasi DCS-LA ini adalah ketika k bernilai 6 sampai 30 sebesar 57.33%. Pada dokumen berita akurasi tertinggi terdapat pada k = 1 sebesar 97.6% dan terendah ketika k bernilai 3 sampai 30 sebesar 96.4%. Hasil akurasi klasifikasi DCS-LA dapat dilihat pada Gambar 3. 6 4 2 Dokumen Pertanian Dokumen Berita 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 Parameter- k Gambar 3 Grafik hasil klasifikasi DCS-LA menggunakan IDW. Dari Gambar 3 dapat dilihat bahwa akurasi dari dokumen berita lebih tinggi dari dokumen pertanian. Hasil ini dipengaruhi oleh akurasi dari setiap classifier. Semakin tinggi akurasi dari setiap classifier maka semakin tinggi pula akurasi dari DCS-LA begitu pula sebaliknya. Pada dokumen pertanian parameter-k mempengaruhi akurasi klasifikasi, terlihat bahwa rentang akurasi dari dokumen pertanian mencapai 9.34%. Pada dokumen berita parameter-k tidak berpengaruh secara signifikan, terlihat bahwa rentang akurasinya hanya 1.2%. Perbandingan akurasi ini dapat dilihat pada Gambar 3. Hasil akurasi pada dokumen pertanian dengan metode DCS-LA adalah 66.67%, sedangkan pada dokumen berita sebesar 96.4% Pada penelitian ini, tinggi rendahnya akurasi dimiliki oleh DCS-LA dipengaruhi oleh ke-

8 empat classifier yaitu: Rocchio, Naїve Bayes, Bernoulli dan Poisson Naїve Bayes. Dari Gambar 3 akurasi DCS-LA pada dokumen pertanian lebih rendah dibandingan dokumen berita. Hal ini disebabkan pada dokumen berita setiap kelasnya tidak berhubungan atau saling bebas, sedangkan pada dokumen pertanian setiap kelasnya berkaitan. Keterkaitan antarkelas pada dokumen pertanian dan berita masing-masing 48% dan 1 (Ramadhan 2010), keterkaitan kecil pada dokumen berita mempengaruhi akurasi klasifikasi Jika dihitung akurasi rata-rata dari classifier pada dokumen pertanian sebesar 61% dan dokumen berita sebesar 91.6%. Jika dibandingkan akurasi rata-rata dengan akurasi DCS-LA, maka metode DCS-LA memiliki akurasi lebih tinggi dari akurasi rata-rata classifier. dapat ditingkatkan dengan penambahan classifier. Perbandingan akurasi setiap classifier dengan DCS-LA dapat dilihat pada Gambar 4. 6 4 2 97% 95% 61% 65% 61% 58% Dokumen pertanian Gambar 4 Diagram perbandingan classifier dengan DCS-LA. Perbandingan Klasifikasi 76% 96% 96% 66% Dokumen berita Perbandingan dilakukan dengan cara membandingkan DCS-LA menggunakan IDW dengan DCS-LA tanpa IDW dari Ramadhan (2010). Hasil akurasi DCS-LA dengan IDW lebih baik dibandingkan DCS-LA tanpa IDW. Perbandingan akurasi ini dapat dilihat pada Gambar 5. Penambahan satu classifier yaitu Poisson Naїve Bayes dapat menambah akurasi dari DCS- LA. Pada Gambar 5 dapat dilihat bahwa DCS- LA dengan empat classifier memiliki akurasi lebih tinggi dibandingkan dengan DCS-LA dengan tiga classifier. DCS-LA tanpa IDW dengan tiga classifier menghasilkan akurasi 56% untuk dokumen pertanian dan 86% untuk dokumen berita, dan pada DCS-LA tanpa IDW dengan empat classifier menghasilkan akurasi 61.33% untuk dokumen pertanian dan 91.6% untuk dokumen berita. 6 4 2 56% 84% 61% 91.6 94% 96.4 64% 66.67% a b c d Dokumen pertanian Dokumen berita Gambar 5 Perbandingan akurasi DCS-LA: a = klasifikasi DCS-LA tanpa IDW dengan tiga classifier, b = klasifikasi DCS-LA tanpa IDW dan empat classifier, c = klasifikasi DCS-LA dengan IDW dan tiga classifier, d = klasifikasi DCS-LA dengan IDW dan empat classifier. Pengaruh penambahan Poisson Naїve Bayes pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat dua kasus (dokumen nomor 25 dan 67) menunjukkan bahwa tiga classifier Rocchio, Naїve Bayes dan Bernoulli menghasilkan kelas prediksi salah sedangkan Poisson Naїve Bayes menghasilkan kelas prediksi benar, sehingga menghasilkan kelas prediksi dari DCS- LA benar. Penambahan pembobotan IDW juga dapat meningkatkan akurasi dari DCS-LA. Pada Gambar 5 dapat dilihat untuk DCS-LA dengan tiga classifier bahwa penambahan IDW pada metode tersebut dapat meningkatkan akurasi sampai 64% untuk dokumen pertanian dan 94 % untuk dokumen berita. Begitu pula dengan DCS-LA dengan empat classifier akurasinya meningkat menjadi 66.67% untuk dokumen pertanian dan 96.4% untuk dokumen berita setelah penambahan IDW.

9 Pengaruh penambahan pembobotan IDW pada dokumen pertanian dapat dilihat pada Lampiran 3. Pada Lampiran 3 terdapat tiga kasus (dokumen nomor 27, 58, dan 66) menunjukkan bahwa DCS-LA dengan penambahan IDW memiliki kelas prediksi benar sedangkan pada DCS-LA hanya menambahkan satu classifier menghasilkan kelas prediksi salah. Pada Gambar 5 dapat dilihat pula bahwa penambahan IDW dapat meningkatkan akurasi lebih tinggi dibandingkan dengan hanya menambahkan satu classifier. Selain itu, penambahan IDW dan satu classifier sekaligus, memiliki akurasi lebih tinggi dibandingkan dengan hanya menambahkan satu classifier atau IDW saja. KESIMPULAN DAN SARAN Dari penelitian dalam menerapkan algoritme DCS-LA dengan IDW untuk klasifikasi dokumen pertanian dan dokumen berita dalam bahasa Indonesia, didapatkan kesimpulan sebagai berikut: 1 Penerapan klasifikasi DCS-LA dengan IDW untuk dokumen teks bahasa Indonesia berhasil dilakukan. 2 dari metode DCS-LA ini sebesar 66.67% pada dokumen pertanian dan dokumen berita 96.4%. 3 metode DCS-LA dengan IDW lebih tinggi dibandingkan dengan DCS-LA tanpa IDW. 4 DCS-LA dengan empat classifier lebih tinggi dibandingkan dengan tiga classifier. 5 Metode DCS-LA menghasilkan akurasi lebih tinggi dari akurasi rata-rata classifier. 6 saling berhubungan atau terkait dapat memberikan hasil akurasi rendah. Saran diberikan untuk pengembangan lebih lanjut pada penelitian ini adalah sebagai berikut: 1 Mencoba menggunakan komponen classifier lainnya misalkan MCA atau SVM untuk dibandingkan. 2 Menambahkan atau mengganti komponen classifier pada sistem DCS-LA ini. 3 Membandingkan akurasi DCS-LA dengan AAC untuk dokumen berbahasa Indonesia. DAFTAR PUSTAKA Cidhy DATK. 2009. Implementasi Question Answering System dengan Pembobotan Heuristic [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Hamel L. 2008. The Encyclopedia of Data Warehousing and Mining. Ed. ke-2. Rhode Island: Idea Group Publisher. Han J, Kamber M. 2006. Data Mining: Concept and Techniques. Ed. ke-2. San Francisco: Morgan Kaufmann Publishers. Ho TK, Hull JJ, Srihari SN. 1994. Desicion Combination in Multiple Classifier Systems. IEEE Transactions on Analisys and Machine Intelegence 16(1): 66-75. Juniawan I. 2009. Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Kim SB. 2001. Poisson Naive Bayes for Text Classification with Feature Weighting. Di dalam: Adachi J, editor. Proceedings of the 6th International Workshop on Information Retrieval with Asian Languange; Sappro, 7 Juli 2003. Stroudsburg: Association for Computational Linguistics. hlm 33-40. Li YH, Jain AK. 1998. Classification of Text Document. The Computer Journal 41(8): 537-546. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press. Morales AI, Valdovinos RM, Sanchez JS. 2008. On the Weighted Dynamic Classifier Selection with Local Accuracies. Di dalam: Grigoriadis K, editor. Proceedings of the 11th IASTED International Conference; Orlando, 16-18 November 1998. Anaheim: ACTA Press. hlm 204-206. Ramadhan R. 2010. Klasifikasi Dokumen Berbahasa Indonesia Menggunakan Dinamic Classifier Selection with Local Accuracies (DCS-LA) [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB. Ridha A. 2002. Pengindeksan Otomatis Dengan Istilah Tunggal Untuk Dokumen Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer, IPB.