KLASIFIKASI DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN NAIVE BAYES CLASSIFIER

dokumen-dokumen yang mirip
Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

ARTIKEL KLASIFIKASI KONTEN BERITA SURAT KABAR BERDASARKAN JUDUL DENGAN TEXT MINING MENGGUNAKAN METODE NAÏVE BAYES (STUDI KASUS : RADAR KEDIRI)

BAB II LANDASAN TEORI

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 6 NO. 2 September 2013

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

Text Pre-Processing. M. Ali Fauzi

BAB I PENDAHULUAN 1.1 Latar Belakang

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

Jurnal Politeknik Caltex Riau

BAB I PENDAHULUAN 1.1. Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Gambar 1.1 Proses Text Mining [7]

BAB II LANDASAN TEORI

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2.

ABSTRAK. Kata Kunci: analisis sentimen, pre-processing, mutual information, dan Naïve Bayes. UNIVERSITAS KRISTEN MARANATHA

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

SISTEM ANALISIS SENTIMEN POSITIF DAN NEGATIF MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES PADA KASUS TOKOH PUBLIK CAPRES INDONESIA 2014

Oleh: ARIF DARMAWAN NIM

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III ANALISIS DAN PERANCANGAN

BAB II LANDASAN TEORI

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN I - 1

BAB III METODOLOGI PENELITIAN

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

Online News Classification Using Multinomial Naive Bayes

JURNAL SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER SENTIMENT ANALYSIS POLITICAL LEADERS IN TWITTER

BAB III METODOLOGI PENELITIAN

ANALISIS SENTIMEN TERHADAP OPINI PUBLIK MELALUI JEJARING SOSIAL TWITTER MENGGUNAKAN METODE NAIVE BAYES Alfarizy M. G. ( )

BAB II LANDASAN TEORI

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

BAB I PENDAHULUAN. 1.1 Latar belakang

Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen

BAB I PENDAHULUAN 1.1 Latar Belakang

Jurnal Informatika Mulawarman Vol. 10 No. 1 Februari

BAB I PENDAHULUAN 1.1 Latar Belakang

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ISSN: Akhmad Pandhu Wijaya 1, Heru Agus Santoso 2

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

Online News Classification Using Naive Bayes Classifier with Mutual Information for Feature Selection

BAB IV IMPLEMENTASI DAN PENGUJIAN

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

Kata kunci : Klasifikasi,Kategori Berita, Text Mining, Tf-Idf, Naive Bayes

BAB I PENDAHULUAN 1.1 Latar Belakang

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

1. Introduction. tertentu memegang peran penting dalam. Abstract

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

BAB 1 PENDAHULUAN 1.1. Latar belakang

KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

ANALISIS SENTIMEN JASA EKSPEDISI BARANG MENGGUNAKAN METODE NAÏVE BAYES

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

Bandung, Indonesia Bandung, Indonesia

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB 2 TINJAUAN PUSTAKA

3.1 Desain Penelitian

BAB III METODE PENELITIAN

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

BAB 3 LANDASAN TEORI

BAB IV PREPROCESSING DATA MINING

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

BAB III METODELOGI PENELITIAN

Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN:

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

Penerapan Algoritma K-Means untuk Clustering

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB III LANDASAN TEORI

Transkripsi:

KLASIFIKASI DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN NAIVE BAYES CLASSIFIER Rusdi Efendi, Reza Firsandaya Malik 1), Jeni MilaSari U 1 rezafm@unsri.ac.id ABSTRACT Document classification is a research field in information retrieval, by developing the method for categorize a document into one or more categories based on the content. Document classification aims for classify the unstructure document into category which describes the content of document. The document used can be a text document like news article. To solve the problem, the software is developed by using Naive Bayes Classifier with simple computation and quite high accuration level. There are three levels in doing document classification, preprocessing, training and classification. This research uses secondary data from online news portal with various categories such as economy, health, sport, technology, politics and education. The classification accuration level from the software is 86,67%, by using 60 documents, includes 30 train documents and 30 test documents. The error of classification is 13,33% lies on the politics and economy documents, because there are words dominant to both of those categories. Keywords: Document Classification, Naive Bayes Classifier I. PENDAHULUAN Teknologi informasi telah berkembang sangat pesat hingga saat ini. Transmisi data dalam jaringan komputer dan internet semakin berkembang. Dokumen yang beredar di dunia maya terus tumbuh dan lebih mungkin menjadi kurang efektif dalam pencarian dan penyajian informasi [1]. Oleh karena itu, klasifikasi dokumen ke dalam kategori yang sesuai diperlukan untuk meningkatkan efektivitas dan efisiensi manajemen dan organisasi dokumen teks. Hal ini, mendukung kebutuhan untuk proses klasifikasi informasi informasi [2]. Salah satu alternatif dalam memecahkan masalah adalah dengan mengelompokkan dokumen. Klasifikasi dokumen adalah bidang penelitian dalam perolehan informasi dengan mengembangkan metode untuk menentukan atau mengkategorikan dokumen ke dalam satu atau lebih kelompok yang sebelumnya telah diakui secara otomatis berdasarkan isi dokumen [3]. Klasifikasi dokumen bertujuan untuk mengklasifikasikan dokumen tidak terstruktur ke dalam kelompok yang menggambarkan isi dari dokumen. Dokumen dapat berupa teks dokumen seperti artikel berita. Naive Bayes Classifier algoritma untuk mengklasifikasikan dokumen dalam berita itu, metode ini bekerja berdasarkan probabilitas dari sebuah dokumen di hadapan kata-kata yang sama dalam dokumen lain yang dalam kategori tersebut. Algoritma ini cocok untuk digunakan dalam mengklasifikasikan dokumen karena memiliki komputasi yang sangat sederhana dan memiliki akurasi yang tinggi [4]. Oleh karena itu, dalam penelitian ini akan menerapkan metode Naive Bayes dalam klasifikasi dokumen ditekankan dalam dokumen berita dan berita dalam bahasa Indonesia. II. METODOLOGI PENELITIAN II.1. Teks Preprocessing Cara yang digunakan dalam mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahapan ekstraksi yang dilakukan secara umum pada dokumen, yaitu tokenizing, filtering, stemming [5]. Proses ekstraksi dokumen ditunjukkan pada Gambar 1. Berikut penjelasan dari masing-masing komponen. a. Tahap case folding adalah proses mengubah huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z yang ISSN: 2301-8488 / Copyright 2012 JRSCA 7

diterima. Karakter selain huruf dihilangkan dan dianggap sebagai delimiter. b. Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. c. Tahap filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting). Stoplist / stopword adalah kata - kata yang tidak deskriptif yang dapat dibuang. Contoh stopwords adalah yang, dan, di, dari dan seterusnya. d. Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak memiliki persamaan bentuk baku yang permanen. 2.2.1. Proses Pelatihan Pada saat pelatihan, dokumen yang akan diinputkan terlebih dahulu telah diketahui kategorinya. Dokumen yang digunakan pada saat pelatihan disebut dokumen contoh. Dokumen contoh terlebih dahulu mengalami praproses untuk masuk ke proses ini. Proses pelatihan berguna untuk membentuk pengetahuan berupa nilai probabilitas kata. Pada proses pelatihan ini, memiliki modul yang hampir sama dengan tahap klasifikasi. Bedanya, hanya pada proses pelatihan tidak menjalankan modul klasifikasi, tetapi hanya menghasilkan dokumen yang mengandung kata kata untuk mengkarakteristik suatu kategori. Pada setiap kata yang muncul pada dokumen latih, hitung nilai probabilitas masing masing katanya dengan persamaan 1. Setelah itu, hitung probabilitas kategori dengan menggunakan persamaan 2. (1) : Probabilitas kata - kata pada sebuah kategori : Frekuensi kemunculan kata pada sebuah kategori : Jumlah seluruh kata pada dokumen dalam suatu kategori : jumlah total kata (distinc) pada semua data latihan. Gambar 1.Text Preprocessing (2) II.2. Algoritma Naive Bayes Classifier Metode ini menggunakan perhitungan probabilitas, tidak memperhatikan urutan kemunculan kata pada dokumen teks dan menganggap sebuah dokumen teks sebagai kumpulan dari kata-kata yang menyusun dokumen teks tersebut [6]. Naive Bayes merupakan salah satu contoh dari metode supervised document classification yang berarti membutuhkan data latih dalam melakukan klasifikasi. Keterangan : : Probabilitas dokumen kategori : Jumlah seluruh dokumen pada sebuah kategori : Jumlah keseluruhan data yang dilatih 2.2.2. Proses Klasifikasi Pada proses klasifikasi, dokumen yang diinputkan belum diketahui kategorinya. Sama seperti pada saat proses pelatihan, proses klasifikasi ini pun harus melewati praproses terlebih dahulu. Pada proses ini, dilakukan tahap ISSN: 2301-8488 / Copyright 2012 JRSCA 8

mencari kata kata yang ada pada dokumen input sesuai dengan pengetahuan kata di data latih yang disebut P( ). Lalu gunakan nilai P( ) yaitu probabilitas dokumen yang telah diperoleh pada proses pelatihan yang terlebih dahulu telah disimpan di pengetahuan pada saat pelatihan, maka untuk setiap kategori hitung. Untuk mendapatkan nilai tersebut, terlebih dahulu menghitung nilai P( ) yaitu kumulatif perkalian probabilitas kemunculan kata sama pada data latih lalu dikalikan lagi dengan nilai probabilitas dokumen kategorinya masing - masing P( ). Setelah hasil perkalian didapatkan dan dilakukan pada masing masing kategori maka akan dibandingkan dan dicari nilai terbesar untuk mengklasifikasikan data uji pada dokumen berita yang akan masuk ke dalam kategori tesebut, sesuai dengan persamaan 3 berikut. (3) III. HASIL DAN PEMBAHASAN Berdasarkan hasil pengujian yang telah dilakukan pada tahap sebelumnya, dapat disimpulkan bahwa implementasi unit dan antar muka perangkat lunak berjalan dengan baik. Hal ini ditandai dengan kesimpulan hasil skenario pada kasus uji semuanya memberikan kesimpulan yang sama, yaitu diterima. Pada subbab ini, akan dilakukan analisis hasil pengujian dari perangkat lunak yang telah dibangun. Pengujian keakuratan dalam melakukan klasifikasi dokumen berita menggunakan artikel dalam bentuk file teks. Di dalam pengujian ini menggunakan 60 dokumen berita dengan berbagai kategori dari media elektronik yaitu, ekonomi, kesehatan, olahraga, teknologi, politik dan pendidikan. Dokumen berita yang digunakan terdiri dari dua bagian, dokumen pelatihan dan dokumen pengujian. Dokumen pelatihan berperan sebagai data contoh yang akan digunakan dalam proses pelatihan. Sedangkan dokumen pengujian digunakan sebagai data pengujian untuk melihat tingkat akurasi. Dalam pengujian ini, digunakan dokumen pelatihan sebanyak 30 dokumen dan dokumen pengujian 30 dokumen. Rata rata ukuran dokumen pelatihan sebesar 2 kb dengan jumlah kata yang terkandung didalamnya sebanyak ±200 kata. Pada setiap proses klasifikasi ataupun pelatihan, semua dokumen yang digunakan harus melewati proses text mining terlebih dahulu, yaitu proses tokenizing (pemecahan kata), filtering (penyaringan kata), stemming (penghilangan imbuhan). Pada proses pelatihan yang dilakukan terbentuklah 1272 token atau kosakata. Pada beberapa kasus, jika contoh dokumen berita yang dimasukkan memiliki kata kata yang dominan ke arah kategori yang lain maka dokumen berita akan salah diklasifikasikan dan tidak sesuai dengan kategorinya. Sebagai contoh dokumen berita ekonomi berikut dengan judul berita Defisit anggaran dan rasio utang terhadap PDB yang rendah. Pada kasus ini, dokumen ekonomi tersebut dilakukan klasifikasi berita dengan menggunakan program aplikasi yang dibuat dan menunjukkan bahwa dokumen berita ekonomi tersebut salah diklasifikasikan ke berita politik. Adapun hasil pengujian ditampilkan dalam bentuk Tabel 1. Untuk menghitung persentase keakuratan dilakukan dengan cara: = x 100 = 86,67 % x100% (4) Dari hasil pengujian, keakuratan yang didapat oleh aplikasi ini mencapai 86,67 %. Hasil 86,67 % didapat dari tabel 1, dimana jumlah pengujian 30 contoh dokumen uji dan hanya 26 contoh dokumen uji yang memiliki nilai benar. Hal ini dikarenakan dokumen pelatihan yang sedikit menyebabkan kurangnya kata kata yang penting yang mencirikan suatu dokumen dan juga terdapat kata kata yang dominan ke kategori lain yang bukan kategorinya sehingga dapat menimbulkan kesalahan dalam pengklasifikasian dokumen. Sedangkan, dalam hasil pengujian terhadap banyaknya kata dan waktu yang diperlukan dalam praproses sebuah dokumen berita dapat dilihat pada Gambar 2. ISSN: 2301-8488 / Copyright 2012 JRSCA 9

1400 1200 1000 800 600 400 200 0 1 4 7 10 13 16 19 22 25 28 Jumlah kata kecepatan Gambar 2. Pengaruh Waktu Praproses dengan Jumlah Kata pada Dokumen Berdasarkan Gambar 2 di atas, batang biru menggambarkan jumlah kata dan batang merah menggambarkan kecepatan yang menunjukan menunjukkan bahwa, dokumen yang memiliki kata kata yang banyak memiliki waktu praproses yang lama terlihat pada dokumen 11 dengan judul berita Dua Atlet Andalan Kembali Perkuat Jabar memiliki kata kata yang berjumlah 375 dengan lamanya waktu yang diperlukan dalam praproses yaitu 1200 ms. Namun frekuensi kata yang dibutuhkan saat proses stemming pada tiap dokumen juga berpengaruh terhadap waktu praproses, sehingga waktu praproses pada tiap dokumen dapat lebih lama dibandingkan dokumen dengan frekuensi kata yang lebih banyak namun memiliki frekuensi kata saat stemming lebih sedikit. Misalnya, pada dokumen ke-27 memiliki frekuensi kata 188 dengan waktu proses stemming 791 ms, sedangkan pada dokumen ke- 28 memiliki frekuensi kata 167 dengan waktu proses stemming 112 ms. Pada dokumen ke-27 memiliki frekuensi kata yang diperlukan proses stemming lebih banyak dibandingkan dengan dokumen ke-28, dokumen ke-27 memiliki frekuensi kata yang dibutuhkan saat proses stemming sebanyak 107 sedangkan dokumen ke- 28 memiliki frekuensi kata yang dibutuhkan saat proses stemming sebanyak 92, sehingga diperlukan waktu yang lebih lama untuk melakukan proses stemming. IV. KESIMPULAN Berikut ini beberapa kesimpulan yang dapat dibuat dari penelitian ini: 1. Pengembangan perangkat lunak pada penelitian ini telah dapat mengklasifikasikan dokumen berita. Berdasarkan penelitian yang diperoleh tingkat akurasi perangkat lunak ini mencapai 86,67% dengan menggunakan 60 dokumen yang terdiri dari 30 dokumen latih dan 30 dokumen uji untuk enam kategori berita yaitu, ekonomi, kesehatan, olahraga, teknologi, politik dan pendidikan. 2. Dalam penelitian ini, kesalahan klasifikasi sebesar 13,33 % terletak pada dokumen yang berkategori politik dan ekonomi, dikarenakan cukup banyaknya kata-kata yang dominan ke arah kedua kategori tersebut. 3. Pada penelitian ini, menunjukkan bahwa pengaruh kecepatan/waktu yang diperlukan pada praproses tidak selalu berdasarkan pada banyaknya kata pada dokumen tetapi berdasarkan banyaknya kata kata yang diproses pada tahap stemming. DAFTAR PUSTAKA [1] Hamzah, A., Adhi Susanto, F.Soesianto, Jazi Eko Istiyanto, 2007, Studi Komparasi Algoritma Hierarchical Dan Partitional Untuk Clustering Dokumen Teks Berbahasa Indonesia, Academia Ista. [2] Natalius,S. 2010. Metode Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen. Departemen Teknik Informatika, Sekolah Teknik Elektro Informatika, Institut Teknologi Bandung. [3] Ramadan, R. 2006. Penerapan Pohon Untuk Klasifikasi Dokumen Teks Berbahasa Inggris. Departemen Teknik Informatika, Sekolah Teknik Elektro Informatika, Institut Teknologi Bandung. ISSN: 2301-8488 / Copyright 2012 JRSCA 10

[4] Kang,D., Honavar,V., and Silvescu,A. 2006. A Recursive Naïve Bayes Learner for Sequence Classifiication, Artificial Intelligence Research Laboratory, IOWA State University. [5] Mooney, J. 2006. CS 391L : Machine Learning Text Categorization. Austin: University of Texas. [6] Wibisono,Y. 2005. Klasifikasi Berita Berbahasa Indonesia menggunakan Naïve Bayes Classifier. Departemen Pendidikan Matematika, FMIPA UPI. No. Document Classification Result Truth Value Number of Words Time (ms) 1 Defisit anggaran dan rasio utang terhadap PDB yang rendah.txt Politic False 179 203 2 Harga Minyak Lebih Tinggi di Perdagangan Asia.txt Economic True 179 288 3 SERAPAN APBN 30% Anggaran di Kemenhub tak terserap.txt Politic False 146 233 4 Harga Minyak Lebih Tinggi di Perdagangan Asia.txt Economic True 243 255 5 Harga Gula di Solo Mulai Tembus Rp11 RibuKg.txt Economic False 200 320 6 Langkah Ini Bisa Bantu Membersihkan Paru-paru.txt Health True 321 650 7 Masyarakat Harus Peduli Obat Generik.txt Health True 291 505 8 Pasang Gigi Palsu di Tukang Gigi Seperti Memasang Ranjau dalam Health True 349 377 Mulut.txt 9 Taman Bermain Tradisional dapat Mengurangi Obesitas pada Anak.txt Health True 349 655 10 Zat Pewarna Soda Memicu Kanker.txt Health True 236 309 11 Dua Atlet Andalan Kembali Perkuat Jabar.txt Sport True 375 1200 12 Gol Telat Toto Salvio Menangkan Atletico Madrid.txt Sport True 112 240 13 Kalahkan Lakers, Thunder Kuasai Wilayah Barat.txt Sport True 174 260 14 Lakers dan Mavericks Telan Kekalahan.txt Sport True 201 404 15 Messi Leg Kedua Kami Akan Menang.txt Sport True 110 234 16 Akses Siswa Miskin ke PTN Semakin Sempit.txt Education True 140 426 17 Beasiswa Education Belum Sentuh Siswa Mentawai.txt Education True 74 78 18 Belenggu Disiplin Education di Education True 207 323 ISSN: 2301-8488 / Copyright 2012 JRSCA 11

Papua.txt 19 BOS SMA/SMK Ditambah.txt Education True 207 561 20 Guru Honorer Tuntut Gaji Sesuai Upah Minimum.txt Education True 262 344 21 Berkantor di Istana, Presiden Kumpulkan Menteri.txt Politic True 104 92 22 Menteri BUMN sempat mengamuk di pintu tol Semanggi.txt Economic True 210 110 23 Demokrat Tak Akan Berani Depak PKS dari Koalisi.txt Politic True 201 608 24 DPD RI Ajak Demonstran Aksi Damai.txt Economic False 183 486 25 Malam Ini SBY Harus Umumkan Pembatalan Kenaikan Harga BBM.txt Politic True 185 687 26 kehadiran ponsel terbarunya, Nokia N9.txt Technology True 374 1085 27 keluarga 'badai', BlackBerry Storm 3.txt Technology True 188 791 28 New iphone Akan Pakai Layar 4,6 Inci.txt Technology True 167 112 29 Nokia Bawa Fitur Smartphone ke Ponsel Asha.txt Technology True 205 134 30 Opera Mini 7 Sudah Bisa Didownload di Android.txt Technology True 160 187 ISSN: 2301-8488 / Copyright 2012 JRSCA 12

ISSN: 2301-8488 / Copyright 2012 JRSCA 13