JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 6 NO. 2 September 2013

Transkripsi

1 KLASIFIKASI DOKUMENT TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES DENGAN BAHASA PEMOGRAMAN JAVA Silfia Andini 1 ABSTRACT The development of technology nowadays has brought some effects to the sophisticated communication tools and technology itself. It is also influenced the improvement of information system that can caused an accumulation data such document text in online or offline. So, it is hard to find out the document based on needs. The necessity is helped by a classification of document text, that is a grouping process of a document to a category which can use for doing an analysis. This research conducted by using text mining method and Algoritma Naive Bayes Classifier. Meanwhile the relationship among news is known by Probability result from the document and words in every documents. The classification process also could apply by using Java Programming. Keywords : Text Document, Text Mining, Algoritma Naïve Bayes, Java Programming INTISARI Perkembangan teknologi saat ini telah membawa beberapa efek ke alat komunikasi canggih dan teknologi itu sendiri. Hal ini juga dipengaruhi peningkatan sistem informasi yang dapat menyebabkan data teks dokumen tersebut akumulasi dalam online atau offline. Jadi, sulit untuk mengetahui dokumen berdasarkan kebutuhan. Perlunya dibantu oleh klasifikasi dokumen teks, yaitu suatu proses pengelompokan dokumen ke kategori yang dapat digunakan untuk melakukan analisis. Penelitian ini dilakukan dengan menggunakan metode text mining dan Algoritma Naif Bayes Classifier. Sementara itu hubungan antara berita dikenal dengan Probabilitas hasil dari dokumen dan kata-kata dalam setiap dokumen. Proses klasifikasi juga bisa berlaku dengan menggunakan Pemrograman Java. Kata Kunci: Dokumen Teks, Teks Pertambangan, Algoritma Naïve Bayes, Pemrograman Java 1 Dosen Fakultas Ilmu Komputer UPI YPTK Padang 140

2 PENDAHULUAN Pada masa sekarang ini aliran informasi telah meningkat dalam jumlah yang besar setiap harinya, peningkatan aliran inrormasi ini akan menyebabkan terjadinya penumpukan data berupa dokumen teks, baik secara online maupun offline. Dokumen teks yang menumpuk menyebabkan sulitnya mencari dokumen yang sesuai dengan kebutuhan. Ketersediaan data yang berlimpah yang dihasilkan dari penggunaan teknologi informasi dihampir semua bidang kehidupan menimbulkan kebutuhan untuk dapat memanfaatkan informasi dan pengetahuan yang terkandung di dalam limpahan data tersebut, yang kemudian melahirkan data mining. Data Mining merupakan proses untuk menemukan pengetahuan (knowledge discovery) yang ditambang dari sekumpulan data yang volumenya sangat besar. Apabila jumlah data yang dicari sedikit, hal ini masih dapat dilakukan secara manual. Akan tetapi, dengan jumlah data yang banyak, proses pencarian secara manual akan menghabiskan waktu dan tenaga dalam jumlah yang banyak pula. Padahal waktu merupakan salah satu faktor yang menentukan efektivitas dan tingkat bermanfaatnya suatu data atau berita. Hal ini dikarenakan terdapat data yang bila telah melewati suatu waktu, data tersebut sudah tidak berguna atau tidak valid. Oleh karena itulah muncul kebutuhan untuk memperoleh data secara cepat dan tepat. PENDEKATAN PEMECAHAN MASALAH Data Mining Menurut Maulani Kapiudin (2007) Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Pemilihan metode, teknik, atau algoritma yang tepat sangat bergantung pada tujuan dan proses penggalian data secara keseluruhan. Data mining atau Knowledge Discovery in Database (KDD) merupakan proses ekstraksi informasi-informasi penting atau knowledge dari basis data yang besar. Data mining menspesifikasikan pola-pola yang ditemukan pada kumpulan data tersebut sehingga data yang telah ada itu lebih bermanfaat dalam kehidupan nyata. Pengertian Text Mining Text mining dapat diartikan sebagai penemuan informasi yang baru dan tidak diketahui sebelumnya oleh komputer, secara otomatis mengekstrak informasi dari sumbersumber yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Hearst,2003). Tahapan Text Mining Walaupun inti dari suatu sistem klasifikasi adalah tahap penemuan pola (pattern discovery) namun secara lengkap proses text mining dibagi menjadi 3 tahap utama, yaitu : 1. Text Preprocessing Tahapan awal dari text mining adalah text preprocessing yang bertujuan untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan pada tahapan berikutnya. Pada tahap ini dilakukan proses tokenizing yaitu tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Beberapa contoh tindakan yang dapat dilakukan pada tahap ini, mulai dari tindakan yang bersifat kompleks seperti partofspeech (pos) tagging, parse tree, hingga tindakan yang bersifat sederhana seperti 141

3 proses parsing sederhana terhadap teks, yaitu memecah suatu kalimat menjadi sekumpulan kata. Selain itu pada tahapan ini biasanya juga dilakukan case folding, yaitu pengubahan karakter huruf besar menjadi huruf kecil. Keseluruhan proses ini disebut juga dengan proses Tokenizing. Contoh dari tahap ini seperti pada Gambar 1 berikut: Implementasi Metode Naïve Bayes Pada Klasifikasi Teks Dokumen implementasi metode naïve bayes pada [ Hasil Tokenizing ] [ Hasil Filtering ] Gambar 1. Contoh Tahap Tokenizing 2. Text Transformation (feature generation) Pada tahap ini hasil yang diperoleh dari tahap text preprocessing akan melalui proses tranformasi atau disebut juga proses filtering. Proses transformasi / filtering ini dilakukan dengan mengurangi jumlah kata-kata yang ada, yaitu dengan penghilangan stopword. Stopword adalah katakata yang bukan merupakan ciri (kata unik) dari suatu dokumen seperti kata sambung dan kata kepunyaan. Memperhitungkan stopword pada transformasi teks akan membuat keseluruhan sistem text mining bergantung kepada faktor bahasa. Contoh dari tahap ini seperti pada Gambar 2 berikut: implementasi metode naïve bayes pada implementasi naïve bayes klasifikasi [ Hasil Tokenizing ] [ Hasil Filtering ] Gambar 2. Contoh Tahap Filtering 142

4 3. Pattern Discovery Tahap penemuan pola atau pattern discovery adalah tahap terpenting dari seluruh proses text mining. Tahap ini berusaha menemukan pola atau pengetahuan dari keseluruhan teks. Seperti yang disebutkan dalam bab sebelumnya bahwa dalam data/text mining terdapat dua teknik pembelajaran pada tahap pattern discovery ini, yaitu unsupervised dan supervised learning. Adapun perbedaan antara keduanya adalah pada supervised learning terdapat label atau nama kelas pada data latih (supervisi) dan data baru diklasifikasikan berdasarkan data latih. Sedangkan pada unsupervised learning tidak terdapat label atau nama kelas pada data latih, data latih dikelompokkan berdasarkan ukuran kemiripan pada suatu kelas. Berdasarkan keluaran dari fungsi, supervised learning dibagi menjadi 2, regresi dan klasifikasi. Regresi terjadi jika output dari fungsi merupakan nilai yang kontinyu, sedangkan klasifikasi terjadi jika keluaran dari fungsi adalah nilai tertentu dari suatu atribut tujuan (tidak kontinyu). Tujuan dari supervised learning adalah untuk memprediksi nilai dari fungsi untuk sebuah data masukan yang sah setelah melihat sejumlah data latih. Algoritma Naive Bayes Konsep Dasar Algoritma Naive Bayes Bayesian filter atau Naïve Bayes Classifier merupakan metode terbaru yang digunakan untuk mengklasifikasikan sekumpulan dokumen. Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya. Sebuah keuntungan dari Naive Bayes classifier adalah bahwa ia memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (sarana dan varians dari variabel) yang diperlukan untuk klasifikasi. Karena variabel bebas diasumsikan, hanya varians dari variabel-variabel untuk setiap kebutuhan kelas yang akan ditentukan dan tidak seluruh matriks kovarians. Dasar dari teorema naïve Bayes yang digunakan dalam pemrograman adalah rumus Bayes berikut ini: P (A B) = Peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A, dan peluang B. Metode Naive Bayes Untuk Klasifikasi Teks Pada Naïve Bayes Classifier, setiap dokumen berita direpresentasikan dalam pasangan atribut (a1, a2,., a n ), dimana a1 adalah kata pertama, a2 kata kedua dan seterusnya. Sedangkan V adalah himpunan kategori berita (olahraga, sains, edukasi dan sebagainya). Pada saat klasifikasi, pendekatan Bayes akan menghasilkan label kategori yang paling tinggi probabilitasnya (V MAP ) dengan masukan atribut (a1,a2,.,a n ). V MAP = argmax P (Vj a1, a2,..., an) 1 Vj V Teorema Bayes menyatakan: P (B A) = 2 P(a1,a2 an) nilainya konstan untuk semua Vj sehingga persamaan ini dapat ditulis sebagai berikut : V MAP = argmax P (Vj a1, a2,..., an Vj ) P(V j ) 3 Vj V Tingkat kesulitan menghitung P(a1, a2. an Vj) menjadi tinggi karena jumlah term P(a1, a2. an Vj) bisa 143

5 jadi akan sangat besar. Ini disebabkan jumlah term tersebut sama dengan jumlah semua kombinasi posisi kata dikali dengan jumlah kategori. Naïve Bayes Classifier menyederhanakan hal ini dengan mengasumsikan bahwa di dalam setiap kategori, setiap kata independen satu sama lain. Dengan kata lain: V MAP = argmax P (Vj) i P(a i V j ) 4 Vj V P(Vj) dan probabilitas kata W k untuk setiap kategori P(Wk Vj ) dihitung pada saat pelatihan. P ( V j ) = 5 P (W k V j ) = di mana docsj adalah jumlah kata pada kategori j dan Contoh adalah jumlah dokumen yang digunakan dalam pelatihan. Sedangkan n k adalah jumlah kemunculan kata W k pada kategori V j, n adalah jumlah semua kata pada kategori V j dan kosakata adalah jumlah kata yang unik (distinc) pada semua data latihan. Ringkasan algoritma untuk Naïve Bayes Clasifier adalah sebagai berikut: A. Proses pelatihan. Input adalah dokumen-dokumen contoh yang telah diketahui kategorinya. 1. Kosakata himpunan semua kata yang unik dari dokumendokumen contoh 2. Untuk setiap kategori Vj lakukan: 6 a. Docs j Himpunan dokumendokumen yang berada pada kategori V j b. Hitung P(V j ) dengan persamaan 5 c. Untuk setiap kata W k pada kosakata lakukan: Hitung P(W k V j ) dengan persamaan 6 B. Proses klasifikasi. Input adalah dokumen yang belum diketahui kategorinya: Hasilkan V map sesuai dengan persamaan 2.4 dengan menggunakan P(V j ) dan P(W k V j ) yang telah diperoleh dari pelatihan. HASIL DAN PEMBAHASAN Proses Klasifikasi Judul : Waktu Berubah Buat LeBron dan Cleveland (Olahraga) MIAMI, Kompascom - Jika pada Februari tahun lalu, LeBron James membawa Cleveland Cavaliers meraih kemenangan ke 40, tahun ini ia melakukan hal sebaliknya. James yang kini bermain untuk Miami Heat membawa klubnya mengalahkan Cleveland Cavaliers Ironisnya, ini merupakan kekalahan Cavs ke 40 pada musim ini. Ini deret kekalahan ke 21 secara berturut-turut buat Cavs. Jumlah ini sama dengan jumlah kekalahan untuk musim Saat itu James terpilih sebagai pemain terbaik NBA. LeBron sendiri menolak berkomentar terlalu banyak tentang bekas klubnya, "Saya tidak ingin mengatakan apa pun tentang para 144

6 pemain," kata LeBron. "Saya hanya inginkan yang terbaik buat para pendukung klub. Bagaimana pun kami pernah bersama-sama selama beberapa tahun," kata LeBron. Dokumen (yang sudah di preprocessing) : Judul : Waktu Berubah Buat LeBron dan Cleveland miami kompas com jika februari lebron james cleveland cavaliers meraih kemenangan sebaliknya james bermain miami heat klubnya mengalahkan cleveland cavaliers ironisnya kekalahan cavs musim ini ini deret kekalahan berturut turut buat cavs jumlah kekalahan musim james terpilih pemain terbaik nba lebron menolak berkomentar bekas klubnya pemain lebron inginkan terbaik buat pendukung klub lebron dalam pertandingan lebron menyumbangkan poin Kategori = Olahraga Maka daftar kata dari dokumen 1 yang diperoleh tertera pada Tabel 1 berikut : Tabel 1. Daftar Kata Contoh Dokumen Pembelajaran 1 No. Kata Frekeuensi 1 miami 2 2 kompas 1 3 Com 1 4 Jika 1 5 februari 1 6 lebron 5 7 james 1 8 cleveland 2 9 cavaliers 2 10 meraih 1 11 menang 1 12 balik 1 13 james 2 14 main 3 15 heat 1 16 klub 3 17 kalah 4 18 ironis 1 19 cavs 2 20 musim 2 21 Ini 2 22 deret 1 23 turut 2 24 buat 2 25 jumlah 1 26 pilih 1 27 Baik 2 28 Nba 1 29 menolak 1 30 komentar 1 31 bekas 1 32 ingin 1 33 dukung 1 34 dalam 1 35 tanding 1 36 sumbang 1 37 poin 1 Jumlah 58 Perhitungan P (Wk Vj) = 7 Karena pengetahuan masih kosong maka langsung dihitung probabilitasnya Diketahui : Frekuensi olahraga = 58 Frekuensi edukasi = 0 Jumlah kata = 37 Pada kategori olahraga : P(Miami olahraga) = (2+1) / (58+37) = P(kompas olahraga) =(1+1) / (58+37) =0.021 Dan hasil seterusnya tertera dalam Tabel 2 Pada kategori edukasi : P(Miami edukasi) =(0+1) / (0+37)=0.027 P(kompas edukasi) =(0+1) / (0+37)=0.027 Dan hasil seterusnya tertera dalam Tabel

7 Pengetahuan kata pada dokumen Tabel 2 berikut : 1 yang terbentuk terlihat pada Tabel 2. Daftar Pengetahuan Kata Contoh Dokumen Pembelajaran 1 No. Kata Frekuensi Olahraga Frekuensi Edukasi Probabilitas Olahraga Probabilitas Edukasi miami 2 0 0, kompas 1 0 0, com 1 0 0, jika 1 0 0, februari 1 0 0, lebron 5 0 0, james 1 0 0, cleveland 2 0 0, cavaliers 2 0 0, meraih 1 0 0, menang 1 0 0, balik 1 0 0, james 2 0 0, main 3 0 0, heat 1 0 0, klub 3 0 0, kalah 4 0 0, ironis 1 0 0, cavs 2 0 0, musim 2 0 0, ini 2 0 0, deret 1 0 0, turut 2 0 0, buat 2 0 0, jumlah 1 0 0, pilih 1 0 0, baik 2 0 0, nba 1 0 0, menolak 1 0 0, komentar 1 0 0, bekas 1 0 0, ingin 1 0 0, dukung 1 0 0, dalam 1 0 0, tanding 1 0 0, sumbang 1 0 0, poin 1 0 0,

8 Perhitungan P (Vj) = 8 Diketahui: Jumlah dokumen olahraga = 1 Jumlah dokumen edukasi = 0 P(olahraga) = 1/1 = 1 P(edukasi) = 0/1 = 0 KESIMPULAN Klasifikasi merupakan salah satu teknik dalam data mining yang merupakan kegiatan penunjang dalam bidang sistem informasi. Dengan adanya proses klasifikasi ini, diharapkan dapat membantu mempermudah user dalam memilih dan mengkategorikan dokumen, sehingga meminimalkan waktu dan sumber daya manusia dalam pengklasifikasian dan pencarian dokumen teks itu sendiri. Metoda Naïve Bayes classifier merupakan metoda klasifikasi yang berdasarkan kepada teorema bayes, sebuah teorema yang terkenal di dalam bidang ilmu probabilitas. Selain itu, metoda ini turut didukung oleh ilmu statistika khususnya dalam penggunaan data petunjuk untuk mendukung keputusan pengklasifikasian. Metoda ini sangat luas dipakai dalam berbagai bidang, khususnya dalam proses klasifikasi dokumen. Seperti halnya metodametoda lain, metoda Naïve Bayes classifier ini tidaklah 100% sempurna. Ada banyak kelebihan dan kekurangan dari metoda ini, yang dapat menjadi dasar bahan kajian lebih lanjut untuk mendapatkan atau mengembangkan metoda klasifikasi lain, yang dapat bekerja dengan lebih efektif dan efisien, serta mengurangi jumlah titik kelemahan yang dapat disalah gunakan oleh orang lain. Berdasarkan hasil eksprimen, Naïve Bayes Classifier terbukti dapat digunakan secara efektif untuk mengklasifikasikan dokumen secara otomatis. Algoritma NBC yang sederhana dan kecepatannya yang tinggi dalam proses pelatihan dan klasifikasi membuat algoritma ini menarik untuk digunakan sebagai salah satu metode klasifikasi. DAFTAR PUSTAKA [1] Even.Yahir dan Zohar Introduction to Text Mining. Automated Learning Group National Center For Supercomputing Aplications. University of Illionis. PR ppt. Diakses tanggal 1 Maret [2] Harlian, Milka Machine Learning Text Kategorization. Austin : University of Texas. [3] Santoso, Budi Data Mining Teknik Pemanfaatan data Untuk Keperluan Bisnis. Yogyakarta : Graha Ilmu [4] Y. Wibisono Klasifikasi Berita Berbahasa Indonesia Menggunakan Naïve Bayes Classifier. Internal Publication, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Pendidikan Indonesia, Bandung, Jawa Barat. 147