METODE SMOOTHING DALAM NAÏVE BAYES UNTUK KLASIFIKASI SPAM MUTIA HAFILIZARA

Ukuran: px
Mulai penontonan dengan halaman:

Download "METODE SMOOTHING DALAM NAÏVE BAYES UNTUK KLASIFIKASI SPAM MUTIA HAFILIZARA"

Transkripsi

1 METODE SMOOTHING DALAM NAÏVE BAYES UNTUK KLASIFIKASI SPAM MUTIA HAFILIZARA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Spam adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Desember 2014 Mutia Hafilizara NIM G

4 ABSTRAK MUTIA HAFILIZARA. Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Spam. Dibimbing oleh JULIO ADISANTOSO. Kehadiran spam pada menyebabkan penelitian terhadap pembangunan piranti lunak spam filter untuk mengklasifikasikan meningkat. Naïve Bayes banyak digunakan sebagai fungsi klasifikasi oleh pengembang spam filter. Pada fungsi klasifikasi Naïve Bayes terdapat metode smoothing yang telah umum digunakan yaitu Add-One smoothing atau Laplace smoothing. Disamping itu terdapat metode smoothing lainnya yaitu Jelinek-Mercer smoothing, Dirichlet smoothing, Absolute Discounting smoothing, dan Two-Stage smoothing yang diduga mampu meningkatkan akurasi melebihi Laplace smoothing. Hasil percobaan menunjukkan bahwa akurasi yang dihasilkan fungsi Naïve Bayes menggunakan metode Laplace smoothing sebesar 93.72% lebih rendah dari penggunaan metode smoothing lainnya yang mencapai nilai akurasi melebihi 94%. Fungsi klasifikasi Naïve Bayes yang menggunakan metode Dirichlet smoothing memberikan nilai akurasi terbaik dengan nilai akurasi 94.82%. Kata kunci: akurasi, metode smoothing naïve bayes, spam filter ABSTRACT MUTIA HAFILIZARA. Naïve Bayes Smoothing Methods for Spam Classification. Supervised by JULIO ADISANTOSO. The presence of spam in lead research on the development of software to classify spam filter increases. Naïve Bayes is widely used as classification function by spam filter developer. Smoothing method on Naïve Bayes classification function that has been commonly used, namely Add-One smoothing or Laplace smoothing. There are another methods such as Jelinek-Mercer smoothing, Dirichlet smoothing, Absolute Discounting smoothing, and Two Stage which allegedly able to improve classification accuracy exceeds Laplace smoothing. The experimental results shown accuracy for Naïve Bayes classification function using Laplace smoothing method is 93.72% lower than other smoothing methods which accuration results more than 94%. Naïve Bayes classification function which using Dirichlet smoothing method that gives the best results with accuracy 94.82%. Keywords: accuration, naïve bayes smoothing method, spam filter

5 METODE SMOOTHING DALAM NAÏVE BAYES UNTUK KLASIFIKASI SPAM MUTIA HAFILIZARA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014

6 Penguji: 1. Ahmad Ridha, SKom MS 2. Dr Imas Sukaesih Sitanggang, SSi MKom

7 Judul Skripsi : Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Spam Nama : Mutia Hafilizara NIM : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Juni 2014 ini ialah spam filter, dengan judul Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Spam. Terima kasih penulis ucapkan kepada Bapak Ir. Julio Adisantoso M.Kom selaku pembimbing. Ungkapan terima kasih juga disampaikan kepada kedua orangtua, Iqbal, Mute, serta seluruh keluarga dan teman, atas segala doa dan kasih sayangnya. Begitu pula rasa terima kasih penulis ucapkan pada rekan-rekan Ekstenerz 7 yang menjadi bagian hidup penulis selama menempuh pendidikan di Ekstensi Ilmu Komputer IPB. Semoga karya ilmiah ini bermanfaat. Bogor, Desember 2014 Mutia Hafilizara

9 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 METODE 2 Pengumpulan Dokumen 3 Ekstraksi Dokumen 3 Praproses 4 Fungsi Smoothing Naïve Bayes 6 Evaluasi 7 HASIL DAN PEMBAHASAN 8 Pengumpulan Dokumen 8 Ekstraksi Dokumen 9 Praproses 9 Fungsi Smoothing Naïve Bayes 10 Evaluasi 12 SIMPULAN DAN SARAN 15 Simpulan 15 Saran 15 DAFTAR PUSTAKA 15 LAMPIRAN 17 RIWAYAT HIDUP 21

10 DAFTAR TABEL 1 Komponen Header dan Body 4 2 Tabel Kontingensi 5 3 Nilai Kritis χ2 untuk taraf nyata α dengan derajat bebas = 1 (Walpole 1993) 5 4 Pendugaan parameter empat metode smoothing (Yuan et al. 2012) 7 5 Confussion Matrix dari klasifikasi dokumen 7 6 Jumlah token, persentase token terambil, dan persentase token reduksi pada 5 nilai taraf nyata (α) 10 7 Inverted index hasil seleksi fitur pada beberapa token penciri spam, dan frekuensi kemunculannya pada dokumen ham dan spam 10 8 Pengaruh koefisien kontrol dari metode smoothing Naïve Bayes terhadap akurasi yang dihasilkan pada penggunaan vocabulary taraf nyata(α) = Jumlah token penciri spam yang dihasilkan dari metode perhitungan smoothing Naive Bayes 12 DAFTAR GAMBAR 1 Diagram Alir Penelitian 3 2 Tingkat akurasi pengujian dokumen menggunakan metode smoothing dengan seleksi fitur chi-square pada 5 nilai taraf nyata (α) 13 3 Nilai miss rate dari pengujian dokumen menggunakan metode smoothing dengan seleksi fitur chi-square pada 5 nilai taraf nyata (α) 14 4 Nilai false alarm rate dari pengujian dokumen menggunakan metode smoothing dengan seleksi fitur chi-square pada 5 nilai taraf nyata (α) 14 DAFTAR LAMPIRAN 1 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi dokumen menggunakan metode smoothing Naïve Bayes pada 5 nilai taraf nyata (α) 17 2 Tingkat akurasi tanpa menggunakan seleksi fitur chi-square 18 3 Waktu eksekusi metode smoothing pada nilai taraf nyata (α)= 0.1 dan nilai koefisien kontrol metode smoothing 19 4 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi yang tidak menggunakan token ekstraksi html pada 5 nilai taraf nyata (α) 20

11 PENDAHULUAN Latar Belakang Berkirim surat merupakan hal yang sering dilakukan oleh semua orang. Salah satu sarana mengirim surat adalah melalui pos. Namun seiring dengan kemajuan teknologi, kemunculan menjadi alternatif sarana mengirim surat yang lebih cepat dan hemat biaya dibandingkan melalui pos. Keunggulan yang dimiliki ternyata banyak disalahgunakan sebagai sarana pengiriman pesan massal yang bersifat komersial atau pesan lain yang tidak diinginkan biasa disebut dengan spam. Spam yang terkirim kepada pengguna layanan dapat menimbulkan masalah berupa meningkatnya kapasitas penyimpanan dan menghabiskan waktu pengguna untuk menghapus spam. Seperti hasil analisis spam tahunan yang tersedia pada website Securelist (2014) terdapat 69.9% spam yang terkirim di seluruh dunia pada tahun Angka ini menurun 2.5% dari tahun sebelumnya. Dengan adanya masalah kehadiran spam, maka muncul piranti lunak spam filter untuk mengklasifikasikan yang dikembangkan dengan berbagai macam metode, salah satunya menggunakan fungsi klasifikasi Naïve Bayes. Naïve Bayes banyak digunakan sebagai metode dalam klasifikasi oleh pengembang spam filter komersial maupun open-source karena kesederhanaan algoritmenya dan mudah dalam mengimplementasikannya (Metsis et al. 2006). Pada penelitan pemodelan spam filter sebelumnya Rachman (2011) melakukan pengukuran kinerja spam filter menggunakan fungsi klasifikasi Naïve Bayes Multinomial dan Graham. Pada proses penghitungan Naïve Bayes terdapat masalah apabila ada peluang yang bernilai nol. Oleh karena itu digunakan Laplace smoothing yaitu penambahan dengan angka 1 sehingga tidak ada peluang yang akan bernilai nol. Selain Laplace smoothing ada beberapa metode smoothing lainnya. Pada penelitian Yuan et al. (2012) dilakukan klasifikasi teks pendek menggunakan empat jenis metode smoothing dalam Naïve Bayes yaitu Jelinek-Mercer smoothing, Dirichlet smoothing, Absolute Discounting smoothing, dan Two-Stage smoothing. Hasil penelitian ini memperlihatkan bahwa metode smoothing tersebut mampu meningkatkan tingkat akurasi dari Naïve Bayes untuk proses klasifikasi teks. Selain penggunaan metode smoothing ada juga seleksi fitur. Seleksi fitur dilakukan untuk mendapatkan daftar term yang efektif dan meningkatkan akurasi klasifikasi salah satunya adalah menggunakan chi-square karena performanya yang lebih baik dibandingkan seleksi fitur berbasis frekuensi dan Mutual Information (Manning et al. 2009). Oleh karena itu, penelitian ini mengimplementasikan metode-metode smoothing dalam Naive Bayes dan seleksi fitur chi-square pada proses klasifikasi dokumen spam.

12 2 Perumusan Masalah Perumusan masalah penelitian ini adalah : 1. Bagaimana empat metode smoothing dalam Naïve Bayes digunakan dalam proses klasifikasi dokumen spam? 2. Bagaimana seleksi fitur chi-square dapat mempengaruhi tingkat akurasi? 3. Bagaimana tingkat akurasi yang dihasilkan dari metode Jelinek-Mercer, Dirichlet, Absolute Discounting, dan Two Stage smoothing jika dibandingkan dengan metode Laplace smoothing? Tujuan Penelitian Tujuan dari penelitian ini adalah: 1. Mengimplementasikan metode smoothing dalam Naïve Bayes yaitu Laplace, Jelinek-Mercer, Dirichlet, Absolute Discounting, dan Two Stage pada proses klasifikasi dokumen spam. 2. Mengimplementasikan seleksi fitur chi-square pada proses klasifikasi dokumen spam. 3. Membandingkan tingkat akurasi dari metode Jelinek-Mercer, Dirichlet, Absolute Discounting, Two Stage smoothing, dan Laplace smoothing. Manfaat Penelitian Penelitian ini diharapkan dapat menghasilkan pemodelan klasifikasi spam yang tingkat akurasinya lebih baik. Ruang Lingkup Penelitian Ruang lingkup pada penelitian ini antara lain: 1. Korpus yang digunakan adalah dokumen berbahasa inggris dengan standar MIME dalam format raw. 2. Seleksi fitur yang digunakan adalah metode chi-square. 3. Data yang digunakan diekstrak untuk mendapatkan header dan body. Untuk bagian header yang diambil adalah subject untuk dilakukan tokenisasi 4. Proses stemming tidak dilakukan karena hanya menurunkan jumlah vocabulary. METODE Tahapan penelitian dimulai dari pengumpulan data , ekstraksi dokumen , praproses, melakukan pemodelan menggunakan beberapa fungsi klasifikasi, pengujian, dan evaluasi hasil. Gambar 1 menunjukkan diagram alir penelitian yang dilakukan.

13 3 Gambar 1 Diagram Alir Penelitian Pengumpulan Dokumen Data yang digunakan dalam penelitian adalah korpus publik yang tersedia pada halaman web Spamassassin 1 dengan kode prefix Data yang didapatkan masih berupa campuran dari 3 tipe yaitu easy ham, hard ham, dan spam. tersebut terdiri atas 1897 spam, 250 hard ham dan 3900 easy ham. Tipe easy ham merupakan pesan ham yang tidak memiliki cukup ciri untuk dikategorikan sebagai spam. Sedangkan tipe hard ham merupakan pesan ham yang memiliki cukup ciri untuk dikategorikan sebagai spam. Selanjutnya pada penelitian ini pesan yang termasuk kategori easy ham dan hard ham digabungkan menjadi tipe ham. Dengan demikian korpus yang digunakan adalah kumpulan bertipe ham dan spam. Setiap data tersebut akan diberi label sesuai dengan kelasnya masing-masing secara manual. Ekstraksi Dokumen Ekstraksi dokumen untuk mendapatkan bagian yang akan dimasukkan dalam proses tokenisasi. Isi dari sebuah dokumen terdiri atas header dan diikuti dengan body (opsional). Tabel 1 menampilkan komponen header dan body berdasarkan The Internet Society (2005), sedangkan komponen header yang digunakan untuk mendapatkan ekstraksi dokumen dalam penelitian adalah subject saja. 1 Data diunduh di alamat

14 4 Tabel 1 Komponen Header dan Body Jenis Komponen Header Body Nama Sintaks Definisi Sintaks MIME-version Menunjukkan versi MIME yang digunakan Form Nama dan alamat pengirim pesan Received Daftar semua server / komputer dimana pesan dapat sampai kepada penerimanya Date Menunjukkan tanggal dan waktu pesan dibuat Delivered-To Alamat penerima Message-ID Sebuah string unik yang diberikan oleh sistem mail saat pesan tersebut pertama kali dibuat Subject Subjek dari pesan To Alamat yang digunakan untuk mengirim pesan X-Mailer Aplikasi yang digunakan untuk mengirimkan pesan Return - Path Alamat pengembalian pesan jika alamat penerima tidak ditemukan Plain text Isi pesan dengan format penulisan dalam teks ASCII biasa HTML text Isi pesan yang mengandung tag HTML Attachment Informasi yang memberikan lampiran dari sebuah pesan. Praproses Dokumen yang telah diekstraksi kemudian dilakukan tokenisasi. Tokenisasi adalah proses memotong teks menjadi bagian-bagian kecil yang disebut dengan token (Manning et al. 2008). Selain pemotongan teks, pada tahap praproses juga dilakukan pembuangan karakter-karakter tertentu dan seleksi fitur ciri. Pembuangan karakter-karakter tertentu dalam tahap ini adalah membuang bagian kata yang termasuk ke dalam stopwords. Pada penelitian ini stopwords dibuang untuk mengoptimalkan dalam memunculkan token yang berguna dalam proses seleksi fitur ciri. Proses stemming tidak dilakukan karena pada penelitian sebelumnya Drucker et al. (1999) menyatakan stemming hanya menurunkan besar vocabulary. Seleksi fitur ciri adalah proses memilih sebuah subset dari token-token yang muncul, dan hanya subset ini yang digunakan sebagai fitur dalam proses klasifikasi. Dengan adanya seleksi fitur ciri dapat mengoptimalkan proses klasifikasi karena dapat meminimumkan jumlah token yang efektif saja, dan dapat meningkatkan tingkat akurasi dalam mengklasifikasi karena dapat menghilangkan noise feature. Secara lebih sederhananya tidak semua kata unik dapat menjadi penciri, oleh karena itu dilakukan seleksi fitur ciri. Terdapat 3 seleksi fitur ciri, yaitu Mutual Information, Chi-Square, dan Frequency Based (Manning et al. 2009).

15 Untuk menentukan subset dari token yang muncul, pada penelitian ini menggunakan seleksi fitur ciri chi-square. Nilai chi-square kata t pada kelas c dihitung menggunakan persamaan (Manning et al. 2009) χ 2 (t, c) = (N et ec E e t ec )2 e t {0,1} e c {0,1} (1) E et ec dengan N adalah frekuensi yang diamati, E adalah frekuensi yang diharapkan, e t adalah dokumen yang terkait dengan token t, dan e c adalah dokumen yang tidak terkait dengan kelas c. Penghitungan nilai chi-square pada setiap kata t yang muncul pada setiap kelas c dapat dibantu dengan menggunakan tabel kontingensi pada Tabel 2. Isi dari Tabel 2 terdiri atas N merupakan jumlah dokumen latih, A merupakan banyaknya dokumen pada kelas c yang memuat kata t, B merupakan banyaknya dokumen yang bukan kelas c namun memuat kata t, C merupakan banyaknya dokumen yang ada di kelas c namun tidak memiliki kata t, serta D merupakan banyaknya dokumen yang bukan kelas c dan tidak memuat kata t. Tabel 2 Tabel Kontingensi Kata Kelas c c t A B t C D Tabel kontingensi membantu persamaan 1 lebih sederhana menjadi bentuk persamaan χ 2 (t, c) = N(AD CB) 2 (A+C)(B+D)(A+B)(C+D) Pengambilan keputusan dilakukan berdasarkan nilai χ 2 dari masing-masing kata. Kata yang memiliki nilai χ 2 lebih besar dari nilai kritis pada taraf nyata α adalah kata yang akan dipilih sebagai penciri dokumen. Kata yang dipilih sebagai penciri merupakan kata yang memiliki pengaruh terhadap kelas c. Beberapa nilai kritis χ 2 untuk taraf nyata α yang digunakan dalam penelitian (Walpole 1993) ditunjukkan pada Tabel 3. Tabel 3 Nilai Kritis χ 2 untuk taraf nyata α dengan derajat bebas = 1 (Walpole 1993) α Nilai kritis Hasil dari proses tokenisasi adalah inverted index dari korpus yang telah memiliki bobot. Penelitian Anagnostopoulos et al. (2006) menunjukkan bahwa inverted index dapat mengefisienkan klasifikasi. Pada tahapan seleksi fitur menggunakan chi-square dengan nilai kritis tertentu telah terpilih term yang menjadi subset kemudian diboboti berupa term frequency (TF). Subset tersebut 5 (2)

16 6 dijadikan matriks dengan memisalkan TFij adalah banyaknya token i yang muncul pada dokumen j, yaitu TF 11 TF 12 TF 1 TF 1j TF ( 21 TF 22 TF 2 TF 2j ). TF ij TF ij TF ij TF ij Fungsi Smoothing Naïve Bayes Token penciri dokumen yang masuk suatu kelas tertentu telah didapatkan pada tahap tokenisasi, sehingga tahap selanjutnya adalah menentukan fungsi klasifikasi. Pada penelitian ini pemodelan klasifikasi menggunakan metode supervised learning berbasis peluang. Perhitungan peluang tersebut berdasarkan kaidah peluang Naïve Bayes yaitu P(c d) P(c) 1 k<n d P(t k c) (3) dengan parameter P(c) adalah peluang dokumen ada pada kelas c, P(t k c) adalah peluang token t k muncul pada dokumen c, dan n d adalah jumlah token unik pada dokumen. Pendugaan parameter P (c) dan P (t k c) pada persamaan P (c) = N c T ct (4) t V T ct, P (t c) = N dimana N c adalah banyaknya dokumen dalam kelas c, N adalah total dokumen, T ct adalah banyaknya token t dalam dokumen training dari kelas c (Manning et al. 2009). Pendugaan parameter P (t k c) memiliki kelemahan apabila bernilai nol. Untuk menghilangkan hal tersebut dapat diatasi dengan adanya metode smoothing pada Naïve Bayes. Metode yang sudah umum dipakai adalah Add-One Smoothing atau selanjutnya disebut sebagai Laplace Smoothing. Metode tersebut memiliki persamaan (Manning et al. 2009) P (t c) = T ct +1 ( t V T ct )+ B dengan B = banyaknya term dalam vocabulary. Penggunaan Laplace Smoothing sebagai metode penghitungan peluang setiap token adalah yang paling sederhana dengan menambahkan 1 pada setiap frekuensi token yang didapat. Walaupun sederhana ternyata metode Laplace Smoothing masih rentan terhadap noise. Oleh karena itu dilakukan penelitian yang dilakukan Yuan et al. (2012) terkait dengan klasifikasi teks pendek dengan menggunakan empat metode smoothing yaitu Jelinek - Mercer, Dirichlet, Absolute Discounting, dan Two-Stage smoothing. Penggunaan empat metode smoothing tersebut terbukti dapat meningkatkan hasil akurasi melebihi metode Laplace Smoothing. Perhitungan peluang setiap dokumen menggunakan empat metode smoothing ini masih mengacu kaidah Naïve Bayes pada persamaan (3) namun berbeda pada persamaan pendugaan parameter P (t k c) seperti yang ditampilkan pada Tabel 4. (5)

17 7 Tabel 4 Pendugaan parameter empat metode smoothing (Yuan et al. 2012) Metode Jelinek-Mercer Dirichlet Absolute Discounting Two-Stage P λ(t c) = (1 λ) P (t k c) T ct t V T ct P μ(t c) = T ct + μ P(t C) + μ t V T ct + λ P(t C) P δ(t c) = max(t ct δ, 0) + δ B c P(t C) t V T ct P λ, μ(t c) = (1 λ) T ct + μ P(t C) + λ P(t C) T ct + μ t V Niai λ, μ, dan δ merupakan koefisien kontrol yang bersifat relatif hingga menghasilkan akurasi paling optimum pada klasifikasi, B c jumlah kata unik pada kelas c, P(t C) merupakan penduga kemungkinan maksimum dihitung dengan persamaan m dimana count (t, c j ) P(t C) = m j=1 count (t,c j ) k j count (t k,c j ) j=1 adalah jumlah token t pada kelas c j hingga c m, dan k j count (t k, c j ) adalah jumlah seluruh token yang ada pada kelas c j hingga c m (Chharia dan Gupta 2013). Pada metode smoothing Absolute Discounting perhitungan penduga kemungkinan maksimum P(t C) dilakukan berbeda, yaitu menggunakan persamaan 1 P(t C) = B count (t, c j) j=1 dengan B = banyaknya term dalam vocabulary (Chharia dan Gupta 2013). m (10) Evaluasi Pemodelan yang telah dilakukan dengan cara supervised learning berbasis peluang Naïve Bayes pada data latih, selanjutnya diuji dan dievaluasi menggunakan data uji yang tersedia. Data tersebut masuk ke proses tokenisasi untuk mendapatkan token setiap dokumen, kemudian dihitung peluang dokumen pada persamaan (3) dengan menggunakan pendugaan parameter pada persamaan (5), (6), (7), (8), dan (9). Evaluasi dilakukan dengan cara membandingkan kelas aktual dari dari data uji dan kelas hasil prediksi dengan menggunakan Confusion Matrix (Tabel 5). Tabel 5 Confussion Matrix dari klasifikasi dokumen Kelas Aktual Kelas Prediksi Spam Spam Spam TP FN Spam FP TN

18 8 TP (True Positive) pada Tabel 5 merupakan banyaknya dokumen yang kelas aktualnya adalah kelas spam dengan kelas prediksinya kelas spam, FN (False Negative) merupakan banyaknya dokumen yang kelas aktualnya adalah kelas spam dengan kelas prediksinya kelas bukan spam, FP (False Positive) merupakan banyaknya dokumen yang ada kelas aktualnya adalah kelas bukan spam dengan kelas prediksinya kelas spam serta TN merupakan banyaknya dokumen yang ada kelas aktualnya adalah kelas bukan spam dengan kelas prediksinya kelas bukan spam. Berdasarkan Tabel 5, maka nilai akurasi dapat dihitung dengan menggunakan persamaan (Manning et al. 2009) Akurasi = TP+TN TP+FN+FP+TN. (11) Selain dari pengukuran akurasi, evaluasi dilakukan terhadap False Alarm Rate dan Miss Rate. False Alarm adalah ukuran dokumen spam yang salah terklasifikasi pada persamaan False Alarm Rate = spam document misclassified total spam document sedangkan Miss Rate adalah ukuran dokumen ham yang salah terklasifikasi pada persamaan Miss rate = nonspam document misclassified total nonspam document (12). (13) Keuntungan dari penggunaan False Alarm Rate dan Miss Rate dapat mengindikasikan tingkat kesalahan klasifikasi setiap kategori (Harris et al. 1999). HASIL DAN PEMBAHASAN Pengumpulan Dokumen Korpus yang telah didapatkan sebelumnya, yaitu 1897 spam, 250 hard ham, dan 3900 easy ham kemudian digabungkan dan dikategorikan menjadi 2 jenis yaitu ham dan spam. Ham merupakan gabungan dari data hard ham dan easy ham. Korpus dimasukkan dalam folder mails sebagai sumber data yang digunakan dalam pembuatan program klasifikasi dan masing-masing dibagi menjadi data latih sebanyak 70%, dan data uji sebanyak 30%. Komposisi dari pembagian korpus adalah sebagai berikut : 1. Total dari dokumen ham Komposisi yang digunakan sebagai data latih sebanyak 2905 dokumen dan data uji sebanyak 1245 dokumen. 2. Total dari dokumen spam Komposisi yang digunakan sebagai data latih sebanyak 1328 dokumen dan data uji sebanyak 569 dokumen. Bahasa yang digunakan dalam korpus adalah Bahasa Inggris. Bahasa yang digunakan tersebut mengacu pada data yang didapat dari laman spamassasin. Penomoran serta ekstensi file yang berbeda-beda pada korpus menyulitkan pada saat training maupun testing sehingga harus dilakukan penamaan ulang berupa penomoran secara berurut, beserta dengan penggantian ekstensi file menjadi file . Hal tersebut dilakukan menggunakan software Bulk Rename dengan tujuan mempermudah mengolah korpus dalam pemrograman sehingga lebih jelas dalam penamaan dan ekstensi setiap dokumennya. Dari korpus yang ada, terlihat bahwa ukuran yang masuk kategori spam memiliki ukuran yang besar dibandingkan dengan kategori ham. Ukuran terbesar dari korpus spam adalah 227 KB, sedangkan ukuran korpus

19 ham terbesar adalah 192 KB. pada korpus memiliki sistem encoding dan charset yang berbeda-beda. Charset adalah set karakter yang digunakan dan encoding adalah cara yang digunakan untuk penyimpanan karakter di dalam memori. Korpus spam cenderung menggunakan encoding BASE64 yang merepresentasikan karakter not humanly readable. Ekstraksi Dokumen Korpus yang telah didapatkan kemudian dilakukan ekstraksi untuk mendapatkan bagian-bagian tertentu dari bagian header dan body. Ekstraksi dilakukan dengan menggunakan program MIME Mailparser. Komponen yang diekstraksi dari bagian header adalah bagian subject karena baik dokumen spam maupun ham selalu memiliki bagian tersebut. Subject lebih berpeluang menghasilkan token yang optimum untuk klasifikasi dibandingkan komponen header lainnya seperti from, to, return path, dan X-mailer tidak banyak mempengaruhi klasifikasi karena sifatnya hanya informatif dan cocok digunakan pada pengembangan klasifikasi berbasis aturan. Proses ekstraksi pada bagian body mengambil isi dokumen yang termasuk ke dalam text dan html. Bagian text merupakan teks biasa (plain text), sedangkan bagian html merupakan isi dari body yang mengandung tag html. Tag tersebut diekstraksi namun yang masuk sebagai data ekstraksi adalah atribut dan value dari tag html-nya. Bagian yang berupa attachment tidak diekstraksi karena tidak menghasilkan token yang berguna untuk klasifikasi. Dari hasil pengamatan, dokumen spam paling banyak mengandung html dan multipart (dokumen yang mengandung attachment). Praproses Proses tokenisasi dilakukan pada teks hasil dari ekstraksi bagian subject, text, dan html sehingga menghasilkan token-token yang berupa kata tunggal. Selanjutnya dilakukan penghilangan token yang termasuk ke dalam kategori stop words 2. Setelah melalui proses penghilangan stop words didapat sejumlah token dari seluruh dokumen data latih spam dan ham. Dengan total token unik , sejumlah kata unik terdapat pada dokumen ham dan kata unik terdapat pada dokumen spam. Token yang digunakan memiliki panjang minimum 3 karakter dan selanjutnya dilakukan seleksi fitur dengan melakukan penghitungan nilai chi-square setiap token pada persamaan (1), sehingga dapat ditentukan token yang optimum masuk sebagai penciri dokumen spam berdasarkan nilai taraf nyata (α) yang digunakan. Jumlah token unik yang masuk ke fungsi chi-square sejumlah Nilai chi-square yang dihasilkan setiap token menunjukkan tingkat kepentingan setiap token menjadi penciri suatu dokumen spam. Dari nilai chi-square yang dihitung maka dapat ditentukan pengambilan token penciri sesuai batas nilai taraf nyata (α). Tabel 6 memperlihatkan jumlah token, persentase jumlah token yang terambil, dan persentase reduksi token yang didapat pada beberapa taraf nyata (α). 9 2 Daftar stopwords dapat diunduh pada

20 10 Tabel 6 Jumlah token, persentase token terambil, dan persentase token reduksi pada 5 nilai taraf nyata (α) Taraf Nyata (α) Nilai kritis Jumlah Token (Vocabulary) Persentase Token Terambil Persentase Reduksi Token Pada Tabel 6 terlihat bahwa semakin kecil nilai taraf nyata (α) yang digunakan, maka jumlah token penciri yang digunakan (vocabulary) semakin sedikit, dan hal ini berpengaruh pada hasil klasifikasi. Lampiran 1 menunjukkan pengaruh dari jumlah vocabulary yang diambil dari penggunaan 5 nilai taraf nyata (α) terhadap nilai akurasi, miss rate, dan false alarm rate yang dihasilkan dari proses klasifikasi. Seleksi fitur mengoptimalkan perolehan token penciri spam agar sebuah dokumen dapat dihitung nilai peluang masuk ke dalam kelas spam dan ham. Tabel 7 menunjukkan inverted index yang dihasilkan dari seleksi fitur pada beberapa token diambil secara acak yang menjadi penciri spam dengan nilai chi-square tinggi, dan frekuensi kemunculannya pada dokumen ham dan spam. Tabel 7 Inverted index hasil seleksi fitur pada beberapa token penciri spam, dan frekuensi kemunculannya pada dokumen ham dan spam Token Dokumen ham Dokumen spam opportunity offer deathtospamdeathtospamdeathtospam reply money removed arial align face color Fungsi Smoothing Naïve Bayes Berdasarkan perhitungan peluang dokumen pada persamaan (3), maka pendugaan parameter P (t k c) dapat dihitung menggunakan masing-masing metode smoothing (5), (6), (7), (8), dan (9) dengan T ct adalah banyaknya term t dalam dokumen training dari kelas c yang diperoleh dari inverted index hasil praproses. Tabel 8 menunjukkan pengaruh koefisien metode smoothing terhadap akurasi pada penggunaan vocabulary hasil seleksi fitur dengan taraf nyata (α) = Pada

21 tabel tersebut terdapat koefisien yang digunakan oleh setiap persamaan metode smoothing. Jelinek-mercer menggunakan koefisien λ pada persamaan (6), Dirichlet menggunakan koefisien μ pada persamaan (7), Absolute-discounting menggunakan koefisien θ pada persamaan (8), dan Two-stage menggunakan koefisien λ dan μ pada persamaan (9). Nilai koefisien yang diujikan pada penelitian ini terbatas pada nilai yang tertera pada Tabel 8. Tabel 8 Pengaruh koefisien kontrol dari metode smoothing Naïve Bayes terhadap akurasi yang dihasilkan pada penggunaan vocabulary taraf nyata(α) = Metode Koefisien Kontrol Akurasi (%) λ = λ = Jelinek-mercer λ = λ = λ = μ = μ = Dirichlet μ = μ = μ = θ = θ = Absolute -discounting θ = θ = θ = λ = 0.1 μ = μ = μ = Two-stage λ = 0.3 μ = μ = μ = λ = 0.5 μ = μ = μ = λ = 0.7 μ = μ = μ = λ = 0.9 μ = μ = μ = Laplace

22 12 Nilai Koefisen tersebut dapat di rubah sesuai dengan rentang nilainya. Semua koefisien kontrol memiliki nilai dengan rentang 0 1, kecuali untuk μ pada Two-Stage yang sesuai dengan jumlah vocabulary dalam penelitian, sehingga digunakan nilai , , dan Proses klasifikasi juga dilakukan dengan tidak menggunakan seleksi fitur chi-square. Lampiran 2 menunjukkan akurasi tanpa menggunakan seleksi fitur sedikit lebih tinggi dibandingkan yang menggunakan seleksi fitur namun terdapat kelemahan pada waktu eksekusi yang lebih lama dua kali lipat oleh karena itu penggunaan seleksi fitur selain mempengaruhi akurasi juga mempersingkat waktu eksekusi (Lampiran 3). Perhitungan pendugaan parameter menggunakan empat metode smoothing Naïve Bayes pada Tabel 4 dan Laplace pada persamaan (5) menghasilkan nilai peluang yang berbeda sehingga menimbulkan perbedaan jumlah token penciri spam yang terambil. Tabel 9 menunjukkan jumlah token penciri spam yang terambil dari masing-masing metode smoothing. Tabel 9 Jumlah token penciri spam yang dihasilkan dari metode perhitungan smoothing Naive Bayes Metode Jumlah token penciri spam Jelinek-mercer 5687 Dirichlet 5687 Absolute -discounting 5879 Two-stage 5687 Laplace 5685 Dari Tabel 9 dapat disimpulkan bahwa perhitungan pendugaan parameter empat metode smoothing dapat menghasilkan jumlah token penciri spam yang lebih banyak dibandingkan metode Laplace. Evaluasi Evaluasi dilakukan setelah pengujian terhadap dokumen uji, dengan menghitung nilai peluang dokumen pada persamaan (3). Karena perkalian peluang dokumen menghasilkan nilai yang sangat kecil sehingga dapat menghasilkan kesalahan presisi, maka dilakukan perhitungan menggunakan logaritma untuk menghitung peluang dokumen pada persamaan (Manning et al. 2009) log P(c d) P(c) = log P(c d) P(c ) P(t k c) P(t k c ) log P(c d) P(c) = log P(c d) P(c ) + log P(t k c) P(t k c ) 1 dengan P(c d) adalah nilai peluang masuk kedalam dokumen spam, dan P(c d) adalah nilai peluang masuk kedalam dokumen ham. Dari hasil perhitungan nilai peluang pada dokumen uji maka dokumen hasil klasifikasi dapat dimasukkan kedalam confussion matrix merujuk pada Tabel 5. Gambar 2 yang menunjukkan tingkat akurasi masing-masing metode smoothing k 1 k

23 terhadap 5 nilai taraf nyata (α) dengan metode perhitungan merujuk pada persamaan (11). Terlihat bahwa akurasi lebih tinggi pada peggunaan niai taraf nyata % 95.00% 94.50% 94.00% 93.50% Akurasi 93.00% 92.50% 92.00% 91.50% 91.00% Jelinek-mercer 94.93% 93.61% 93.50% 93.11% 92.78% Dirichlet 94.82% 94.87% 93.66% 93.55% 93.27% Absolute-Discounting 94.60% 94.54% 93.38% 92.89% 92.56% Two-Stage 94.87% 93.61% 93.50% 93.11% 92.78% Laplace 93.72% 93.61% 93.38% 92.94% 92.78% Nilai taraf nyata (α) Gambar 2 Tingkat akurasi pengujian dokumen menggunakan metode smoothing dengan seleksi fitur chi-square pada 5 nilai taraf Gambar 3 menunjukkan nilai miss rate yaitu persentase dari dokumen ham yang salah terklasifikasi pada setiap metode smoothing, nilai yang dihasilkan merujuk pada persamaan (13). Terlihat bahwa nilai miss rate terendah dihasilkan dari penggunaan nilai taraf nyata 0.1. Gambar 4 menunjukkan nilai false alarm yaitu persentase dari dokumen spam yang salah terklasifikasi pada setiap metode smoothing seperti pada persamaan (12). Terlihat bahwa nilai fase alarm rate terendah dihasilkan dari penggunaan nilai taraf nyata 0.1. Nilai false alarm rate tertinggi dimiliki oleh metode Laplace, yang menunjukkan metode Laplace masih rentan dalam kesalahan klasifikasi spam ke dalam kelas ham yaitu sebesar 16%. Sedangkan nilai miss rate tertinggi dimiliki oleh metode Absolute-Discounting yang menunjukkan bahwa metode smoothing ini masih rentan dalam kesalahan klasifikasi ham ke dalam kelas spam yaitu sebesar 2.4%. Nilai miss rate yang tinggi pada metode Absolute-Discounting bisa saja tidak diperhitungkan apabila kesalahan klasifikasi ham tersebut adalah dengan kategori hard ham yang hampir menyerupai spam. Evaluasi tambahan dilakukan pada klasifikasi yang hanya menggunakan token hasil ekstraksi bagian subject dan text. Lampiran 4 menunjukkan nilai akurasi, miss rate, dan false alarm rate yang dihasilkan dari proses klasifikasi yang hanya menggunakan bagian subject dan text. Nilai akurasi yang dihasilkan memang lebih

24 14 tinggi namun menghasilkan nilai miss rate juga tinggi sehingga masih lebih baik menggunakan klasifikasi yang menggunakan bagian subject, text, dan html Nilai Miss Rate 5.00% 4.50% 4.00% 3.50% 3.00% 2.50% 2.00% 1.50% 1.00% 0.50% 0.00% Jelinek-Mercer 1.90% 2.30% 2.60% 3.10% 3.70% Dirichlet 1.40% 1.60% 2.40% 2.60% 3.10% Absolute-Discounting 2.40% 2.90% 3.60% 4.20% 4.60% Two-Stage 1.90% 2.30% 2.60% 3.10% 3.70% Laplace 1.80% 2.00% 2.50% 2.80% 3.30% Nilai taraf nyata (α) Gambar 3 Nilai miss rate dari pengujian dokumen menggunakan metode smoothing dengan seleksi fitur chi-square pada 5 nilai taraf nyata (α) Nilai False Alarm 20.00% 18.00% 16.00% 14.00% 12.00% 10.00% 8.00% 6.00% 4.00% 2.00% 0.00% Jelinek-Mercer 14.40% 15.30% 15.10% 15.10% 14.90% Dirichlet 13.40% 12.80% 14.90% 14.90% 14.60% Absolute-Discounting 12.30% 11.10% 13.20% 13.50% 13.70% Two-Stage 14.40% 15.30% 15.10% 15.10% 14.90% Laplace 16.00% 16.00% 15.60% 16.30% 15.80% Nilai taraf nyata (α) Gambar 4 Nilai false alarm rate dari pengujian dokumen menggunakan metode smoothing dengan seleksi fitur chi-square pada 5 nilai taraf nyata (α)

25 15 SIMPULAN DAN SARAN Simpulan Implementasi metode smoothing pada penghitungan peluang token adalah untuk mengatasi permasalahan peluang token yang bernilai nol. Pada proses klasifikasi Naïve Bayes menggunakan laplace smoothing hal tersebut dapat diatasi dengan penambahan konstanta 1 sehingga dapat menghasilkan akurasi sebesar 93.72%. Namun dengan adanya metode smoothing lainnya yaitu Jelinek-Mercer, Dirichlet, Absolute Discounting, dan Two-Stage peluang nol tersebut diatasi dengan penambahan koefisien tertentu sesuai dengan formula setiap metode, dan menghasilkan akurasi rata-rata maksimum dari empat metode smoothing sebesar 94.24%, lebih tinggi dibandingkan metode Laplace dan terbukti meningkatkan akurasi. Dari hasil evaluasi terhadap nilai akurasi, false rate, dan miss rate terlihat metode Dirichlet memiliki nilai miss rate yang paling rendah sebesar 1.4%, nilai false rate 12.3%, dan akurasi 94.82%. Dari hasil penelitian memperlihatkan metode Dirichlet merupakan metode paling baik pada implementasi proses klasifikasi spam. Saran Penelitian ini menghasilkan akurasi terbaik dari Naïve Bayes yang menggunakan metode smoothing Dirichlet, oleh karena itu pengembangan lebih lanjut dapat dilakukan dengan mengoptimalkan penggunaan metode smoothing Dirichlet. Pengoptimalan tersebut dapat dilakukan antara lain dengan percobaan koefisien kontrol hingga mendapatkan akurasi, false alarm, dan miss rate terbaik. Penelitian lebih lanjut juga dapat dilakukan dengan mengikutsertakan ekstraksi bagian images attachment yang banyak dimiliki dokumen spam, karena bagian tersebut bisa dianalisis jika ada informasi teks yang tertanam didalamnya (Fumera et al. 2006). Dengan adanya token yang dihasilkan dari images attachment, maka vocabulary token penciri spam akan semakin bertambah sumbernya tidak hanya pada bagian yang memiliki teks murni. DAFTAR PUSTAKA Anagnostopoulos A, Andrei ZB, and Kunal P Effective and efficient classification on a search-engine model. Publication in Knowledge and Information System [Internet]. [diunduh pada 2014 Agustus 12]. Tersedia pada : Chharia A, Gupta RK Enhancing Naïve Bayes Performance with Modified Absolute Discount Smoothing Method in Spam Classification. International Journal of Advanced Research in Computer Science and Software Engineering [Internet]. [diunduh pada 2014 Agutus 12]. 3(3): ISSN: X. Tersedia pada: /Volume_3/3_March2013/V3I pdf

26 16 Drucker H, Donghui W Support Vector Machine for Spam Categorization. IEEE Transactions On Neurak Networks. [Internet]. [diunduh pada 2014 Juli 2]. 10(5): Tersedia pada : paper-itnn_1999_09_1048.pdf. Fumera G, Pillai I, Roli F Spam Filtering Based On The Analysis Of Text Information Embedded Into Images. Journal of Machine Learning Research 7 [Internet]. [diunduh pada 2014 Desember 2]. 7 (2006): Tersedia pada : Manning CD, Raghavan P, Schütze H Introduction to Information Retrieval. Cambridge University press [Internet]. [diunduh pada 2014 Juni 27]. New York (US): Cambridge University press. Tersedia pada : Metsis V, Androutsopolous I, Paliouras G Spam Filtering with Naive Bayes Which Naive Bayes?. Third Conference on and Anti-Spam [Internet]. [diunduh pada 2014 Juli 2]. California (US) : CEAS. Tersedia pada: Rachman W Pengukuran Kinerja Spam Filter Menggunakan Metode Naive Bayes Classifier Graham [Skripsi]. Bogor (ID): Institut Pertanian Bogor. Sahami M, Dumais S, Heckerman D, Horvitz E A Bayes Approach to Filtering Junk . [Internet].[diunduh pada 2014 Juli 1]. Tersedia pada : [Securelist] Securelist Kaspersky Security Bulletin Spam evolution 2013 [Internet]. [diacu 2014 Juli 1]. Tersedia pada : kaspersky-security-bulletin/58274/kaspersky-security-bulletin-spam-evolution- 2013/. [The Internet Society] The Internet Society Registration of Mail and MIME Header Fields [Internet]. [diacu 2014 Juli 1]. Tersedia pada : html/rfc4021. Walpole RE Pengantar Statistika Edisi ke-3. Sumantri B, penerjemah. Jakarta (ID): Gramedia Pustaka Utama. Terjemahan dari : Introduction to Statistic 3 rd Edition. Yuan Q, Chong G, Thalmann NM Enhancing Naïve Bayes with various smoothing methods for short text classification. ACM [Internet]. [diunduh pada 2014 Juni 27]. Lyon (FR): WWW 2012 Companion. Doi: /12/04. Tersedia pada: papers/wpp095-yuan.pdf.

27 Lampiran 1 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi dokumen menggunakan metode smoothing Naïve Bayes pada 5 nilai taraf nyata (α) Metode Smoothing Nilai taraf nyata (α) Akurasi (%) Miss rate (%) 17 False alarm rate (%) Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage

28 18 Lampiran 2 Tingkat akurasi tanpa menggunakan seleksi fitur chi-square Metode Koefisien Kontrol Akuras (%) λ = λ = Jelinek-mercer λ = λ = λ = μ = μ = Dirichlet μ = μ = μ = θ = θ = Absolute -discounting θ = θ = θ = λ = 0.1 μ = μ = μ = Two-stage λ = 0.3 μ = μ = μ = λ = 0.5 μ = μ = μ = λ = 0.7 μ = μ = μ = λ = 0.9 μ = μ = μ = Laplace

29 Lampiran 3 Waktu eksekusi metode smoothing pada nilai taraf nyata (α)= 0.1 dan nilai koefisien kontrol metode smoothing Metode Koefisien Kontrol Waktu (detik) λ = λ = Jelinek-mercer λ = λ = λ = μ = μ = Dirichlet μ = μ = μ = θ = θ = Absolute -discounting θ = θ = θ = λ = 0.1 μ = μ = μ = Two-stage λ = 0.3 μ = μ = μ = λ = 0.5 μ = μ = μ = λ = 0.7 μ = μ = μ = λ = 0.9 μ = μ = μ = Laplace

30 20 Lampiran 4 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi yang tidak menggunakan token ekstraksi html pada 5 nilai taraf nyata (α) Metode Smoothing Nilai taraf nyata (α) Akurasi (%) Miss rate (%) False alarm rate (%) Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage Laplace Jelinek-mercer Dirichlet Absolute-discounting Two-stage

31 21 RIWAYAT HIDUP Penulis dilahirkan dengan nama Mutia Hafilizara di kota Subang, Provinsi Jawa Barat pada tanggal 26 Mei Penulis merupakan anak pertama dari dua bersaudara, pasangan Bapak Jajang Juhara dan Ibu Lilis Sumiati. Penulis mulai mengenal pendidikan dari TK An-Nida di Binong dan lulus pada tahun 1997, kemudian melanjutkan pendidikan ke Sekolah Dasar di Sekolah Dasar Negeri 1 Binong dan lulus pada tahun Pendidikan menengah penulis diselesaikan pada tahun 2006 di SMP Negeri 1 Binong. Kemudian melanjutkan pendidikan tingkat atas yang dapat diselesaikan pada tahun 2009 di SMA Negeri 1 Subang dan pada tahun yang sama penulis melanjutkan pendidikan di Institut Pertanian Bogor Program Diploma, Program Keahlian Manajemen Informatika. Setelah menempuh pendidikan pada program Diploma penulis melanjutkan pendidikan tingkat sarjana pada program Ekstensi Ilmu Komputer IPB angkatan ke-7.

32

33

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

Pengukuran Kinerja Spam Filter Menggunakan Bayes Classifier. Bayes Classifier PENDAHULUAN JULIO ADISANTOSO *, WILDAN RAHMAN

Pengukuran Kinerja Spam Filter Menggunakan Bayes Classifier. Bayes Classifier PENDAHULUAN JULIO ADISANTOSO *, WILDAN RAHMAN Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 2 Nomor 1 halaman 1-8 ISSN: 2089-6026 Pengukuran Kinerja Spam Filter Menggunakan Bayes Classifier Bayes Classifier JULIO ADISANTOSO

Lebih terperinci

negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1.

negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1. negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1. Tabel 1 Tabel kontingensi kelas hasil prediksi dan kelas sebenarnya Kelas Sebenarnya Spam Kelas Prediksi Ham Spam TP

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

KLASIFIKASI DAN ANALISIS SENTIMEN DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING

KLASIFIKASI DAN ANALISIS SENTIMEN DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING ISSN 1858-4667 JURNAL LINK VOL. 25/No. 2/September 2016 KLASIFIKASI DAN ANALISIS SENTIMEN DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING Badar Said Program Studi Teknik Informatika,

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Data E-mail Pada bagian ini akan disajikan detail jumlah keseluruhan dataset yang digunakan untuk penelitian. Dataset diambil CSDMC21 yang disediakan oleh http://www.csmining.org/

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75 JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-75 Pendeteksian Malware pada Lingkungan Aplikasi Web dengan Kategorisasi Dokumen Fransiskus Gusti Ngurah Dwika Setiawan, Royyana

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin

Lebih terperinci

PENGUKURAN KINERJA SPAM FILTER MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER GRAHAM WILDAN RACHMAN

PENGUKURAN KINERJA SPAM FILTER MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER GRAHAM WILDAN RACHMAN PENGUKURAN KINERJA SPAM FILTER MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER GRAHAM WILDAN RACHMAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

PEMBANGUNAN SPAM FILTERING SYSTEM DENGAN METODE NAIVE BAYESIAN

PEMBANGUNAN SPAM  FILTERING SYSTEM DENGAN METODE NAIVE BAYESIAN Makalah Nomor: KNSI-72 PEMBANGUNAN SPAM E-MAIL FILTERING SYSTEM DENGAN METODE NAIVE BAYESIAN Indrastanti R. Widiasari.1, Teguh Indra Bayu 2 1, 2 Fakultas Teknologi Informasi, Universitas Kristen Satya

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK Lukman Syafie / JUPITER Volume XV No.2 (2016) 109 KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK Lukman Syafie Staf Pengajar Teknik Informatika, Fakultas Ilmu Komputer

Lebih terperinci

Spam Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes

Spam Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes Wirawan Nathaniel Chandra 1, Gede Indrawan

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

PEMODELAN JARINGAN SYARAF TIRUAN UNTUK PENGENALAN KATA PADA BERBAGAI KONDISI KESEHATAN PEMBICARA BAYU INDRAYANA

PEMODELAN JARINGAN SYARAF TIRUAN UNTUK PENGENALAN KATA PADA BERBAGAI KONDISI KESEHATAN PEMBICARA BAYU INDRAYANA PEMODELAN JARINGAN SYARAF TIRUAN UNTUK PENGENALAN KATA PADA BERBAGAI KONDISI KESEHATAN PEMBICARA BAYU INDRAYANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN Pada bab pendahuluan ini akan dijelaskan mengenai dasar-dasar dalam pembuatan laporan. Dasar-dasar tersebut terdiri dari latar belakang masalah, rumusan masalah, maksud dan tujuan dilakukan

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika Disusun

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

Rancang Bangun Modul Pengelompokan Dokumen Pada Sistem Manajemen Dokumen Kepegawaian

Rancang Bangun Modul Pengelompokan Dokumen Pada Sistem Manajemen Dokumen Kepegawaian Rancang Bangun Modul Pengelompokan Dokumen Pada Sistem Manajemen Dokumen Kepegawaian ANITA SUSANTI 5110100145 Dosen Pembimbing Umi LailiYuhana S.Kom, M.Sc Nurul Fajrin Ariyani S.Kom, M.Sc LATAR BELAKANG

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN Bab ini berisikan tentang alasan peneliti mengambil permasalahan ini. Pada bab ini poin-poin yang akan dipaparkan antara lain Latar Belakang, Perumusan Masalah, Batasan Masalah, Tujuan

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN 26 BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya, selain itu juga berfungsi untuk memberikan gambaran dan

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

1. Pendahuluan 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar Belakang 1. Pendahuluan 1.1 Latar Belakang Teknologi semakin berkembang seiring dengan berjalannya waktu. Disadari atau tidak, sebagian besar kehidupan ini dibantu oleh teknologi dan banyak sekali manfaat yang

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB I PENDAHULUAN. Electronic mail ( ) merupakan media komunikasi di internet seperti

BAB I PENDAHULUAN. Electronic mail ( ) merupakan media komunikasi di internet seperti 1 BAB I PENDAHULUAN 1.1 Latar Belakang Electronic mail (email) merupakan media komunikasi di internet seperti untuk berdiskusi (maillist), transfer informasi berupa file (mail attachment) bahkan dapat

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2. 6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika

Lebih terperinci

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet memunculkan berbagai metode komunikasi yang mudah, murah, dan cepat. Salah satu media yang paling populer dan sangat cepat berkembang

Lebih terperinci

Jurnal Politeknik Caltex Riau

Jurnal Politeknik Caltex Riau 1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 4 HASIL DAN PEMBAHASAN Penelitian ini dibuat menggunakan bahasa pemrograman PHP untuk tahapan praproses data, implementasi algoritme DIG dan pembangkitan metafile penyusun struktur digraf. Representasi

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

Prosiding Statistika ISSN:

Prosiding Statistika ISSN: Prosiding Statistika ISSN: 2460-6456 Klasifikasi Text Mining untuk Terjemahan Ayat-Ayat Al-Qur an menggunakan Metode Klasifikasi Naive Bayes Text Mining Classification for Translation of Al-Qur'an Verses

Lebih terperinci

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk Eka Retnawiyati 1, Fatoni, M.M.,M.Kom 2., Edi Surya Negara, M.Kom 3 1) Mahasiswa Informatika Universitas Bina Darma

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB Dika R. Yunianto dikarizky66@gmail.com Septyawan R. Wardhana rossywardhana@gmail.com Rizka W. Sholikah rizkaws@gmail.com

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM. Pada bab ini akan dibahas mengenai analisa dan perancangan dari sistem.

BAB III ANALISA DAN PERANCANGAN SISTEM. Pada bab ini akan dibahas mengenai analisa dan perancangan dari sistem. 17 BAB III ANALISA DAN PERANCANGAN SISTEM Pada bab ini akan dibahas mengenai analisa dan perancangan dari sistem. Analisa system dilakukan untuk menemukan solusi dari permasalahan yang telah diajukan sebelumnya.

Lebih terperinci

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa dengan Metode NAÏVE BAYES M. Ridwan Effendi Fakultas Komputer Jurusan Sistem Informasi Universitas Mohammad Husni Thamrin Jakarta Email :

Lebih terperinci

VERIFIKASI SESEORANG BERDASARKAN CITRA PEMBULUH DARAH MENGGUNAKAN EKSTRAKSI FILTER GABOR ABSTRAK

VERIFIKASI SESEORANG BERDASARKAN CITRA PEMBULUH DARAH MENGGUNAKAN EKSTRAKSI FILTER GABOR ABSTRAK VERIFIKASI SESEORANG BERDASARKAN CITRA PEMBULUH DARAH MENGGUNAKAN EKSTRAKSI FILTER GABOR Eric (0822026) Jurusan Teknik Elektro Universitas Kristen Maranatha email: eric.wennas@gmail.com ABSTRAK Pola pembuluh

Lebih terperinci

SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset

SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6124 SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset Dea Delvia Arifin 1, Shaufiah,

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang 3 BAB I PENDAHULUAN 1.1. Latar Belakang Semakin banyaknya pengunaan teknologi informasi pada pemerintahan, dapat mempermudah masyarakat dalam pelayanan masyarakat itu sendiri. Seperti misalnya ketika sesorang

Lebih terperinci

PERBANDINGAN METODE SELEKSI FITUR PADA SPAM FILTER MENGGUNAKAN KLASIFIKASI MULTINOMIAL NAÏVE BAYES JULIUS GIGIH DIMASTYO

PERBANDINGAN METODE SELEKSI FITUR PADA SPAM FILTER MENGGUNAKAN KLASIFIKASI MULTINOMIAL NAÏVE BAYES JULIUS GIGIH DIMASTYO PERBANDINGAN METODE SELEKSI FITUR PADA SPAM FILTER MENGGUNAKAN KLASIFIKASI MULTINOMIAL NAÏVE BAYES JULIUS GIGIH DIMASTYO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

KLASIFIKASI TEKS BAHASA BALI DENGAN METODE SUPERVISED LEARNING NAIVE BAYES CLASSIFIER

KLASIFIKASI TEKS BAHASA BALI DENGAN METODE SUPERVISED LEARNING NAIVE BAYES CLASSIFIER Teknologi Elektro, Vol. 15, No.2, Juli - Desemberr 2016 81 KLASIFIKASI TEKS BAHASA BALI DENGAN METODE SUPERVISED LEARNING NAIVE BAYES CLASSIFIER Ida Bagus Gede Widnyana Putra 1, Made Sudarma 2, I Nyoman

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix. yang tidak berarti sebagai pembeda antar dokumen. c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian klasifikasi dokumen teks. Tujuan dan ruang lingkup dari tugas akhir memberikan penjelasan mengenai hasil yang ingin diketahui dan

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Sumber opini teks saat ini tersedia berlimpah di internet akan tetapi belum sepenuhnya dimanfaatkan karena masih kurangnya tool yang ada, sedangkan perkembangan

Lebih terperinci

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL SKRIPSI Diajukan untuk memenuhi salah satu syarat mencapai gelar Strata Satu Program Studi Informatika

Lebih terperinci

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012 PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012 SKRIPSI Disusun Oleh : RIYAN EKO PUTRI 24010210120042 JURUSAN STATISTIKA

Lebih terperinci