PENGUKURAN KINERJA SPAM FILTER MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER GRAHAM WILDAN RACHMAN

Ukuran: px
Mulai penontonan dengan halaman:

Download "PENGUKURAN KINERJA SPAM FILTER MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER GRAHAM WILDAN RACHMAN"

Transkripsi

1 PENGUKURAN KINERJA SPAM FILTER MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER GRAHAM WILDAN RACHMAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

2 PENGUKURAN KINERJA SPAM FILTER MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER GRAHAM WILDAN RACHMAN Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

3 ABSTRACT WILDAN RACHMAN. Measuring Performance of Spam Filter using Graham s Naive Bayes Classifier. Supervised by JULIO ADISANTOSO. spam has become a major problem for internet users and providers. After several failed attempt to filter spam based on heuristic approach such as black-listing or rule-based filtering, content-based filtering using naive Bayes classifier has become the standard for spam filtering today. However, the naive Bayes classifier exists in different forms. This research aims to compare two different forms of naive Bayes which are multinomial naive Bayes using boolean attribute and Graham version of naive Bayes which is popular among several commercial and open source spam filter applications. This research also compares performace of two different methods for data trainings which are train-everything (TEFT) and Train-on-Error (TOE). Finally, this research attempts to identify several hard-to-classify s. The evaluation result showed that multinomial naive Bayes had better performances compared to Graham naive Bayes. The result also showed that TEFT successfully outperforms TOE in term of accuracy. Keywords: spam filter, naive bayes, training method.

4 Judul Nama NIM : Pengukuran Kinerja Spam Filter Menggunakan Metode Naive Bayes Classifier Graham : Wildan Rachman : G Menyetujui: Pembimbing, Ir. Julio Adisantoso, M.Kom. NIP Mengetahui: Ketua Departemen Ilmu Komputer, Dr. Ir. Sri Nurdiati, M.Sc. NIP Tanggal Lulus:

5 RIWAYAT HIDUP Penulis lahir di Bandung pada tanggal 24 Juni 1988 dari ayah Topani dan ibu Yati Rachmiati. Penulis merupakan anak pertama dari dua bersaudara. Sewaktu SMA penulis menjuarai seleksi Tim Olimpiade Komputer Indonesia (TOKI) tingkat Kabupaten dan Provinsi dan sempat bergabung dengan TOKI sampai dengan babak 16 besar. Tahun 2005 penulis lulus dari SMA Pesantren Unggul Al-Bayan Sukabumi dan melanjutkan kuliah di Institut Pertanian Bogor melalui jalur Prestasi Internasional Nasional (PIN). Pada tahun 2006 penulis bersama tiga rekan lainnya diutus untuk mengikuti PIMNAS XX di Bandar Lampung mewakili IPB dalam kompetisi pemrograman antar mahasiswa dan berhasil mencapai babak final. Pada tahun 2007 penulis bersama dua rekan lainnya mengikuti kompetisi pemrograman antar mahasiswa yang diadakan oleh Universitas Bina Nusantara dan berhasil mencapai babak final. Pada tahun 2008 penulis menjadi asisten dosen untuk mata kuliah Algoritma dan Pemrograman.

6 KATA PENGANTAR Puji syukur Alhamdulillah penulis panjatkan ke hadirat Allah SWT atas limpahan rahmat dan karunia-nya sehingga skripsi yang berjudul Spam Filter dengan Naive Bayes Classifier ini dapat penulis selesaikan dengan baik. Penelitian ini dilaksanakan di departemen Ilmu Komputer IPB selama periode Januari 2010 sampai dengan Desember Selama penulis melakukan penelitian penulis menyadari bahwa banyak pihak yang ikut membantu sehingga skripsi ini dapat dirampungkan, oleh karena itu penulis ingin menyampaikan ucapan terima kasih yang sebesar-besarnya kepada: 1. Orang tua tercinta dan adik atas doa dan berbagai bantuan yang diberikan. 2. Bapak Julio Adisantoso selaku pembimbing akademis yang telah memberikan banyak bantuan serta kemudahan kepada penulis. 3. Sahabat-sahabat terbaik dari ilkomerz 43 Hendro, Ridwan, Iki, Arief B, Ardhan, Musthofa, Endy, Saul, Yuli, dan Reddy yang telah berbagi cerita suka dan duka bersama selama penulis menjadi mahasiswa. 4. Teman-teman satu bimbingan Eka, Tina, Hendrex, Ayu, Awet, Maryam, dan Ryo atas saran, masukan, dan nasihat yang diberikan kepada penulis. 5. Kawan-kawan se-dota dan se-tanah air Akbar, Rendy, Aan, Hizri, Doris, Eko, dan Ade F. 6. Ucapan terima kasih khusus untuk Uut yang sudah banyak membantu persiapan seminar dan sidang penulis. Penulis menyadari bahwa masih banyak kekurangan yang ditemukan dalam tugas akhir ini. Penulis berharap adanya saran dan kritik yang membangun dari pihak manapun yang membaca tulisan ini. Akhir kata, semoga tulisan ini dapat membawa manfaat. Bogor, Desember 2010 Wildan Rachman

7 DAFTAR ISI Halaman DAFTAR GAMBAR... iv DAFTAR TABEL... iv PENDAHULUAN... 1 Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 Manfaat Penelitian... 1 TINJAUAN PUSTAKA... 2 Spam... 2 Klasifikasi Dokumen... 2 Naive Bayes Classifier... 2 Multinomial NB... 2 Multi-variate Bernoulli NB... 3 Multinomial NB dengan Atribut Boolean... 3 Spam Filtering dengan Multinomial NB... 4 Metode NB Graham... 5 Metode Training... 5 METODE PENELITIAN... 6 Pengumpulan Data... 6 Pengujian Metode Training... 6 Pengujian Metode Klasifikasi... 6 Analisis Kesalahan Klasifikasi... 7 Lingkungan Pengujian... 7 HASIL DAN PEMBAHASAN... 7 Pengumpulan Data... 7 Detail Proses Pengujian... 8 Pemrosesan Dokumen... 8 Hasil Pengujian Metode Training Hasil Pengujian Metode Klasifikasi KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA iii

8 DAFTAR GAMBAR Halaman 1 Hasil pengujian metode training Hasil pengujian metode klasifikasi menggunakan metode training TEFT Hasil pengujian metode klasifikasi menggunakan metode training TOE DAFTAR TABEL Halaman 1 Tabel kontingensi kelas hasil prediksi dan kelas sebenarnya Proporsi pesan spam untuk masing-masing acakan pengujian Komponen header yang disertakan dalam proses klasifikasi Hasil pengujian metode training menggunakan teknik klasifikasi Graham Hasil pengujian metode klasifikasi dengan metode training TEFT Hasil pengujian metode klasifikasi dengan mode training TOE iv

9 Latar Belakang PENDAHULUAN Pemanfaatan teknologi jaringan internet yang semakin meningkat intensitasnya dewasa ini berdampak besar pada metode pengiriman surat. Jalur fisik yang semula menjadi pilihan semakin ditinggalkan dan digantikan oleh jalur pengiriman elektronik dalam bentuk electronic mail atau biasa disebut dengan . sangat populer karena biaya pengiriman pesannya yang jauh lebih murah. juga relatif lebih praktis dibandingkan dengan surat konvensional karena tidak perlu menyiapkan perangko maupun amplop. Selain itu, dapat mencapai objek yang dituju dalam waktu sangat cepat. Berbagai macam keunggulan yang dimiliki oleh ternyata banyak disalahgunakan untuk mengirimkan pesan berbau komersial secara massal. berisi pesan komersial ataupun pesan lain yang tidak diinginkan dan dikirimkan secara massal tersebut biasa disebut dengan spam. Spam menimbulkan banyak masalah. Bagi pihak penerima, spam dapat menghabiskan waktu untuk menghapusnya. Bagi penyedia layanan, spam akan memakan banyak sumberdaya seperti kapasitas penyimpanan dan bandwith. Perusahaan keamanan McAfee (2008) dalam laporannya menyatakan bahwa pada tahun 2008 saja, terdapat sekitar 62 triliun spam yang dikirimkan ke seluruh dunia. Berbagai upaya telah dilakukan untuk mengatasi permasalahan spam. Pada mulanya proses penyaringan spam dilakukan dengan pendekatan rule-based. akan dikategorikan sebagai spam menurut aturanaturan tertentu seperti kemunculan kata, alamat pengirim, dan struktur header. Pendekatan ini secara praktik kurang efektif dan memiliki tingkat false positive yang tinggi. Selain rule-based, metode spamfiltering yang banyak digunakan di masa lalu adalah server blacklist dan signature-based filtering (Graham 2003). Pendekatan berbasis content statistic (menggunakan metode naive Bayes classifier) untuk menyaring pesan spam pertama kali diteliti oleh Pantel dan Lin (1998) dan berhasil mencapai tingkat akurasi 92% dengan tingkat false positive 1,16%. Teknik serupa juga digunakan oleh Sahami et al. (1998) meskipun kinerjanya tidak setinggi spam-filter yang dirancang oleh Pantel dan Lin (1998). Graham (2002) membahas teknik spamfiltering menggunakan metode naive Bayes classifier (NB) dengan pendekatan yang cukup berbeda jika dibandingkan dengan metode naive Bayes classifier pada umumnya. Metode ini diklaim berhasil mencapai tingkat akurasi sebesar 99,95% dengan false positive sebesar 0,05%. Kinerja yang cukup tinggi ini membuat metode content-based filtering semakin banyak digunakan dalam aplikasi spam-filter (Yerazunis 2004). Penelitian ini melakukan pengujian terhadap dua model dari teknik klasifikasi NB yaitu NB multinomial dengan atribut boolean dan NB Graham. Penelitian ini juga menguji dua metode training yang digunakan pada spam filter. Lebih lanjut, penelitian ini membahas komponen pendukung yang digunakan dalam pembuatan spam filter seperti teknik pemrosesan , pemilihan fitur, dan tokenisasi. Tujuan Tujuan dari penelitian ini adalah: Mengimplementasikan dua model dari naive Bayes untuk diuji kinerjanya. Menguji dua jenis metode training. Membahas komponen pendukung yang digunakan dalam sebuah spam filter. Menganalisis faktor-faktor yang menyebabkan kesalahan klasifikasi. Ruang Lingkup Korpus yang digunakan untuk proses pengujian adalah MIME 1 dalam format raw 2 yang sudah melalui proses pembersihan dari content-content berbahaya. ini disimpan dalam bentuk file teks. Manfaat Penelitian Manfaat dari penelitian ini adalah mengetahui model naive Bayes dan metode training yang memiliki kinerja paling baik, membahas komponen-komponen pendukung yang digunakan pada spam filter dan menganalisis faktor-faktor yang menyebabkan kegagalan proses klasifikasi. 1 Multipurpose Internet Mail Extension. Standar format untuk yang isinya tidak terbatas pada karakter 7bit saja. 2 yang masih memiliki komponen header dan body serta tidak mengalami praproses yang terlalu banyak. 1

10 Spam TINJAUAN PUSTAKA Spam adalah pesan atau yang tidak diinginkan oleh penerimanya dan dikirimkan secara massal. Makna tidak diinginkan disini memiliki arti pihak pengirim tidak mendapatkan izin untuk mengirimkan pesan tersebut dari pihak penerima. Makna dikirimkan secara massal berarti pesan tersebut merupakan bagian dari sekumpulan pesan yang memiliki isi yang sama atau sejenis dan dikirimkan sekaligus dalam jumlah besar (Spamhaus 2004). Selain definisi dari Spamhaus (2004) tersebut, Drucker et al. (1999) mendefinisikan spam sebagai pesan yang tidak diinginkan penerimanya tanpa menyebutkan secara spesifik apakah pesan tersebut dikirimkan secara massal atau tidak. Untuk merujuk pesan yang tidak termasuk dalam kategori spam pada penelitian ini digunakan istilah ham. Klasifikasi Dokumen Klasifikasi adalah proses untuk menentukan kelas dari suatu objek. Pada klasifikasi dokumen, permasalahannya didefinisikan sebagai berikut: diberikan sebuah deskripsi d ε X dari sebuah dokumen dimana X adalah ruang dokumen; dan sebuah himpunan tetap kelas C = {c 1,c 2,c 3,,c j }, dengan menggunakan metode atau algoritme pembelajaran, dilakukan proses training terhadap fungsi klasifikasi γ sehingga dapat memetakan dokumen X kepada kelas-kelas C: γ X C kelas dapat juga disebut dengan label atau kategori dan didefinisikan sendiri secara manual. Proses pelatihan suatu fungsi klasifikasi menggunakan data latih yang sudah diberikan label secara manual seperti di atas disebut dengan supervised learning (Manning et al. 2008). Penelitian ini menggunakan sebagai ruang dokumen yang nantinya diklasifikasikan ke dalam dua kelas yaitu yang berisi spam dan yang tidak bersalah (innocent mail). yang berisi spam selanjutnya disebut dengan spam sementara yang tidak bersalah selanjutnya disebut dengan ham. Naive Bayes Classifier Naive Bayes classifier (NB) adalah metode klasifikasi yang mengasumsikan seluruh atribut dari contoh bersifat independen satu sama lain dalam konteks kelas (McCallum & Nigam 1998). Meskipun secara umum asumsi ini adalah asumsi yang buruk, pada praktiknya metode naive Bayes menunjukkan kinerja yang sangat baik (Rish 2001). Bedasarkan teori Bayes, peluang dokumen d untuk masuk ke dalam kelas c atau P c d adalah: P c d = P d c P(c) P(d) dengan P d c adalah peluang kemunculan dokumen d di kelas c, P(c) adalah peluang awal suatu dokumen untuk masuk ke dalam kelas c, dan P(d) adalah peluang awal kemunculan dokumen d. Peluang awal kemunculan dokumen d yaitu P d sama nilainya untuk seluruh kelas c, sehingga dapat diabaikan: P c d = P d c P(c) Menurut Manning et al. (2008) kelas yang paling sesuai bagi dokumen d adalah kelas yang memiliki nilai P c d paling tinggi yaitu: max c C P d c P(c) Nilai peluang awal P(c) dapat diestimasi dengan melihat jumlah dokumen yang dimiliki oleh kelas c relatif terhadap jumlah seluruh dokumen yang ada. Nilai peluang awal P d c diestimasi secara berbeda untuk setiap model NB (Metsis et al. 2006). Multinomial NB Pada multinomial NB, dokumen direpresentasikan sebagai sekumpulan token yang terdapat pada dokumen d yaitu t 1,, t k,, t nd dimana token yang muncul lebih dari satu kali pada dokumen yang sama ikut diperhitungkan. Nilai dari P d c yaitu peluang kemunculan dokumen d pada kelas c dapat diestimasi dengan cara: P d c = P( t 1,, t k,, t nd c) Karena banyaknya kombinasi dari t 1,, t k,, t nd yang harus diestimasi, akan sangat sulit untuk mendapatkan nilai P d c menggunakan model ini secara langsung. 2

11 Selain itu, tidak ada batasan yang jelas mengenai panjang dari dokumen yang mungkin sehingga dapat dikatakan bahwa kombinasi dari t 1,, t k,, t nd yang mungkin berjumlah tak hingga (Manning et al. 2008). Oleh sebab itu, dibuat suatu asumsi bahwa kemunculan masing-masing token t bersifat independen antara satu token dengan token yang lainnya. Dengan asumsi tersebut, nilai dari P d c dapat diestimasi sebagai berikut: P d c = P(t k c) 1 k n d sehingga peluang suatu dokumen d untuk masuk ke dalam kelas c dapat diestimasi dengan cara: P c d P c 1 k n d P(t k c) dengan P(t k c) adalah peluang dari suatu token t k muncul pada dokumen yang diketahui memiliki kelas c; sedangkan P c adalah peluang awal dari suatu dokumen untuk masuk ke dalam kelas c. Nilai dari P c dapat diestimasi dengan melihat frekuensi kemunculan dokumen pada kelas c relatif terhadap jumlah seluruh dokumen yaitu: P c = N c N dengan N c adalah jumlah dokumen yang terdapat di kelas c dan N adalah jumlah seluruh dokumen yang ada. Nilai P t c untuk masing-masing token didapatkan dari proses training. Lebih sepesifik lagi, nilai P t c diestimasi dengan melihat frekuensi token t yang muncul pada kelas c relatif terhadap jumlah kemunculan seluruh token yang ada di kelas c yaitu: P t k c = T ct T ct t εv dengan T ct adalah jumlah kemunculan token t dalam dokumen training yang berada di kelas c termasuk di dalamnya kemunculan token yang berjumlah lebih dari satu kali; dan t εv T ct adalah jumlah seluruh token yang terdapat pada seluruh dokumen di kelas c termasuk untuk token-token yang muncul berulang kali pada dokumen yang sama. Permasalahan akan terjadi saat ditemukan token yang hanya muncul pada salah satu kelas saja atau tidak muncul di kelas manapun pada proses training. Nilai P(t k c) yang dihasilkan akan sama dengan nol sehingga mengacaukan perhitungan P d c. Untuk mengatasi permasalahan tersebut, digunakan laplace smoothing yaitu menambahkan jumlah kemunculan setiap token sebanyak satu sehingga perhitungan nilai dari P t k c menjadi: P t k c = P t k c = T ct + 1 t εv(t c t + 1) T ct B T ct t εv dengan B adalah jumlah seluruh vocabulary (kata unik) yang terdapat dalam data training. Multi-variate Bernoulli NB Berbeda dengan multinomial NB, multivariate Bernoulli NB hanya mencatat indikator kemunculan suatu token tanpa menghitung term frequency-nya. Perbedaan lain yang cukup menonjol adalah multi-variate Bernoulli NB ikut memperhitungkan tokentoken yang tidak muncul dalam dokumen pada proses klasifikasinya. Perbedaan ini terjadi karena perbedaan dalam cara menduga P t k c. Multi-variate Bernoulli NB menduga P t k c sebagai fraksi dari dokumen pada kelas c yang mengandung token t sementara multinomial NB menduga P t k c sebagai fraksi dari token pada dokumen di kelas c yang mengandung token t (Manning et al. 2008). Multinomial NB dengan Atribut Boolean Multinomial NB dengan atribut boolean hampir sama dengan multinomial NB yang menggunakan atribut term frequency (tf) termasuk dalam proses pendugaan nilai P t c. Perbedaannya terletak pada atribut yang digunakan yaitu atribut boolean. Pada atribut boolean, token yang muncul berulang kali tetap dianggap sebagai satu kemunculan untuk setiap dokumennya. Schneider (2004) dalam penelitiannya menyatakan bahwa term frequency bukanlah faktor yang menjadi penyebab multinomial NB memiliki kinerja yang lebih baik dibandingkan dengan multi-variate Bernoulli NB. Perbedaan kinerja antar dua metode tersebut lebih disebabkan oleh bagaimana kedua metode tersebut memperlakukan bukti yang tidak ada (negative evidence) yaitu token yang tidak muncul pada pesan. Pada metode 3

12 multi-variate Bernoulli, hasil dari klasifikasi lebih banyak dipengaruhi oleh kata-kata yang tidak ada di dalam pesan. Schneider (2004) menunjukkan bahwa multinomial NB akan memiliki kinerja yang lebih baik jika atribut term frequency digantikan dengan atribut boolean. Penggunaan atribut term frequency menyebabkan pengaruh negative evidence menjadi lebih besar dibandingkan dengan penggunan atribut boolean. Karena kemunculan setiap term akan dibandingkan dengan jumlah kemunculan dari seluruh kata yang terdapat pada kelas tersebut, penggunaan atribut term frequency menyebabkan nilai peluang untuk setiap term akan semakin kecil. Dengan menggunakan atribut boolean, efek dari negative evidence dapat dikurangi karena kemunculan setiap kata hanya dicatat satu kali saja pada setiap dokumennya. Spam Filtering dengan Multinomial NB Spam Filtering adalah proses menyaring menjadi dua buah kategori yaitu spam dan ham. Meskipun aksi pengiriman pesan dalam jumlah massal merupakan salah satu ciri utama yang menyebabkan pesan tersebut dikatakan sebagai spam, dapat dilihat bahwa kandungan bahasa yang digunakan oleh pesan spam memiliki tema tersendiri dan jarang ditemukan pada pesan biasa (ham). Dengan karakteristik seperti ini, teknik klasifikasi teks dapat diterapkan untuk permasalahan spam filtering (Androutsopoulos et al. 2000). Jika dimisalkan S sebagai kelas dari E yang termasuk ke dalam kategori spam, maka dengan teori Bayes, peluang E adalah spam S yaitu P S E dapat diestimasikan sebagai berikut: P S E = P E S P(S) P(E) dengan P E S adalah peluang kemunculan E pada kelas spam, P S adalah peluang awal suatu masuk ke dalam kelas spam dan P(E) adalah peluang kemunculan E. Dengan cara yang sama, peluang E masuk ke dalam kelas ham H dapat diestimasikan dengan cara: P H E = P E H P(H) P(E) Pada metode multinomial NB, nilai dari P E S dapat diestimasikan sebagai berikut: P E S = P w 1,, w n S Karena antara satu token dengan token yang lainnya diasumsikan independen, maka nilai P w 1,, w n S dapat dihitung dengan cara: n = P w i S i=1 Lalu dengan cara yang sama, untuk P E H : P E H = P w 1,, w n H n = P w i H i=1 Sementara itu, dengan merujuk kembali pada teori NB multinomial, nilai dari P w i S dapat dihitung dengan cara: P(w i S) = w εv T sw + 1 T sw + B dengan T sw adalah jumlah kemunculan token w pada dengan kelas S, B adalah jumlah vocabulary yang terdapat dalam data training, sementara w εv T sw adalah jumlah kemunculan seluruh token pada kelas S (Sun 2009). Karena NB yang digunakan adalah NB multinomial dengan atribut boolean, seluruh kemunculan token dihitung satu untuk setiap dokumennya meskipun token tersebut muncul berulang kali. Selanjutnya kelas dari E dapat ditentukan dengan membandingkan antara P S E dengan P H E : P S E P H E P S E P H E = = P E S P(S) P E H P(H) n i=1 n i=1 P S E P H E = P(S) P(H) P w i S P(S) P w i H P(H) n i P w i S P w i H Karena pada proses perhitungannya nilai-nilai di atas bisa sangat kecil dan menghasilkan kesalahan presisi (Manning et al. 2008), kedua sisi dihitung hasil log-nya sehingga menjadi: P S E log P H E P S E log P H E = log P(S) P(H) = log P S P(H) + n i n i P w i S P w i H log P w i S P w i H 4

13 Jika persamaan di atas menghasilkan nilai lebih besar daripada nol, nilai dari P S E lebih besar daripada P H E sehingga E masuk ke dalam kategori spam. Sebaliknya, jika nilainya lebih kecil daripada nol, E masuk ke dalam kategori ham. Metode NB Graham Graham (2002) menggunakan pendekatan yang berbeda dalam mengimplementasikan naive Bayes. Jika pada metode yang telah dibahas sebelumnya digunakan estimasi nilai P w i S untuk mendapatkan peluang suatu masuk ke dalam kategori spam, metode NB Graham menggunakan P S w i yang diestimasikan sebagai peluang suatu pesan untuk masuk dalam kategori spam jika diketahui pesan tersebut mengandung token w i yaitu: P Spam w i = f is n s f is + f i n s n dimana f is dan f i berturut-turut adalah jumlah pesan pada kelas spam dan ham yang mengandung token i, sementara n s dan n berturut-turut adalah jumlah pesan yang tedapat pada kelas spam dan ham. Semakin sering suatu token muncul di kelas spam, nilai peluangnya akan semakin mendekati satu. (Crossan 2009). Graham (2002) menemukan bahwa dengan mengalikan jumlah kemunculan token-token yang ada pada ham dengan faktor dua, jumlah dari false positive dapat dikurangi. Jika suatu token hanya muncul pada kelas spam saja, token tersebut akan langsung diberikan nilai peluang 0,99 sementara jika token hanya muncul di kelas ham saja, token tersebut akan diberikan nilai peluang 0,01. Untuk token yang belum pernah muncul sebelumnya atau memiliki jumlah kemunculan lebih kecil dari lima, diberikan peluang netral 0,4. Nilai 0,4 dipilih untuk lebih mengurangi lagi tingkat false positive. Untuk menghitung peluang suatu masuk ke dalam kelas spam, metode NB Graham hanya menggunakan lima belas token yang paling signifikan saja. Seberapa signifikan suatu token dalam menentukan hasil klasifikasi ditentukan dengan melihat selisih nilai P S w i token tersebut dengan nilai peluang netral 0,5. Selanjutnya, lima belas token yang paling signifikan tersebut digunakan untuk menghitung peluang suatu masuk ke dalam kelas spam dengan persamaan: P S w 1,, w g = 15 i=1 15 C ε S,H i=1 P(S w i ) P(C w i ) dengan S merupakan event saat masuk ke dalam kelas spam. Pesan akan dikategorikan sebagai spam jika persamaan di atas bernilai lebih besar dari 0,9. Metode Training Sebelum dapat melakukan proses klasifikasi, spam filter perlu ditunjukkan contoh-contoh dari masing-masing kelas. Proses ini disebut dengan training (Zdziarski 2005). Pada penelitian ini, terdapat dua macam metode training yang diujikan yaitu Train Everything (TEFT) dan Train-On-Error (TOE). 1. Train-Everything (TEFT) Pada metode TEFT seluruh yang masuk akan di-training tanpa memperhatikan kebenaran hasil klasifikasinya. Kelebihan dari metode ini adalah dataset milik spam filter akan terus menyesuaikan nilainya sesuai dengan yang diterimanya. Sebagai contoh, jika pengguna berlangganan mailing-list tertentu, filter akan segera mengenali token-token di dalamnya sebagai bagian dari kelas ham. Kekurangan dari metode ini adalah filter akan menjadi sangat rentan terhadap komposisi pengguna. Sebagai contoh, jika pengguna terlalu banyak menerima spam, metode training ini akan mengenali terlalu banyak token sebagai token spam karena kurangnya data ham. Hal ini dapat mengganggu proses klasifikasi ham yang masuk. 2. Training On Error (TOE) Pada metode TOE, hanya akan dimasukkan ke dalam proses training jika terjadi kesalahan klasifikasi. Kelebihan metode TOE adalah proses training hanya dilakukan seperlunya sehingga menghemat resource seperti proses disk-writing yang lambat. Metode TOE juga menyimpan lebih sedikit token sehingga dapat menghemat space. Kelebihan metode training ini ternyata juga menjadi kelemahannya. TOE hanya akan melakukan proses training jika menemukan 5

14 kesalahan dalam proses klasifikasi. Hal ini menyebabkan TOE cenderung lambat dalam mengenali token-token baru saat terjadi perubahan kebiasaan penerimaan pengguna. 3. Metode Training Lainnya Selain TOE dan TEFT, masih ada dua metode training lagi yang dapat digunakan dalam sistem spam filter. Metode tersebut adalah Training Until Mature (TUM) dan Training Until No Error (TUNE). Pada metode TUM, proses training untuk token tertentu tidak akan diteruskan lagi saat filter sudah merasa cukup mengenal token tertentu. TUM hanya akan melakukan proses training saat menemukan kesalahan. Pada metode TUNE, proses training dilakukan beberapa kali dalam bentuk training-loop sampai tidak ditemukan error atau akurasi tidak dapat ditingkatkan lagi. Yerazunis (2004) menemukan bahwa metode training TUNE hanya sedikit lebih baik dibandingkan dengan TOE meskipun proses training yang dilakukan oleh TUNE jauh lebih lama. METODE PENELITIAN Penelitian ini terdiri atas empat tahap yaitu pengumpulan data, pengujian metode training, pengujian metode klasifikasi dan analisis kesalahan klasifikasi. Untuk metode training, terdapat dua macam metode yang diuji yaitu TEFT (Training Everything) dan TOE (Training On Error). Masing-masing metode training diduga memiliki kinerja yang berbeda sehingga dilakukan pengujian untuk menentukan metode training mana yang memiliki kinerja yang lebih baik. Selanjutnya dilakukan pengujian terhadap dua model NB yaitu Bayes Multinomial dengan atribut boolean dan Metode Bayes Graham. Analisis juga dilakukan terhadap faktor-faktor yang menyebabkan terjadinya kesalahan klasifikasi. Bahasa pemrograman yang digunakan adalah PHP meskipun penggunaan bahasa pemrograman lain seperti C diduga bisa meningkatkan performance sistem secara signifikan. Pengumpulan Data Tahap penelitian yang pertama adalah tahap pengumpulan data. Data yang digunakan sebagai data uji adalah korpus dalam format aslinya yaitu yang masih memiliki bagian header dan body. Data ini berisi campuran pesan yang sudah diberi dua macal label yaitu ham dan spam sesuai dengan kelasnya. Proses pemberian kelas tersebut dilakukan secara manual. Pengujian Metode Training Terdapat dua jenis metode training yang diuji dalam penelitian ini yaitu metode Training Everything (TEFT) dan metode Training on Error (TOE). Pengujian dilakukan dengan cara mengukur akurasi kedua metode tersebut saat dipasangkan dengan metode Graham. Pengujian Metode Klasifikasi Pada penelitian ini, NB multinomial yang diujikan adalah NB multinomial yang menggunakan atribut boolean sehingga istilah NB multinomial selanjutnya akan merujuk pada NB multinomial yang menggunakan atribut boolean. Untuk membandingkan kinerja dari versiversi NB yang diujikan, digunakan metode pengujian yang sama dengan metode evaluasi pada penelitian Yerazunis (2004) yaitu: 1. Disediakan data uji berupa korpus yang sudah diklasifikasikan ke dalam dua kelas yaitu ham dan spam. Setiap diberikan label sesuai dengan kelasnya. Data yang sudah diberi label tersebut kemudian digabungkan. 2. Data uji kemudian diacak sebanyak sepuluh kali. Setiap acakan dicatat urutan pembacaannya sehingga seluruh metode yang diuji dievaluasi menggunakan acakan dan urutan pembacaan data yang sama. 3. Untuk setiap acakan, diambil sebanyak N data yang nantinya digunakan sebagai data testing akhir. 4. Proses pengujian dilakukan sebanyak jumlah acakan yaitu sepuluh kali pengujian. 5. Langkah-langkah di atas menghasilkan data awal hasil pengujian berupa jumlah kesalahan klasifikasi dari 10 kali N data testing. Data awal hasil pengujian diolah lagi untuk mendapatkan tingkat akurasi hasil prediksi berupa jumlah true positive, true 6

15 negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1. Tabel 1 Tabel kontingensi kelas hasil prediksi dan kelas sebenarnya Kelas Sebenarnya Spam Kelas Prediksi Ham Spam TP FN Ham FP TN Hasil positive merujuk pada yang diprediksikan masuk ke dalam kategori spam dan hasil negative merujuk pada yang diprediksikan masuk ke dalam kategori ham oleh spam filter. Keterangan selengkapnya adalah sebagai berikut: True Positive (TP), yaitu dari kelas spam yang benar diklasifikasikan sebagai spam. True Negative (TN), yaitu dari kelas ham yang benar diklasifikasikan sebagai ham. False Positive (FP), yaitu dari kelas ham yang salah diklasifikasikan sebagai spam. False Negatif (FN), yaitu dari kelas spam yang salah diklasifikasikan sebagai ham. Selanjutnya, kinerja masing-masing metode dievaluasi dengan melihat nilai dari spam recall dan ham recall-nya. Spam recall adalah proporsi dari pesan spam yang berhasil diblok oleh filter, sedangkan ham recall menunjukkan proporsi dari pesan ham yang dilewatkan oleh filter (Metsis et al. 2006). Nilai dari Spam Recall dihitung dengan membandingkan jumlah spam yang benar diklasifikasikan sebagai spam (true positive) dengan jumlah seluruh spam yang tedapat pada data uji yaitu: Spam Recall = TP TP + FN dengan cara yang sama, nilai dari ham recall dapat dihitung dengan cara: Ham Recall = TN TN + FP Analisis Kesalahan Klasifikasi Setelah pengujian untuk metode training dan metode klasifikasi selesai dilakukan, penelitian selanjutnya berfokus pada analisis kesalahan klasifikasi. Pesan-pesan yang gagal diklasifikasikan ke dalam kelas yang benar diteliti lebih lanjut untuk dicari penyebab kegagalan klasifikasinya. Lingkungan Pengujian Perangkat lunak yang digunakan dalam pengujian sebagai berikut: Sistem Operasi Windows 7. Bahasa pemrograman PHP versi EzMailParser dari EzComponent sebagai library yang digunakan untuk membaca struktur . Web Server Apache Sementara itu, perangkat keras yang digunakan untuk pengujian adalah: Prosesor intel core i5 M450 pada kecepatan 2.4Ghz. Memory DDR3 sebesar 2GB. Untuk mempercepat proses pengujian, data hasil training disimpan langsung dalam memori. Data hasil pengujian di-serialize lalu disimpan ke dalam file teks untuk digunakan dalam tahap analisis kesalahan klasifikasi. HASIL DAN PEMBAHASAN Pengumpulan Data Korpus yang digunakan pada penelitian ini adalah public corpus yang disediakan oleh Spamassasin dengan kode prefix Korpus ini terdiri atas pesan yang sudah diklasifikasikan sebelumnya secara manual dengan komposisi: easy-ham, yaitu pesan ham yang dapat dibedakan dengan mudah dari pesan spam karena tidak banyak mengandung ciri-ciri yang dimiliki oleh pesan spam. 250 hard-ham, yaitu pesan bertipe ham namun mengandung cukup banyak feature yang biasa terdapat pada pesan spam sehingga agak sulit diklasifikasikan spam, yaitu pesan yang masuk dalam kategori spam. Pesan yang memiliki label easy-ham dan hard-ham tidak dibedakan secara khusus dan digabungkan ke dalam satu kategori yaitu ham. Dengan demikian, data yang 3 Korpus dari Spamassasin dapat diunduh di alamat 7

16 digunakan untuk penelitian mengandung spam sebanyak 31%. Detail Proses Pengujian Pengujian kinerja metode klasifikasi dilakukan dengan metode training TEFT dan TOE sementara proses pengujian metode training dilakukan dengan menggunakan metode Graham. Langkah pengujian yang dilakukan adalah sebagai berikut: Data uji yang digunakan berjumlah dengan proporsi spam sebesar 31%. Data uji ini diacak sebanyak sepuluh kali lalu dicatat ukuran pembacaannya. Pengukuran kinerja dilakukan dengan melihat akurasi pada saat pemrosesan 750 data terakhir. Karena pengujian dilakukan sebanyak sepuluh kali pengulangan, data awal jumlah kesalahan klasifikasi yang ditampilkan adalah jumlah kesalahan per kali uji. Perbandingan jumlah spam dan ham untuk data testing pada masing-masing acakan dapat dilihat pada Tabel 2. Tabel 2 Acakan Ke Proporsi pesan spam untuk masingmasing acakan pengujian Jumlah Ham Jumlah Spam Persen Spam , , , , , , , , , ,86 Jumlah ,32 Pemrosesan Dokumen Untuk fase training dan fase testing, setiap diproses dengan teknik yang sama. Pemrosesan yang dilakukan terdiri atas empat tahap yaitu dekomposisi struktur , pemilihan atribut, penyeragaman sistem karakter, dan tokenisasi. 1. Dekomposisi Struktur Tahap pemrosesan dokumen yang pertama adalah dekomposisi struktur . yang hendak diproses dipecah menjadi bagianbagian yang lebih kecil. Tahapan ini diperlukan karena masing-masing komponen akan diolah secara berbeda pada saat dilakukan proses tokenisasi. Secara garis besar, tahapan dekomposisi yang dilakukan sebagai berikut: dipecah ke dalam dua bagian utama yaitu header dan body. Komponen header dipecah lagi menjadi komponen-komponen yang lebih kecil sesuai dengan informasi yang dikandungnya. Untuk komponen body, pesan yang terdiri atas beberapa part akan digabungkan menjadi satu. Jika pada terdapat attachment, hanya informasi nama file dan jenisnya yang disertakan. Berdasarkan hasil pengamatan saat dilakukan proses tahap pertama ini, terlihat bahwa dari kelas spam terkadang memiliki infomasi header yang salah ataupun rusak. Sebagai contoh, pada beberapa , informasi waktu pengiriman ditulis dengan format di luar standar atau waktu yang dipastikan salah, contoh tahun Saat ini belum dapat disimpulkan apakah kesalahan penulisan header tersebut merupakan suatu kesengajaan atau bukan. Bagaimanapun, kesalahan seperti ini sangat jarang ditemukan pada ham. Untuk bagian body, mayoritas dari kelas ham hanya menggunakan satu part saja. Lain halnya dengan dari kelas spam dimana dengan body multipart bukanlah hal yang jarang ditemui. 2. Pemilihan Atribut Setelah dipecah menjadi komponenkomponen yang lebih kecil, tahapan selanjutnya adalah pemilihan komponen yang akan disertakan ke dalam proses klasifikasi. Tahapan ini berlaku terutama untuk bagian header dari . Tidak semua komponen dari header dimasukkan ke dalam klasifikasi. Hal ini dilakukan karena terdapat beberapa informasi pada header yang telah mengalami kerusakan 8

17 ataupun telah diubah sebelumnya oleh pihak Spamassasin 4 sebagai penyedia data. Selain itu, terdapat komponen header yang hanya muncul di sebagian kecil dokumen saja. Komponen-komponen tersebut adalah informasi tambahan yang biasanya disertakan oleh client atau Mail Transfer Agent yang dilalui oleh sebelum sampai ke tujuan. Untuk bagian body, - yang dipecah ke dalam beberapa part akan digabungkan menjadi satu. Seluruh metadata yang terkandung dalam setiap part ikut disertakan pada proses klasifikasi. Metadata tersebut berguna untuk menglasifikasikan yang hanya berisi attachment saja atau yang terdiri atas beberapa part. Komponen header yang disertakan dalam proses klasifikasi serta informasi yang terkandung di dalamnya dapat dilihat pada Tabel 3. Tabel 3 Nama subject Komponen header yang disertakan dalam proses klasifikasi Keterangan Subjek dari pesan. sender Nama dan alamat pengirim pesan. return-path Alamat pengembalian pesan jika terjadi bouncing 5. x-mailer reply-to contenttransferencoding Aplikasi yang digunakan oleh pengguna untuk mengirimkan pesan. Alamat yang digunakan untuk membalas pesan. Metode content transfer encoding yang digunakan jika ada. 3. Penyeragaman Sistem Karakter Tahapan pemrosesan selanjutnya adalah penyeragaman sistem karakter yaitu encoding dan character set yang digunakan. pada data uji memiliki sistem encoding dan character set yang berbeda-beda. Perbedaan tersebut terutama terlihat pada bagian subject, nama pengirim, dan isi utamanya. Hal tersebut disebabkan oleh perbedaan sistem yang digunakan oleh pengirim. Penggunaan sistem encoding khusus kadang dilakukan dengan sengaja oleh pengirim spam dengan tujuan mempersulit pemrosesan oleh spam filter. Secara garis besar, terdapat dua jenis encoding yang digunakan oleh Encoding dan Character Set yang digunakan untuk penulisan karakterkarakter pada seperti UTF-8 dan latin1. Content-Transfer-Encoding yaitu sistem encoding yang digunakan khusus untuk mengirimkan data binary dalam format 7bit ASCII text. Untuk menghindari kesalahan pembacaan terutama saat proses tokenisasi, dilakukan penyeragaman sistem encoding dan characterset yang digunakan menjadi UTF-8. Jika menggunakan content-transferencoding tertentu seperti Base64 encoding atau Quote-printable, isinya akan dikonversi terlebih dahulu menjadi data aslinya. Jika data aslinya ternyata berbentuk file binary, isi dari file yang dihasilkan tidak disertakan, namun informasi jenis file yang dikandung (jika ada) akan ikut disertakan ke dalam klasifikasi. Dari hasil pengamatan, dapat disimpulkan bahwa penggunaan encoding dapat menjadi penciri yang baik dalam membedakan dari kelas ham dengan dari kelas spam. - yang tidak bersalah atau ham cenderung menggunakan sistem karakter encoding yang seragam atau sejenis seperti latin1 dan ISO untuk orang yang mayoritas nya berbahasa Inggris atau bahasa lain yang menggunakan karakter latin. Sementara itu di kelas spam, sistem encoding yang digunakan cenderung lebih bervariasi tergantung dari asal pengirimnya. Seringkali dari kelas spam mencantumkan informasi encoding yang salah atau tidak standar. Sebagai contoh, sistem encoding ks_c_ hanya ditemukan pada spam. Selain sistem encoding untuk karakter, penggunaan content-transfer-encoding juga dapat membantu proses pengenalan spam. Dari hasil pengamatan pada data, hanya - dari kelas spam yang menggunakan content-transfer-encoding 4 Perubahan ini dilakukan terutama pada alamat penerima dan jalur server yang dilalui oleh . 5 Kondisi dimana alamat penerima tidak ditemukan. 6 Encoding ini banyak ditemukan pada spam yang menggunakan karakter Korea. Encoding yang benar untuk karakter korea adalah EU-KR. 9

18 khusus seperti Base64 maupun Quoteprintable. Pada beberapa kasus, yang menggunakan content-transfer-encoding Base64 tidak dapat dikonversikan isinya karena terdapat kerusakan atau miss pada rangkaian karakter hasil encoding-nya. Pada kasus tersebut, proses pengklasifikasian hanya dapat mengandalkan informasi yang terdapat pada header dan metadata yang disertakan. 4. Tokenisasi Tahapan terakhir dari pemrosesan adalah tokenisasi. Tokenisasi adalah proses memotong teks menjadi bagian-bagian yang disebut dengan token. Selain pemotongan, tokenisasi juga mungkin diikuti dengan proses pembuangan karakter-karakter tertentu (Manning et al. 2008). Proses tokenisasi dilakukan sebagai berikut: Teks dipotong menjadi token-token. Karakter yang dianggap sebagai karakter pemisah token didefinisikan dengan ekspresi regular berikut: Token yang hanya terdiri atas karakter numerik saja tidak ikut disertakan. Besar kecilnya karakter dari token (case) dipertahankan. Tidak dilakukan penyeragaman. Karakter khusus yang menempel pada token dan tidak termasuk ke dalam karakter pemisah token juga dipertahankan. Karakter ~, dan! yang menempel di awal token dibuang. Karakter # dan $ yang menempel di akhir token dibuang. Jika yang sedang dibaca mengandung tag HTML, seluruh tag yang ditemukan akan ikut diproses termasuk attribute yang terdapat di dalamnya. Tag komentar HTML tidak akan diproses sama sekali dan dibuang terlebih dahulu sebelum keseluruhan proses tokenisasi dimulai. Khusus untuk URL (Uniform Resources Locator), proses tokenisasi dilakukan sebelum proses tokenisasi pada body atau komponen header dilakukan. Keberadaan URL pada masing-masing komponen akan diperiksa terlebih dahulu. Jika ternyata ada, URL akan diekstrak dari teks dan ditokenisasi seperti aturan di atas. Perbedaannya, tokentoken yang dihasilkan akan diberi prefix URL* untuk menandai bahwa token tersebut berasal dari suatu URL dan tidak bercampur dengan token-token biasa. Proses ini disebut dengan proses optimasi URL dan diduga dapat meningkatkan kinerja dari spam filter (Graham 2002). Untuk komponen header, token-token yang dihasilkan akan diberi prefix khusus (seperti halnya pada URL) untuk membedakannya dengan token biasa yang terdapat pada body. Sebagai contoh, jika suatu memiliki subject Hello There, maka token-token yang terdapat pada subjek tersebut akan ditokenisasi menjadi SUBJECT*Hello dan SUBJECT*There. Berdasarkan hasil pengamatan mayoritas yang mengandung tag HTML adalah spam. Kode-kode warna seperti #FF0000 hanya ditemukan pada spam. Begitu pula dengan alamat URL, hampir seluruh pesan spam yang ada pada data uji mencantumkan informasi URL untuk dikunjungi oleh penerima. Hasil Pengujian Metode Training 1. Tingkat Akurasi Pengujian metode training dilakukan dengan cara memasangkan kedua metode tersebut pada spam filter yang menggunakan metode klasifikasi NB Graham. Pada metode TEFT, seluruh yang dibaca akan di-training ke dalam kelas yang benar setelah hasil dari klasifikasi diperoleh. Proses training ini dilakukan tanpa mempedulikan apakah hasil klasifikasinya benar atau salah. Pada metode TOE, proses training hanya akan dilakukan jika terjadi kesalahan klasifikasi. Jumlah False Positive dan False Negative per kali pengujian beserta Ham Recall dan Spam Recall dapat dilihat pada Tabel 4. Tabel 4 Hasil pengujian metode training menggunakan teknik klasifikasi Graham TEFT TOE False Positive False Negative Spam Recall 0,9786 0,9714 Ham Recall 0,9856 0,

19 Grafik perbandingan nilai spam recall dan ham recall dari kedua metode training dapat dilihat pada Gambar 1. Gambar 1 Hasil pengujian metode training. Hasil pengujian menggunakan metode NB Graham menunjukkan metode training TEFT memiliki tingkat akurasi yang lebih tinggi dibandingkan dengan metode training TOE. Perbedaan akurasi tersebut disebabkan oleh lebih banyaknya proses training yang dilakukan oleh metode TEFT dibandingkan dengan metode TOE. Proses training yang lebih banyak membuat metode TEFT menyimpan informasi yang lebih akurat mengenai karakteristik token-token dari kelas spam maupun ham dalam data hasil training-nya. Untuk spam recall, perbedaan nilainya hanya sebesar 0,0072, namun untuk ham recall perbedaan nilai antara kedua metode training tersebut cukup tinggi yaitu 0,0777. Nilai ham recall berhubungan dengan tingkat false positive. Pada spam filter, cost dari false positive lebih tinggi dibandingkan dengan cost dari false negative. Berdasarkan petimbangan tersebut perbedaan tingkat akurasi ini cukup signifikan untuk dipertimbangkan. Perlu diperhatikan bahwa pada sistem yang sebenarnya koreksi hasil klasifikasi tidak dilakukan seketika seperti pada pengujian ini. Kelas yang benar dari setiap tidak akan diketahui oleh sistem kecuali pengguna melakukan koreksi. Untuk itu baik TEFT maupun TOE akan mengasumsikan bahwa hasil klasifikasi dari sistem merupakan hasil yang benar. Hal ini akan berpengaruh terhadap proses klasifikasi terutama pada TEFT. Pada metode TEFT, setiap yang masuk akan di-training sebagai data untuk kelas yang dianggap benar oleh sistem tersebut. Jika ternyata terjadi kesalahan pada hasil klasifikasi sistem, proses penilaian pesan selanjutnya akan ikut dipengaruhi oleh data training yang sudah terlanjur dimasukkan ke dalam kelas yang salah tersebut. 2. Waktu Pelatihan Karena proses training dilakukan untuk seluruh yang masuk, TEFT membutuhkan waktu pengujian lebih lama dibandingkan dengan TOE. Hasil pengujian menunjukkan TEFT menghabiskan waktu sekitar 18% lebih lama dibandingkan dengan TOE. Dengan demikian, meskipun TOE memiliki tingkat akurasi yang lebih rendah dibandingkan dengan TEFT, waktu pemrosesan yang dilakukan oleh TOE lebih sebentar. Perbedaan waktu antara kedua metode training ini dapat dibandingkan dengan perbedaan spam recall dan ham recall-nya untuk mengetahui seberapa besar peningkatan kinerja yang didapat untuk setiap tambahan waktu proses. Untuk spam recall, peningkatan kinerja per satuan waktu GS dapat dihitung dengan cara: GS = SR TOE SR TEFT DW dengan SR adalah nilai spam recall dan DW adalah persentase perbedaan waktu yang dihabiskan oleh kedua metode training. Dengan cara yang sama, peningkatan ham recall GH untuk masing-masing metode training dapat dihitung dengan cara: GH = HR TOE HR TEFT DW dengan HR adalah nilai ham recall untuk masing-masing metode training. Mengganti metode training TOE menjadi TEFT sama halnya dengan menggunakan metode training yang lebih lambat untuk mendapatkan peningkatan akurasi. Dengan perhitungan di atas, didapat bahwa penggunaan metode TEFT dibandingkan dengan TOE akan meningkatkan spam recall (GS) sebesar 0,0004 atau 0,04% untuk setiap 1% penambahan waktunya. Sementara untuk ham recall, peningkatan akurasi yang didapatkan adalah sebesar 0,0043 atau 0,43% untuk setiap 1% penambahan waktunya. Perlu diperhatikan bahwa pada sistem yang sebenarnya data hasil training disimpan dalam file atau database dan yang harus diproses bisa menjadi sangat banyak. Oleh 11

20 karena itu, baik perbedaan waktu maupun perbedaan akurasi antara TOE dan TEFT bisa menjadi sangat signifikan. Metode training mana yang lebih baik harus disesuaikan dengan lingkungan implementasinya. Jika waktu dan resource yang dibutuhkan untuk proses training termasuk dalam faktor yang cukup dipertimbangkan, TOE yang hanya melakukan proses training seperlunya memiliki keunggulan tersendiri dibandingkan dengan TEFT dalam hal penggunaan resources. Hasil Pengujian Metode Klasifikasi Proses pengujian metode klasifikasi dilakukan dengan menggunakan mode training TEFT. Jumlah false positive dan false negative per kali pengujian beserta nilai ham recall dan spam recall dapat dilihat pada Tabel 5. Gambar 2 Hasil pengujian metode klasifikasi menggunakan metode training TEFT. Tabel 6 Hasil pengujian metode klasifikasi dengan mode training TOE Tabel 5 Hasil pengujian metode klasifikasi dengan metode training TEFT NB Graham NB Multinomial NB Graham NB Multinomial False Positive False Negative Spam Recall 0,9786 0,9615 Ham Recall 0,9714 0,9864 Grafik perbandingan nilai spam recall dan ham recall dari pengujian kedua metode klasifikasi menggunakan metode training TEFT dapat dilihat pada Gambar 2. Hasil pengujian menggunakan mode training TEFT menunjukkan bahwa metode NB Graham memiliki spam recall lebih tinggi daripada metode NB Multinomial dengan perbedaan nilai sebesar 0,0171. Hasil sebaliknya terlihat pada ham recall dimana metode NB Multinomial memiliki nilai yang lebih tinggi dengan perbedaan nilai sebesar 0,0150. Pada pengujian selanjutnya dengan menggunakan metode training TOE, hasil yang diperoleh ternyata sedikit berbeda seperti yang dapat dilihat pada Tabel 6. False Positive False Negative Spam Recall 0,9714 0,9765 Ham Recall 0,9079 0,9773 Grafik perbandingan nilai spam recall dan ham recall dari pengujian kedua metode klasifikasi menggunakan metode training TOE dapat dilihat pada Gambar 3. Gambar 3 Hasil pengujian metode klasifikasi menggunakan metode training TOE. Pengujian dengan metode training TOE menunjukkan bahwa metode klasifikasi NB Multinomial memiliki spam recall dan ham 12

21 recall yang lebih tinggi dibandingkan dengan metode NB Graham dengan perbedaan masing-masing sebesar 0,0051 dan 0,0694. Sementara nilai hasil pengujian yang lain menurun pada saat digunakan metode TOE, hasil yang berbeda terlihat pada tingkat spam recall. NB Multinomial yang dipasangkan dengan metode training TOE ternyata menghasilkan nilai spam recall yang lebih baik dibandingkan dengan saat dipasangkan pada metode training TEFT. 1. Analisis Kesalahan Pengenalan Ham (False Positive) Meskipun dalam proses klasifikasinya metode NB Graham mengalikan jumlah kemunculan token pada kelas ham dengan faktor dua, ternyata tingkat ham recall-nya masih lebih rendah dibandingkan dengan ham recall dari metode NB Multinomial. Pada saat pengujian dengan metode training TOE, jumlah false postive yang dihasilkan metode Graham bahkan mencapai empat kali lipat dari jumlah false positive NB Multinomial. Lebih rendahnya ham recall dari metode NB Graham disebabkan oleh pemberian nilai 0,99 untuk token yang hanya pernah muncul di kelas spam. Dalam menentukan hasil klasifikasi, metode NB Graham hanya menggunakan lima belas token yang paling signifikan saja. Seberapa signifikan suatu token dilihat dengan melihat selisih nilai peluang token tersebut dengan nilai peluang netral 0,5. Jika dari kelas ham mengandung token-token yang hanya muncul di kelas spam saja, proses klasifikasi akan didominasi oleh token-token spam karena token dengan peluang 0,99 memiliki selisih yang tinggi dari peluang netral 0,5. Walaupun demikian, false positive juga cukup banyak terjadi pada metode NB multinomial. Selanjutnya akan dibahas karakteristik-karakteristik yang menyebabkan false positive. a. ham yang mengandung tag HTML Jenis pertama ham yang salah diklasifikasikan adalah yang mengandung token-token berpeluang spam tinggi seperti tag HTML beserta atributnya. Karakteristik seperti ini banyak ditemukan pada yang berjenis newsletter. Karena data uji yang digunakan tidak memiliki newsletter dalam jumlah yang cukup, tokentoken ham pada tersebut tidak memiliki nilai P am w yang signifikan untuk mengimbangi token-token spam yang ada. Akibatnya, terjadi false positive dalam proses filtering yang dilakukan. Walaupun hal ini juga akan menjadi masalah bagi NB multinomial, metode Graham akan terkena dampak yang cenderung lebih besar. Hal ini disebabkan oleh cara kerja metode Graham yang hanya memilih 15 token paling signifikan (paling jauh nilai dari peluang netral 0,5). Meski token spam yang ditemukan hanya berjumlah beberapa buah, nilai P spam w yang tinggi akan mengakibatkan peringkat token tersebut merangkak naik sampai menembus peringkat 15 besar. Jika kondisi ini tidak diikuti dengan keberadaan token-token dengan nilai P am w yang juga tinggi, proses klasifikasi akan didominasi oleh token-token spam tersebut. Solusi yang dapat digunakan untuk mengatasi persoalan ini adalah pemilihan tag HTML yang dicatat pada saat training. Menurut Zdziarski (2005), tag HTML yang terlalu umum seperti table, tr, td, div,dan p tidak perlu ikut dicatat kemunculannya. Dengan demikian, ham yang kebetulan memang menggunakan tag HTML tidak akan langsung dianggap sebagai spam. b. Newsletter resmi yang memiliki isi bertema promosi. Selain pengaruh tag HTML, false positive juga banyak dipengaruhi oleh isi dari nya itu sendiri. Meskipun newsletter dikirimkan dengan seizin penerimanya, isi dari newsletter tersebut seringkali berbau promosi dan menggunakan kata-kata yang digunakan pada spam. Pada kasus seperti ini, baik metode Graham maupun metode NB multinomial sama-sama mengalami kesulitan dalam menentukan kelas yang benar. c. ham yang memiliki beberapa format alternative. Jenis ham selanjutnya yang seringkali salah diklasifikasi adalah yang menggunakan format multipartalternative. Format ini memungkinkan dikirimkan dalam beberapa versi sekaligus. Sebagai contoh, jika aplikasi client memiliki kapabilitas untuk membaca dokumen HTML, maka akan ditampilkan versi yang menggunakan tag HTML. Namun jika tidak, akan ditampilkan versi yang hanya menggunakan teks biasa. 13

negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1.

negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1. negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1. Tabel 1 Tabel kontingensi kelas hasil prediksi dan kelas sebenarnya Kelas Sebenarnya Spam Kelas Prediksi Ham Spam TP

Lebih terperinci

Pengukuran Kinerja Spam Filter Menggunakan Bayes Classifier. Bayes Classifier PENDAHULUAN JULIO ADISANTOSO *, WILDAN RAHMAN

Pengukuran Kinerja Spam Filter Menggunakan Bayes Classifier. Bayes Classifier PENDAHULUAN JULIO ADISANTOSO *, WILDAN RAHMAN Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 2 Nomor 1 halaman 1-8 ISSN: 2089-6026 Pengukuran Kinerja Spam Filter Menggunakan Bayes Classifier Bayes Classifier JULIO ADISANTOSO

Lebih terperinci

BAB I PENDAHULUAN. Electronic mail ( ) merupakan media komunikasi di internet seperti

BAB I PENDAHULUAN. Electronic mail ( ) merupakan media komunikasi di internet seperti 1 BAB I PENDAHULUAN 1.1 Latar Belakang Electronic mail (email) merupakan media komunikasi di internet seperti untuk berdiskusi (maillist), transfer informasi berupa file (mail attachment) bahkan dapat

Lebih terperinci

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN Pada bab pendahuluan ini akan dijelaskan mengenai dasar-dasar dalam pembuatan laporan. Dasar-dasar tersebut terdiri dari latar belakang masalah, rumusan masalah, maksud dan tujuan dilakukan

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

METODE SMOOTHING DALAM NAÏVE BAYES UNTUK KLASIFIKASI SPAM MUTIA HAFILIZARA

METODE SMOOTHING DALAM NAÏVE BAYES UNTUK KLASIFIKASI  SPAM MUTIA HAFILIZARA METODE SMOOTHING DALAM NAÏVE BAYES UNTUK KLASIFIKASI EMAIL SPAM MUTIA HAFILIZARA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

PEMBANGUNAN SPAM FILTERING SYSTEM DENGAN METODE NAIVE BAYESIAN

PEMBANGUNAN SPAM  FILTERING SYSTEM DENGAN METODE NAIVE BAYESIAN Makalah Nomor: KNSI-72 PEMBANGUNAN SPAM E-MAIL FILTERING SYSTEM DENGAN METODE NAIVE BAYESIAN Indrastanti R. Widiasari.1, Teguh Indra Bayu 2 1, 2 Fakultas Teknologi Informasi, Universitas Kristen Satya

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN 26 BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya, selain itu juga berfungsi untuk memberikan gambaran dan

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Basis data saat ini sudah berkembang menjadi sangat besar secara cepat ke dalam ukuran terabyte. Di dalam tumpukan data tersebut mungkin terdapat informasiinformasi

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Data E-mail Pada bagian ini akan disajikan detail jumlah keseluruhan dataset yang digunakan untuk penelitian. Dataset diambil CSDMC21 yang disediakan oleh http://www.csmining.org/

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

Spam Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes

Spam Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes Wirawan Nathaniel Chandra 1, Gede Indrawan

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

UPAYA MEMINIMALISASI PADA LAYANAN LAPAN BANDUNG

UPAYA MEMINIMALISASI PADA LAYANAN LAPAN BANDUNG UPAYA MEMINIMALISASI PADA LAYANAN LAPAN BANDUNG Peneliti Pusat Pemanfaatan Sains Antariksa, LAPAN email: elyyani@bdg.lapan.go.id RINGKASAN Email merupakan bentuk komunikasi bisnis yang sifatnya cepat,

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

Rancang Bangun Modul Pengelompokan Dokumen Pada Sistem Manajemen Dokumen Kepegawaian

Rancang Bangun Modul Pengelompokan Dokumen Pada Sistem Manajemen Dokumen Kepegawaian Rancang Bangun Modul Pengelompokan Dokumen Pada Sistem Manajemen Dokumen Kepegawaian ANITA SUSANTI 5110100145 Dosen Pembimbing Umi LailiYuhana S.Kom, M.Sc Nurul Fajrin Ariyani S.Kom, M.Sc LATAR BELAKANG

Lebih terperinci

1. Pendahuluan 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar Belakang 1. Pendahuluan 1.1 Latar Belakang Teknologi semakin berkembang seiring dengan berjalannya waktu. Disadari atau tidak, sebagian besar kehidupan ini dibantu oleh teknologi dan banyak sekali manfaat yang

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika Disusun

Lebih terperinci

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa dengan Metode NAÏVE BAYES M. Ridwan Effendi Fakultas Komputer Jurusan Sistem Informasi Universitas Mohammad Husni Thamrin Jakarta Email :

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah. Informasi merupakan kebutuhan yang sangat penting dalam era

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah. Informasi merupakan kebutuhan yang sangat penting dalam era BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Informasi merupakan kebutuhan yang sangat penting dalam era globalisasi sekarang ini. Kebutuhan informasi yang cepat dan praktis menjadi tuntutan bagi setiap

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM. Pada bab ini akan dibahas mengenai analisa dan perancangan dari sistem.

BAB III ANALISA DAN PERANCANGAN SISTEM. Pada bab ini akan dibahas mengenai analisa dan perancangan dari sistem. 17 BAB III ANALISA DAN PERANCANGAN SISTEM Pada bab ini akan dibahas mengenai analisa dan perancangan dari sistem. Analisa system dilakukan untuk menemukan solusi dari permasalahan yang telah diajukan sebelumnya.

Lebih terperinci

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB I PENDAHULUAN. Jumlah  spam di dunia semakin meningkat secara eksponensial. BAB I PENDAHULUAN 1.1 Latar Belakang Jumlah email spam di dunia semakin meningkat secara eksponensial. Dilaporkan bahwa pada tahun 1978 sebuah email spam dikirimkan ke 600 alamat email. Sedangkan pada

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian klasifikasi dokumen teks. Tujuan dan ruang lingkup dari tugas akhir memberikan penjelasan mengenai hasil yang ingin diketahui dan

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

APLIKASI SPAM FILTER PADA MICROSOFT OUTLOOK DENGAN METODE BAYESIAN

APLIKASI SPAM FILTER PADA MICROSOFT OUTLOOK DENGAN METODE BAYESIAN APLIKASI SPAM FILTER PADA MICROSOFT OUTLOOK DENGAN METODE BAYESIAN Rudy Adipranata, Adi Wibowo, Eko Katsura Koessami Teknik Informatika, Fakultas Teknologi Industri, Universitas Kristen Petra Jl. Siwalankerto

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 3.1 Alat dan Bahan Penelitian BAB III METODOLOGI PENELITIAN 3.1.1 Alat Alat yang digunakan dalam penelitian ini adalah: a. Hardware a. Prosesor : Intel Core i5-3230m CPU @ 2.60GHz b. Memori : 4.00 GB c.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75 JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-75 Pendeteksian Malware pada Lingkungan Aplikasi Web dengan Kategorisasi Dokumen Fransiskus Gusti Ngurah Dwika Setiawan, Royyana

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk

Lebih terperinci

Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen

Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen Samuel Natalius / 18209031 Program Studi Sistem dan Teknologi Informasi Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

BAB I PENDAHULUAN. dipakai masyarakat umum adalah electronic mail ( ). Pada akhir tahun 1990,

BAB I PENDAHULUAN. dipakai masyarakat umum adalah electronic mail ( ). Pada akhir tahun 1990, 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat sekarang ini sudah mengubah gaya hidup masyarakat dalam berkomunikasi, saat ini masyarakat sudah hidup berdampingan dengan teknologi

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR

UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR oleh: MOH. KHAWARIZMIE ALIM F14101030 2006 FAKULTAS TEKNOLOGI PERTANIAN INSTITUT

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet memunculkan berbagai metode komunikasi yang mudah, murah, dan cepat. Salah satu media yang paling populer dan sangat cepat berkembang

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang 3 BAB I PENDAHULUAN 1.1. Latar Belakang Semakin banyaknya pengunaan teknologi informasi pada pemerintahan, dapat mempermudah masyarakat dalam pelayanan masyarakat itu sendiri. Seperti misalnya ketika sesorang

Lebih terperinci

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN BAB IV HASIL PENELITIAN DAN PEMBAHASAN 1.1 Data Training Data training adalah data yang digunakan untuk pembelajaran pada proses data mining atau proses pembentukan pohon keputusan.pada penelitian ini

Lebih terperinci

Aplikasi Inferensi Bayes pada Data Mining terutama Pattern Recognition

Aplikasi Inferensi Bayes pada Data Mining terutama Pattern Recognition Aplikasi Inferensi Bayes pada Data Mining terutama Pattern Recognition Trilaksono Aribowo (18209015) Program Studi Sistem dan Teknologi Informasi Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Perancangan Website Ujian. Teknik Elektro UNDIP Berbasis HTML

Perancangan Website Ujian. Teknik Elektro UNDIP Berbasis HTML TUGAS TEKNOLOGI INFORMASI Perancangan Website Ujian Teknik Elektro UNDIP Berbasis HTML OLEH: AULIA RAHMAN 21060113120007 JURUSAN TEKNIK ELEKTRO FAKULTAS TEKNIK UNIVERSITAS DIPONEGORO SEMARANG 2014 Abstrak

Lebih terperinci

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk Eka Retnawiyati 1, Fatoni, M.M.,M.Kom 2., Edi Surya Negara, M.Kom 3 1) Mahasiswa Informatika Universitas Bina Darma

Lebih terperinci

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi. DAFTAR ISI ABSTRAK...i ABSTRACT... ii KATA PENGANTAR... iii DAFTAR ISI... v DAFTAR GAMBAR...vii DAFTAR TABEL... viii DAFTAR ISTILAH... ix BAB I PENDAHULUAN... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah...

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

Implementasi Identifikasi Kendala Sistem Identifikasi Pengguna Administrator Pengujian Sistem Member Pengunjung atau umum HASIL DAN PEMBAHASAN

Implementasi Identifikasi Kendala Sistem Identifikasi Pengguna Administrator Pengujian Sistem Member Pengunjung atau umum HASIL DAN PEMBAHASAN Implementasi Pada tahap ini CMS akan dibuat atau dikembangkan berdasarkan tahap-tahap pengembangan sistem yang telah dijelaskan sebelumnya dengan menggunakan software dan hardware yang diperlukan untuk

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 40 BAB III METODOLOGI PENELITIAN 3.1 DESAIN PENELITIAN Dalam melakukan penelitian, dibutuhkan desain penelitian agar penelitian yang dilakukan dapat berjalan dengan baik. Berikut ini merupakan desain penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kehadiran teknologi web yang interaktif telah merubah cara orang mengekspresikan pandangan dan opininya. Saat ini pengguna dapat menulis ulasan suatu produk pada situs

Lebih terperinci

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 1 PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 Dina Maurina, Ahmad Zainul Fanani S.Si, M.Kom Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula

Lebih terperinci

Kata kunci : metode pencarian, perpustakaan, Naïve Bayes Classifier.

Kata kunci : metode pencarian, perpustakaan, Naïve Bayes Classifier. PENGGUNAAN METODE NAÏVE BAYES CLASSIFIER PADA APLIKASI PERPUSTAKAAN Selvia Lorena Br Ginting,S.Si., MT 1, Reggy Pasya Trinanda 2 1,2 Jurusan Teknik Komputer Unikom, Bandung 1 selvialorena@yahoo.com, 2

Lebih terperinci

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK)

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK) IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK) Diana Septiari Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas

Lebih terperinci

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan BAB 1 PERSYARATAN PRODUK Bab ini membahas mengenai hal umum dari produk yang dibuat, meliputi tujuan, ruang lingkup proyek, perspektif produk, fungsi produk dan hal umum yang lainnya. 1.1 Pendahuluan Hal

Lebih terperinci

IMPLEMENTASI SCALABLE VECTOR GRAPHICS (SVG) TERHADAP APLIKASI e-learning STUDI KASUS UNIVERSITAS TERBUKA (UT) RUSTAM EFFENDY

IMPLEMENTASI SCALABLE VECTOR GRAPHICS (SVG) TERHADAP APLIKASI e-learning STUDI KASUS UNIVERSITAS TERBUKA (UT) RUSTAM EFFENDY IMPLEMENTASI SCALABLE VECTOR GRAPHICS (SVG) TERHADAP APLIKASI e-learning STUDI KASUS UNIVERSITAS TERBUKA (UT) RUSTAM EFFENDY SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007 PERNYATAAN MENGENAI

Lebih terperinci

Kode Huffman dan Penggunaannya dalam Kompresi SMS

Kode Huffman dan Penggunaannya dalam Kompresi SMS Kode Huffman dan Penggunaannya dalam Kompresi SMS A. Thoriq Abrowi Bastari (13508025) Teknik Informatika Institut Teknologi Bandung email: if18025@students.itb.ac.id ABSTRAK Dalam makalah ini, akan dibahas

Lebih terperinci

Implementasi Pengembangan Smart Helpdesk di UPT TIK UNS Menggunakan Algoritma Naive Bayes Classifier

Implementasi Pengembangan Smart Helpdesk di UPT TIK UNS Menggunakan Algoritma Naive Bayes Classifier Implementasi Pengembangan Smart Helpdesk di UPT TIK UNS Menggunakan Algoritma Naive Bayes Classifier Wachid Daga Suryono 1, Ristu Saptono 2, Wiranto 3 Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB I PENDAHULUAN. perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar

BAB I PENDAHULUAN. perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan data mining yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Perkembangan internet

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan

Lebih terperinci

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang

Lebih terperinci

BAB I PENDAHULUAN. Peminatan atau bidang peminatan adalah sebuah jurusan yang harus di

BAB I PENDAHULUAN. Peminatan atau bidang peminatan adalah sebuah jurusan yang harus di BAB I PENDAHULUAN I. Latar Belakang Peminatan atau bidang peminatan adalah sebuah jurusan yang harus di ambil oleh mahasiswa untuk menentukan arah kompetensi dan keahlian mahasiswa tersebut yang mana di

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

LANDASAN TEORI. Dunia informasi di Indonesia sedang dan harus. berubah. Saat ini, dunia pemasaran tidak dapat

LANDASAN TEORI. Dunia informasi di Indonesia sedang dan harus. berubah. Saat ini, dunia pemasaran tidak dapat BAB II LANDASAN TEORI 2.1 Karakteristik Uneven Solution Dunia informasi di Indonesia sedang dan harus berubah. Saat ini, dunia pemasaran tidak dapat mengandalkan satu bahasa seperti tahun lalu. Coba lihat

Lebih terperinci

ABSTRAK. Kata Kunci: analisis sentimen, pre-processing, mutual information, dan Naïve Bayes. UNIVERSITAS KRISTEN MARANATHA

ABSTRAK. Kata Kunci: analisis sentimen, pre-processing, mutual information, dan Naïve Bayes. UNIVERSITAS KRISTEN MARANATHA ABSTRAK Twitter merupakan sebuah aplikasi social networking yang memungkinkan usernya untuk dapat mengirimkan pesan pada waktu yang bersamaan. Data yang diambil melalui Twitter dapat dijadikan sebagai

Lebih terperinci

MODUL 3 DASAR-DASAR PHP

MODUL 3 DASAR-DASAR PHP MODUL 3 DASAR-DASAR PHP Para pengguna internet dewasa ini cenderung lebih menyukai situs-situs yang mempunyai tampilan menarik dan menghibur. Yang pasti, mereka sudah bosan dengan tampilan web yang begitu-begitu

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan teknologi internet membawa dampak positif untuk berbagai industri, perkembangan ini dapat membantu pertumbuhan industri, tetapi dengan transfer semua proses

Lebih terperinci

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dari pekerjaan dan metode yang digunakan dalam tugas akhir untuk melakukan klasifiksi topik. Pembahasan ini dimulai dengan penjelasan klasifikasi

Lebih terperinci

APLIKASI GREEDY PADA ALGORITMA HUFFMAN UNTUK KOMPRESI TEKS

APLIKASI GREEDY PADA ALGORITMA HUFFMAN UNTUK KOMPRESI TEKS APLIKASI GREEDY PADA ALGORITMA HUFFMAN UNTUK KOMPRESI TEKS Nessya Callista 13505119 Program Studi Teknik Informatika SEKOLAH TEKNIK ELEKTRO DAN INFORMATIKA INSTITUT TEKNOLOGI BANDUNG Jl.Ganeca No.10 e-mail:

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Pengembangan Sistem Penelitian ini mengembangkan dua buah prototipe aplikasi, yaitu aplikasi pada client dan aplikasi pada server. Aplikasi pada client akan diimplementasikan

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Pengembangan pengetahuan mengenai teknologi informasi dan komunikasi berkembang cukup pesat. Salah satu perkembangan teknologi informasi dan komunikasi yang sangat

Lebih terperinci

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Denny Nathaniel

Lebih terperinci

BAB III ANALISIS DAN PENYELESAIAN MASALAH

BAB III ANALISIS DAN PENYELESAIAN MASALAH BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan

Lebih terperinci