BAB 2 LANDASAN TEORI

Transkripsi

1 BAB 2 LANDASAN TEORI adalah singkatan dari Electronic Mail. berfungsi sebagai sarana untuk mengirim surat atau pesan melalui jaringan Intenet (Nello.et all, 2000), Dengan kita hanya membutuhkan beberapa menit agar surat/pesan kita sampai tujuan tidak perlu menunggu berhari-hari seperti mengirim surat/pesan biasa (pos) dan dengan isi surat/pesan dapat kita isi dengan konten gambar/suara dan video, bukan hanya untuk mengirim surat/pesan, jaman sekarang apa-apa yang berhubungan internet seperti mendaftar facebook, twitter, blogger dan lain-lain pasti memerlukan utuk mendaftar. Sebuah pesan elektronis terdiri dari isi, alamat pengirim, dan alamat-alamat yang dituju. Sistem yang beroperasi diatas jaringan berbasis pada model store and forward. Sistem ini mengaplikasikan sebuah system server yang menerima, meneruskan, mengirimkan, serta menyimpan pesan pesan user, dimana user hanya perlu untuk mengkoneksikan pc mereka kedalam jaringan. dapat dianalogikan dengan kotak surat yang ada di kantor POS sedangkan server dapat diibaratkan sebagai kantor POS. Dengan analog ini sebuah mail server dapat memiliki banyak account yang ada didalamnya. Gambar 2.1. Cara kerja

2 Cara kerja yang dapat dilihat pada gambar 2.1 menunjukkan bahwa yang dikirim belum tentu akan diteruskan ke computer penerima (end user), tetapi disimpan/dikumpulkan dahulu dalam sebuah computer server (host) yang akan online secara terus menerus (continue) dengan media peyimpanan (storange) yang relative besar dibanding computer biasa. Hal ini bisa diibaratkan dengan sebuah kantor pos, jika seseorang mempunyai alamat (mailbox), maka dia dapat memeriksa secara berkala jika dia mendapatkan surat. Komputer yang melayani penerimaan secara terus menerus tersebut biasa disebut dengan mailserver atau mailhost Latar Belakang Digunakannya Dalam dunia nyata pada umumnya, kita sering menggunakan surat untuk menggambarkan suatu berita. Namun kekurangan media surat adalah lamanya waktu yang dibutuhkan dari pengirim ke penerima. Masalah ini dapat dipecahkan dengan menggunakan media telepon. Namun sayangnya jika menggunakan telepon untuk jarak penelepon dan penerima telepon yang cukup jauh, biasanya memerlukan biaya yang tidak murah, karena menggunakan SLJJ atau SLI (Sambungan Langsung Internasional). Oleh karena itu diperlukan media lain yang dapat membantu mengatasi kendala waktu, jarak dan biaya ini. Salah satu solusi yang dapat digunakan adalah dengan menggunakan (electronic mail). merupakan suatu solusi yang cukup murah, dapat diakses dari mana saja, dan jarang mengalami keterlambatan pengiriman, karena secara umum (jika tidak ada masalah) biasanya dapat dikirimkan paling lama dalam waktu 5 menit saja. Namun bukan berarti dengan menggunakan tidak akan ada masalah yang terjadi. Tabel 2.1 menyajikan kelebihan dan kekurangan menggunakan surat, telepon, maupun .

3 2.1.2 Sejarah Penggunaan yang pertama kali dikirim dilakukan oleh seorang engineer bernama Ray Tomlinson. pada tahun Sebelumnya, orang hanya dapat mengirimkan pesan kepada orang lain pada mesin yang sama. Dengan menggunakan teknologi baru ini, Tomlinson berhasil mengirimkan pesan ke mesin komputer yang lain dengan menggunakan sebagai tujuan mesin penerima . tidaklah lebih dari pesan teks sederhana (text message). Pesan dikirimkan dari sebuah mesin (misalnya A) ke mesin lainnya (misalnya B), dan orang lain membaca pesan yang dikirim dari komputer A di komputer B. Walaupun sekarang ini dapat ditambahkan attachment, pada dasarnya juga tetap merupakan sebuah pesan teks sederhana (Nello, 2000). Komponen Surat Telepon Biaya investasi Murah Tidak Terlalu Mahal Murah jika hanya awal mengandalkan warnet, namun bisa mahal jika ingin membeli komputer dan memiliki akses internet sendiri. Biaya pengiriman Waktu sampainya pesan Pengiriman barang Murah, namun cukup mahal untuk jarak yang jauh Lama, bisa memakan waktu alam hitungan harian. Apalagi jika jaraknya jauh, mungkin bisa mingguan. Respon yang diterima juga lambat Bisa dilakukan Murah, jika tidak terlalu lama bicara dan jaraknya tidak jauh. Mahal, jika terlalu lama bicara di telepon dan jaraknya jauh Sangat cepat, karena langsung berbicara dengan penerima pesan. Murah. Tidak tergantung jarak tempuhnya. Cepat, dalam hitungan detik ataumenit. Namun respon dari penerima bisa cepat atau lambat, tergantung kapan si penerima membuka inbox nya. Tidak bisa dilakukan Hanya bisa dilakukan jika barang yang dimaksud berbentuk digital. Tabel 2.1. Kelebihan dan Kekurangan Surat, Telepon, dan

4 2.1.3 Mail Client client adalah software yang digunakan untuk mengirim dan menerima melalui komputer Anda tanpa browser (Agung, 2007). Cukup dengan menjalankan software client secara otomatis akan terdownload ke komputer Anda. Saat Anda tidak terkoneksi dengan internet, Anda dapat membaca yang telah di download tersebut. Beberapa pilihan software client : OutlookExpress Review : software ini secara otomatis terinstall pada Windows XP pada full install. Penggunaannya praktis, hanya saja tidak memiliki fitur perlindungan SPAM yang efektif. MicrosoftOutlook Review : software yang masuk dalam Microsoft Office ini kaya fitur, diantaranya sudah terintegrasi dengan calendar, todo list, dan memiliki mekanisme perlindungan SPAM yang baik. Thunderbird Review : software free ini dikembangkan oleh Mozilla dengan dilengkapi fitur perlindungan SPAM yang sangat fleksibel karena dapat kita konfigurasikan secara detail. Selain itu software ini juga dilengkapi dengan tagging yang cara kerjanya mirip dengan label pada Gmail. Sayangnya software ini tidak memiliki integrasi langsung dengan calendar meskipun tersedia add-on untuk calendar. Mail Pada Mac OS X Review : kerap disebut Apple Mail, secara default software Mail ini sudah terinstall pada Mac OS X. Sebagai software mail client default pada Mac OS X, software ini memiliki mekanisme perlindungan SPAM yang cukup baik. Windows Mail Review : Windows Mail adalah pengganti Outlook Express pada Windows Vista. Sebagai versi baru dari Outlook Express, Windows Mail kaya dengan fitur fitur baru.

5 2.1.4 Sistem Penerimaan Sistem penerimaan dapat digambarkan seperti diagram di bawah ini. Gambar 2.2 Sistem Penerimaan Cara Penerimaan Ada dua jenis cara penerimaan , yaitu dengan POP (Post Office Protocol) ataupun dengan Web Based ( yang dapat dilihat dari website, menggunakan tekonologi IMAP (Internet_Message_Access_Protocol). POP saat ini sudah memasuki versi 3, sehingga lebih dikenal dengan nama POP3 (Post Office Protocol version 3). Dengan menggunakan POP3, maka dapat diambil dari server dan disimpan di client (seperti Outlook Expres, Eudora, dan The Bat), sedangkan dengan menggunakan Web Based (seperti Yahoo dan Gmail), pemakai dapat membaca yang diterimanya dan melakukan interaksi dengan tersebut (membaca, menulis, membalas, menghapus, dll) secara user friendly. Sekarang ini hampir sebagian besar layanan , baik yang gratis maupun yang menarik bayaran, sudah menyediakan keduanya, POP dan web-based . Berikut ini diberikan tabel berupa kelebihan dan kekurangan penggunaan berbasiskan POP maupun Web Based .

6 Client (a) Contoh Web-based (b) Contoh Gambar 2.3 Contoh Web-Based dan Client Komponen POP3 Web Based Kemudahan dalam pengarsipan Lebih mudah dalam pengarsipan, karena disimpan di komputer pengguna Sulit diarsipkan, karena tersimpan di komputer server. Jika sewaktu-waktu server mengalami masalah, ada kemungkinan dapat hilang begitu saja. Fleksibilitas Hanya dapat dibuka dari komputer Karena berada pada server yang pemakai saja. dapat dibuka dari jaringan internet, maka pemakai dapat membuka miliknya dari sembarang tempat yang memiliki kases internet. Ukuran media Karena menggunakan komputer Karena menggunakan komputer penyimpanan pribadi, besarnya media penyimpanan yang dapat digunakan untuk menampung dapat tak terbatas (tergantung budget pengguna) orang lain (komputer server), besarnya media penyimpanan yang digunakan terbatas, tergantung penyedia tersebut. Tabel 2.2 Perbedaan POP dengan Web Based

7 Proses Penerimaan Pada penerimaan dengan menggunakan POP3, digunakan suatu program yang dinamakan client. client berfungsi untuk menerima - yang masuk ke komputer pengguna. Beberapa contoh client adalah Outlook Express, Microsoft Outlook, The Bat, Eudora, dan masih banyak lagi yang lainnya. POP3 biasanya selalu disandingkan dengan SMTP (Simple Mail Transfer Protocol). Fungsi dari keduanya saling mendukung, di mana POP3 digunakan untuk mengambil dari komputer server ke komputer client (pengguna), dan SMTP digunakan untuk mengirimkan dari komputer client yang dititipkan ke pada komputer server untuk dikirimkan ke komputer server tujuan. Perhatikan gambar 2.4 di bawah ini: Gambar 2.4 Server Terlihat pada gambar di atas bahwa POP3 menggunakan port 110 dan SMTP menggunakan port 25. Perbedaan Web Based dengan POP3 adalah bahwa pada Web based tidak diperlukan komunikasi pada port 110 dan port 25 untuk menerima dan mengirim , karena semuanya sudah dilakukan oleh server. A. SMTP Server Perhatikan gambar 2.5 di bawah ini. Pada dasarnya yang dikirim oleh SMTP server akan ditampung sementara oleh komputer server untuk dikirim ke komputer server tujuan. Komputer server pengirim dan komputer server penerima berinteraksi pada port 25 untuk melakukan pengiriman .

8 Gambar 2.5 SMTP Server Logika serah-terima tersebut adalah sebagai berikut: Misalnya ada pengguna dengan alamat ingin mengirimkan ke dari client. Ketika mengirimkan ke terjadi hal-hal berikut ini: 1. client melakukan komunikasi dengan aku.com menggunakan port client berkomunikasi dengan SMTP server, memberitahukan kepada SMTP server mengenai alamat pengirim dan penerima sekaligus dengan isi pesan yang dikirimkan. 3. SMTP server mengambil alamat tujuan dan membaginya menjadi dua bagian Bagian pertama Bagian kedua : kamu : kamu.com 4. SMTP server melakukan komunikasi dengan DNS (Domain Name Server) dan meminta alamat IP dari kamu.com. 5. Setelah IP didapatkan, SMTP server aku.com berkomunikasi dengan STMP server kamu.com menggunakan port 25, dengan cara yang persisi sama yang dilakukan antara client dengan SMTP server aku.com. 6. Setelah pesan masuk ke mesin server kamu.com, pengguna kamu@kamu.comdapat melihat pesan , entah dengan POP3 maupun dengan IMAP.

9 B. POP3 Server Hal yang terjadi pada POP3 Server sebenarnya sangatlah sederhana, yaitu hanya mengumpulkan yang masuk saja, dan mengirimkannya melewati port 110 ke komputer client jika client meminta - tersebut. Untuk melihat maupun mengambil dengan menggunakan POP3 maupun web based , diperlukan username dan password agar tidak sembarang orang dapat melihat tersebut. 2.2 Klasifikasi Kategorisasi teks (atau klasifikasi teks) adalah suatu proses yang mengelompokkan suatu teks ke dalam suatu kategori tertentu (Sebastiani, 2002).Kategorisasi teks merupakan solusi yang tepat untuk mengelola informasi yang saat ini berkembang dengan sangat cepat dan melimpah. Kategorisasi teks membuat pengelolaan informasi tersebut menjadi efektif dan efisien (Chenometh, 2009).Lebih mudah kalau dokumen dikelompokkan menjadi beberapa bagian misalnya dua kelas, yaitu dokumen tentang multicore computer chips dan dokumen bukan tentang multicore computer chips. Kelas biasanya merujuk ke topic dokumen. Prosesnya sering disebut sebagai text classification, text categorization, topic classification, topic spotting. Dokumen yang digunakan untuk pembelajaran dinamakan contoh (sample atau trainingdata set) yang dideskripsikan oleh himpunan atribut atau variabel. Salah satu atribut mendeskripsikan kelas yang diikuti oleh suatu contoh, hingga disebut atribut kelas.atribut lain dinamakan atribut independen atau predictor. Klasifikasi termasuk pembelajaran jenis supervised learning. Jenis lain adalah unsupervised learning atau dikenal sebagai clustering. Pada supervised learning, data latihan mengandung pasangan data input (biasanya vektor) dan output yang diharapkan, sedangkan pada unsupervised learning belum ditentukan target output yang harus diperoleh. Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu (Mahinovs, 2007) : 1.Fase information retrieval (IR) untuk mendapatkan data numerik dari dokumen teks.

10 Langkah pertama yang dilakukan pada fase ini adalah feature extraction. Pendekatan yang umum digunakan adalah distribusi frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tdak ada (biner), atau jumlah kemunculan kata pada awal dokumen. Fitur yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus stop-words, stemming, dan statistical filtering. Teknik lebih lanjut seperti SVD dan genetic algorithm akan menghasilkan vector berdimensi lebih rendah. 2. Fase klasifikasi utama. Suatu algoritma memproses data numerik di atas untuk memutuskan ke kategori mana teks baru (bukan contoh) ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan pada fase ini, di antaranya adalah naïve Bayesian, Rocchio, Decision Tree, k-nearest Neighbor (k-nn), Neural Network (NN), dan Support Vector Machines (SVM). Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari. K-NN dan SVM merupakan algoritma yang memberikan hasil klasifikasi terbaik dengan presisi di atas 85% (Kaiser,et all, 2005). 2.3 Text Mining Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku The Text mining Handbook, Text Mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen komponen dalam data mining yang salah satunya adalah peringkatan dokumen (Ali, 2006). Tujuan dari Text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi sumber data yang digunakan pada Text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari Text mining antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks (text clustering). Text mining biasa dianggap subjek riset yang tergolong baru. Text mining dapat memberikan solusi dari permasalahan seperti pemrosesan, pengorganisasian/ pengelompokan dan

11 menganalisa unstructured text dalam jumlah besar. Dalam memberikan solusi, text mining mengadopsi dan mengembangkan banyak teknik dari bidang lain, seperti Data mining, Information retrieval, Statistik dan Matematik, Machine Learning, Linguistic, Natural Languange Processing, dan Visualization. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan text, preprocessing akan konten text, pengumpulan data statistic dan indexing dan analisa konten. 2.4 Ekstrasi Dokumen Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap pre-procecing yang dilakukan secara umum dalam text mining pada dokumen,yaitu case folding, tokenizing, filtering, stemming, analyzing ( Manning, 2008 ) seperti yang ditunjukkan pada gambar 2.6 Case Folding Tokenizing Filtering Stemming Analyzing Gambar 2.6 Proses Pre-Proccecing Text

12 a. Case Folding dan Tokenizing Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Tahap tokenizing / parsing adlah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut dapat dilihat pada gambar 2.7 Dalam manajemen pengetahuan terdapat transfer pengetahuan logisitic yang dikatakan Sutarno Teks input dalam manajemen pengetahuan terdapat transfer pengetahuan Teks output Gambar 2.7 Proses Case folding dan tokenizing b. Filtering Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata yang penting). Stoplist / stopword adalah katakata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words ( Porter,et all, 1980). Contoh stopwords adalah yang, dan, di, dari dan seterusnya. Contoh dari tahapan ini dapat dilihat pada Gambar 2.8. dalam manajemen pengetahuan terdapat transfer pengetahuan Gambar Gambar 2.8 Proses Filtering manajemen pengetahuan Hasil Filter transfer pengetahuan

13 c. Stemming Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering (Cios, 2007). Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Contoh dari tahap ini dapat dilihat pada Gambar 2.9 Dikatakan Kata contoh lain Contoh lain membela bela menguatnya menguat dibandingkan Hasil Filtering Gambar 2.9 Proses Stemming Hasil Stemming Dalam bahasa Indonesia, afiks/imbuhan terdiri dari sufiks (akhiran), infiks (sisipan), dan prefiks (awalan). Karena proses penambahan infiks dalam bahasa Indonesia jarang terjadi maka proses stemming yang akan dibangun hanya mengenai kata yang megalami penambahan prefiks dan sufiks. d. Analyzing Tahap analisa merupakan tahap penentuan seberapa jauh keterhubungan antar katakata antar dokumen yang ada. Dalam tahap analisa ini adalah proses pembobotan dokumen terhadap kata kunci yang dimasukkan. Banyak aplikasi menerapkan pembobotan kombinasi berupa perkalian bobot local term frequency dan global inverse document frequency, ditulis tf.id,f 2.5 Model Ruang Vector Proses system IR, kemiripan antar dokumen didefinisikan berdasarkan representasi bag-of-words dan dikonversi ke suatu model ruang vector (vector space model, VSM). Model ini diperkenalkan oleh Salton ( Salton, 1983) dan telah digunakan secara luas. Pada VSM, setiap dokumen di dalam database dan query pengguna

14 direpresentasikan oleh suatu vector multi dimensi ( Polettiny, 2004). Dimensi sesuai dengan jumlah term dalam dokumen yang terlibat. Pada model ini: ~ Vocabulary merupakan kumpulan semua term berbeda yang tersisa dari dokumen setelah preprocessing dan mengandung t term index. Term-term ini membentuk suatu ruang vector. ~ Setiap term i di dalam dokumen atau query j, diberikan suatu bobot (weight) bernilai real Wij ~ Dokomen dan query diekpresikan sebagai vector t dimensi dj = (w1, w2,..., wtj) dan terdapat n dokumen di dalam koleksi, yaitu j = 1, 2, n Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D1 dan D2, satu query pengguna Q1, dan tiga term T1, T2 dan T3 ( Cios, 2007) diperlihatkan pada gambar Dalam model ruang vektor, koleksi dokumen direpresentasikan oleh matriks termdocument (atau matriks term-frequency). Setiap sel dalam matriks bersesuaian dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol berarti bahwa term tersebut tidak hadir di dalam dokumen (Cios, 2007). Gambar 2.11 mempertegas penjelasan ini. Gambar 2.10 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta query Q1

15 T1 T2 Tt D1 W11 W21 wt1 D2 W12 W22 wt2 Dn W1n W2n Wtn Gambar 2.11 Contoh matriks term-document untuk database dengan n dokumen dan t term Keberhasilan dari model VSM ini ditentukan oleh skema pembobotan terhadap suatu term baik untuk cakupan lokal maupun global, dan faktor normalisasi (Poletinny, 2004). Pembobotan lokal hanya berpedoman pada frekuensi munculnya term dalam suatu dokumen dan tidak melihat frekuensi kemunculan term tersebut di dalam dokumen lainnya. Pendekatan dalam pembobotan lokal yang paling banyak diterapkan adalah term-frequency (tf) meskipun terdapat skema lain seperti pembobotan biner, augmented normalized tf, logaritmik tf dan logaritmik alternatif. Pembobotan global digunakan untuk memberikan tekanan terhadap term yang mengakibatkan perbedaan dan berdasarkan pada penyebaran dari term tertentu di seluruh dokumen. Banyak skema didasarkan pada pertimbangan bahwa semakin jarang suatu term muncul di dalam total koleksi maka term tersebut menjadi semakin berbeda. Pemanfaatan pembobotan ini dapat menghilangkan kebutuhan stop word removal karena stop word mempunyai bobot global yang sangat kecil. Namun pada prakteknya lebih baik menghilangkan stop word di dalam fase pre-processing sehingga semakin sedikit term yang harus ditangani. Pendekatan terhadap pembobotan global mencakup inverse document frequency (idf), squared idf, probabilistic idf, GFidf, entropy.pendekatan idf merupakan pembobotan yang paling banyak digunakan

16 saat ini. Beberapa aplikasi tidak melibatkan bobot global, hanya memperhatikan tf, yaitu ketika tf sangat kecil atau saat diperlukan penekanan terhadap frekuensi term di dalam suatu dokumen. Faktor normalisasi digunakan untuk menormalkan vektor dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari dokumen. Normalisasi ini diperlukan karena dokumen panjang biasanya mengandung perulangan term yang sama sehingga menaikkan frekuensi term (tf). Dokumen panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen tersebut, meningkatkan peluang di-retrievenya dokumen yang lebih panjang. Beberapa pendekatan normalisasi adalah normalisasi cosinus, penjumlahan bobot, normalisasi ke-4, normalisasi bobot maksimal dan normalisasi pivoted unique. Bobot local suatu term i didalam dokumen j (tfij) dapat didefinisikan sebagai: Dimana fij adalah jumlah berapa kali term i muncul di dalam dokumen j. Frekuensi tersebut dinormalisasi dengan frekuensi dari most common term di dalam dokumen tersebut. Bobot global dari suatu term i pada pendekatan inverse document frequency (idfi) dapat didefinisikan sebagai Dimana dfi adalah frekuensi dokumen dari term i dan sama dengan jumlah dokumen yang mengandung term i. Log2 digunakan untuk memperkecil pengaruhnya relative terhadap tfij. Bobot dari term i di dalam sistem IR (wij) dihitung menggunakan ukuran tf-idf yang didefinisikan sebagai berikut :

17 Bobot tertinggi diberikan kepada term yang muncul sering kali dalam dokumen j tetapi jarang dalam dokumen lain. Gambar 2.12 memperlihatkan proses perhitungan bobot tfidf bagi suatu dokumen yang menyertakan kalimat data cube contains x data dimension, y data dimension, and z data dimension (Cios, 2007). Gambar 2.12 Contoh perhitungan bobot tf-idf 2.6 Ukuran Kemiripan Model ruang vektor dan pembobotan tf-idf digunakan untuk merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu VSM maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar dokumen dihitung menggunakan suatu fungsi ukuran kemiripan (similarity measure). Ukuran ini memungkinkan perankingan dokumen sesuai dengan kemiripan (relevansi)nya terhadap query. Setelah dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada pengguna. Pada algoritma vector space model gunakan rumus untuk mencari nilai cosines sudut antara dua vector dari setiap bobot dokumen (WD) dan bobot kata kunci (WK). Rumus yang digunakan adalah sebagai berikut (Cios, 2007):

18 CosSim(d j.q) = 2.7 Pemrograman Visual Basic Visual Basic adalah salah satu bahasa pemrograman komputer. Bahasa pemrograman adalah perintah perintah yang dimengerti oleh komputer untuk melakukan tugas-tugas tertentu. Bahasa pemrograman Visual Basic, yang dikembangkan oleh Microsoft sejak tahun 1991, merupakan pengembangan dari pendahulunya yaitu bahasa pemrograman BASIC (Beginner s All-purpose Symbolic Instruction Code) yang dikembangkan pada era 1950-an. Visual Basic merupakan salah satu Development Tool yaitu alat bantu untuk membuat berbagai macam program komputer, khususnya yang menggunakan sistem operasi Windows. Visual Basic merupakan salah satu bahasa pemrograman komputer yang mendukung object (Object Oriented rogramming OOP).

19 2.7 Penelitian sebelumnya Proses filtering sudah ada dilakukan sebelumnya untuk penelitian antara lain : No Nama Tahun Judul Penelitian Kelebihan Kelemahan Terkadang Metode Bayesian terblokir atau Miftah dapat menyaring Pendeteksian Surat terhapus suatu Andriansyah yang tidak elektronik mail yang 1 dan Adang 2007 diinginkan menggunakan filter ternyata bukan Suhendra dengan tingkat Bayesian tergolong keakuratan lebih spam. dari 95% Gateway merupakan solusi 2 Rifki Primarta dan Sukemi 2008 Proteksi Mail Server Dari Spam Dan Virus Menggunakan Untangle Gateway jaringan berbasis open source yang telah terintegrasi dengan modulmodul untuk Tidak tersedia. memfilter 3 Khairil Anwar, Aris Sugiharto dan Priyo Sidik Sasongko 2010 Analisa Perbandingan Algoritma SVM, NAIVE BAYES, DAN DECISION TREE Dalam Mengklasifikasi Serangan(ATTACKS) Kinerja algoritma decision tree lebih baik dibandingkan dengan algoritma SVM dan NBC Tidak tersedia.. Tabel 2.3 Penelitian sebelumnya