negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1.
|
|
|
- Hadi Lesmana
- 8 tahun lalu
- Tontonan:
Transkripsi
1 negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1. Tabel 1 Tabel kontingensi kelas hasil prediksi dan kelas sebenarnya Kelas Sebenarnya Spam Kelas Prediksi Ham Spam TP FN Ham FP TN Hasil positive merujuk pada yang diprediksikan masuk ke dalam kategori spam dan hasil negative merujuk pada yang diprediksikan masuk ke dalam kategori ham oleh spam filter. Keterangan selengkapnya adalah sebagai berikut: True Positive (TP), yaitu dari kelas spam yang benar diklasifikasikan sebagai spam. True Negative (TN), yaitu dari kelas ham yang benar diklasifikasikan sebagai ham. False Positive (FP), yaitu dari kelas ham yang salah diklasifikasikan sebagai spam. False Negatif (FN), yaitu dari kelas spam yang salah diklasifikasikan sebagai ham. Selanjutnya, kinerja masing-masing metode dievaluasi dengan melihat nilai dari spam recall dan ham recall-nya. Spam recall adalah proporsi dari pesan spam yang berhasil diblok oleh filter, sedangkan ham recall menunjukkan proporsi dari pesan ham yang dilewatkan oleh filter (Metsis et al. 2006). Nilai dari Spam Recall dihitung dengan membandingkan jumlah spam yang benar diklasifikasikan sebagai spam (true positive) dengan jumlah seluruh spam yang tedapat pada data uji yaitu: Spam Recall = TP TP + FN dengan cara yang sama, nilai dari ham recall dapat dihitung dengan cara: Ham Recall = TN TN + FP Analisis Kesalahan Klasifikasi Setelah pengujian untuk metode training dan metode klasifikasi selesai dilakukan, penelitian selanjutnya berfokus pada analisis kesalahan klasifikasi. Pesan-pesan yang gagal diklasifikasikan ke dalam kelas yang benar diteliti lebih lanjut untuk dicari penyebab kegagalan klasifikasinya. Lingkungan Pengujian Perangkat lunak yang digunakan dalam pengujian sebagai berikut: Sistem Operasi Windows 7. Bahasa pemrograman PHP versi EzMailParser dari EzComponent sebagai library yang digunakan untuk membaca struktur . Web Server Apache Sementara itu, perangkat keras yang digunakan untuk pengujian adalah: Prosesor intel core i5 M450 pada kecepatan 2.4Ghz. Memory DDR3 sebesar 2GB. Untuk mempercepat proses pengujian, data hasil training disimpan langsung dalam memori. Data hasil pengujian di-serialize lalu disimpan ke dalam file teks untuk digunakan dalam tahap analisis kesalahan klasifikasi. HASIL DAN PEMBAHASAN Pengumpulan Data Korpus yang digunakan pada penelitian ini adalah public corpus yang disediakan oleh Spamassasin dengan kode prefix Korpus ini terdiri atas pesan yang sudah diklasifikasikan sebelumnya secara manual dengan komposisi: easy-ham, yaitu pesan ham yang dapat dibedakan dengan mudah dari pesan spam karena tidak banyak mengandung ciri-ciri yang dimiliki oleh pesan spam. 250 hard-ham, yaitu pesan bertipe ham namun mengandung cukup banyak feature yang biasa terdapat pada pesan spam sehingga agak sulit diklasifikasikan spam, yaitu pesan yang masuk dalam kategori spam. Pesan yang memiliki label easy-ham dan hard-ham tidak dibedakan secara khusus dan digabungkan ke dalam satu kategori yaitu ham. Dengan demikian, data yang 3 Korpus dari Spamassasin dapat diunduh di alamat 7
2 digunakan untuk penelitian mengandung spam sebanyak 31%. Detail Proses Pengujian Pengujian kinerja metode klasifikasi dilakukan dengan metode training TEFT dan TOE sementara proses pengujian metode training dilakukan dengan menggunakan metode Graham. Langkah pengujian yang dilakukan adalah sebagai berikut: Data uji yang digunakan berjumlah dengan proporsi spam sebesar 31%. Data uji ini diacak sebanyak sepuluh kali lalu dicatat ukuran pembacaannya. Pengukuran kinerja dilakukan dengan melihat akurasi pada saat pemrosesan 750 data terakhir. Karena pengujian dilakukan sebanyak sepuluh kali pengulangan, data awal jumlah kesalahan klasifikasi yang ditampilkan adalah jumlah kesalahan per kali uji. Perbandingan jumlah spam dan ham untuk data testing pada masing-masing acakan dapat dilihat pada Tabel 2. Tabel 2 Acakan Ke Proporsi pesan spam untuk masingmasing acakan pengujian Jumlah Ham Jumlah Spam Persen Spam , , , , , , , , , ,86 Jumlah ,32 Pemrosesan Dokumen Untuk fase training dan fase testing, setiap diproses dengan teknik yang sama. Pemrosesan yang dilakukan terdiri atas empat tahap yaitu dekomposisi struktur , pemilihan atribut, penyeragaman sistem karakter, dan tokenisasi. 1. Dekomposisi Struktur Tahap pemrosesan dokumen yang pertama adalah dekomposisi struktur . yang hendak diproses dipecah menjadi bagianbagian yang lebih kecil. Tahapan ini diperlukan karena masing-masing komponen akan diolah secara berbeda pada saat dilakukan proses tokenisasi. Secara garis besar, tahapan dekomposisi yang dilakukan sebagai berikut: dipecah ke dalam dua bagian utama yaitu header dan body. Komponen header dipecah lagi menjadi komponen-komponen yang lebih kecil sesuai dengan informasi yang dikandungnya. Untuk komponen body, pesan yang terdiri atas beberapa part akan digabungkan menjadi satu. Jika pada terdapat attachment, hanya informasi nama file dan jenisnya yang disertakan. Berdasarkan hasil pengamatan saat dilakukan proses tahap pertama ini, terlihat bahwa dari kelas spam terkadang memiliki infomasi header yang salah ataupun rusak. Sebagai contoh, pada beberapa , informasi waktu pengiriman ditulis dengan format di luar standar atau waktu yang dipastikan salah, contoh tahun Saat ini belum dapat disimpulkan apakah kesalahan penulisan header tersebut merupakan suatu kesengajaan atau bukan. Bagaimanapun, kesalahan seperti ini sangat jarang ditemukan pada ham. Untuk bagian body, mayoritas dari kelas ham hanya menggunakan satu part saja. Lain halnya dengan dari kelas spam dimana dengan body multipart bukanlah hal yang jarang ditemui. 2. Pemilihan Atribut Setelah dipecah menjadi komponenkomponen yang lebih kecil, tahapan selanjutnya adalah pemilihan komponen yang akan disertakan ke dalam proses klasifikasi. Tahapan ini berlaku terutama untuk bagian header dari . Tidak semua komponen dari header dimasukkan ke dalam klasifikasi. Hal ini dilakukan karena terdapat beberapa informasi pada header yang telah mengalami kerusakan 8
3 ataupun telah diubah sebelumnya oleh pihak Spamassasin 4 sebagai penyedia data. Selain itu, terdapat komponen header yang hanya muncul di sebagian kecil dokumen saja. Komponen-komponen tersebut adalah informasi tambahan yang biasanya disertakan oleh client atau Mail Transfer Agent yang dilalui oleh sebelum sampai ke tujuan. Untuk bagian body, - yang dipecah ke dalam beberapa part akan digabungkan menjadi satu. Seluruh metadata yang terkandung dalam setiap part ikut disertakan pada proses klasifikasi. Metadata tersebut berguna untuk menglasifikasikan yang hanya berisi attachment saja atau yang terdiri atas beberapa part. Komponen header yang disertakan dalam proses klasifikasi serta informasi yang terkandung di dalamnya dapat dilihat pada Tabel 3. Tabel 3 Nama subject Komponen header yang disertakan dalam proses klasifikasi Keterangan Subjek dari pesan. sender Nama dan alamat pengirim pesan. return-path Alamat pengembalian pesan jika terjadi bouncing 5. x-mailer reply-to contenttransferencoding Aplikasi yang digunakan oleh pengguna untuk mengirimkan pesan. Alamat yang digunakan untuk membalas pesan. Metode content transfer encoding yang digunakan jika ada. 3. Penyeragaman Sistem Karakter Tahapan pemrosesan selanjutnya adalah penyeragaman sistem karakter yaitu encoding dan character set yang digunakan. pada data uji memiliki sistem encoding dan character set yang berbeda-beda. Perbedaan tersebut terutama terlihat pada bagian subject, nama pengirim, dan isi utamanya. Hal tersebut disebabkan oleh perbedaan sistem yang digunakan oleh pengirim. Penggunaan sistem encoding khusus kadang dilakukan dengan sengaja oleh pengirim spam dengan tujuan mempersulit pemrosesan oleh spam filter. Secara garis besar, terdapat dua jenis encoding yang digunakan oleh Encoding dan Character Set yang digunakan untuk penulisan karakterkarakter pada seperti UTF-8 dan latin1. Content-Transfer-Encoding yaitu sistem encoding yang digunakan khusus untuk mengirimkan data binary dalam format 7bit ASCII text. Untuk menghindari kesalahan pembacaan terutama saat proses tokenisasi, dilakukan penyeragaman sistem encoding dan characterset yang digunakan menjadi UTF-8. Jika menggunakan content-transferencoding tertentu seperti Base64 encoding atau Quote-printable, isinya akan dikonversi terlebih dahulu menjadi data aslinya. Jika data aslinya ternyata berbentuk file binary, isi dari file yang dihasilkan tidak disertakan, namun informasi jenis file yang dikandung (jika ada) akan ikut disertakan ke dalam klasifikasi. Dari hasil pengamatan, dapat disimpulkan bahwa penggunaan encoding dapat menjadi penciri yang baik dalam membedakan dari kelas ham dengan dari kelas spam. - yang tidak bersalah atau ham cenderung menggunakan sistem karakter encoding yang seragam atau sejenis seperti latin1 dan ISO untuk orang yang mayoritas nya berbahasa Inggris atau bahasa lain yang menggunakan karakter latin. Sementara itu di kelas spam, sistem encoding yang digunakan cenderung lebih bervariasi tergantung dari asal pengirimnya. Seringkali dari kelas spam mencantumkan informasi encoding yang salah atau tidak standar. Sebagai contoh, sistem encoding ks_c_ hanya ditemukan pada spam. Selain sistem encoding untuk karakter, penggunaan content-transfer-encoding juga dapat membantu proses pengenalan spam. Dari hasil pengamatan pada data, hanya - dari kelas spam yang menggunakan content-transfer-encoding 4 Perubahan ini dilakukan terutama pada alamat penerima dan jalur server yang dilalui oleh . 5 Kondisi dimana alamat penerima tidak ditemukan. 6 Encoding ini banyak ditemukan pada spam yang menggunakan karakter Korea. Encoding yang benar untuk karakter korea adalah EU-KR. 9
4 khusus seperti Base64 maupun Quoteprintable. Pada beberapa kasus, yang menggunakan content-transfer-encoding Base64 tidak dapat dikonversikan isinya karena terdapat kerusakan atau miss pada rangkaian karakter hasil encoding-nya. Pada kasus tersebut, proses pengklasifikasian hanya dapat mengandalkan informasi yang terdapat pada header dan metadata yang disertakan. 4. Tokenisasi Tahapan terakhir dari pemrosesan adalah tokenisasi. Tokenisasi adalah proses memotong teks menjadi bagian-bagian yang disebut dengan token. Selain pemotongan, tokenisasi juga mungkin diikuti dengan proses pembuangan karakter-karakter tertentu (Manning et al. 2008). Proses tokenisasi dilakukan sebagai berikut: Teks dipotong menjadi token-token. Karakter yang dianggap sebagai karakter pemisah token didefinisikan dengan ekspresi regular berikut: Token yang hanya terdiri atas karakter numerik saja tidak ikut disertakan. Besar kecilnya karakter dari token (case) dipertahankan. Tidak dilakukan penyeragaman. Karakter khusus yang menempel pada token dan tidak termasuk ke dalam karakter pemisah token juga dipertahankan. Karakter ~, dan! yang menempel di awal token dibuang. Karakter # dan $ yang menempel di akhir token dibuang. Jika yang sedang dibaca mengandung tag HTML, seluruh tag yang ditemukan akan ikut diproses termasuk attribute yang terdapat di dalamnya. Tag komentar HTML tidak akan diproses sama sekali dan dibuang terlebih dahulu sebelum keseluruhan proses tokenisasi dimulai. Khusus untuk URL (Uniform Resources Locator), proses tokenisasi dilakukan sebelum proses tokenisasi pada body atau komponen header dilakukan. Keberadaan URL pada masing-masing komponen akan diperiksa terlebih dahulu. Jika ternyata ada, URL akan diekstrak dari teks dan ditokenisasi seperti aturan di atas. Perbedaannya, tokentoken yang dihasilkan akan diberi prefix URL* untuk menandai bahwa token tersebut berasal dari suatu URL dan tidak bercampur dengan token-token biasa. Proses ini disebut dengan proses optimasi URL dan diduga dapat meningkatkan kinerja dari spam filter (Graham 2002). Untuk komponen header, token-token yang dihasilkan akan diberi prefix khusus (seperti halnya pada URL) untuk membedakannya dengan token biasa yang terdapat pada body. Sebagai contoh, jika suatu memiliki subject Hello There, maka token-token yang terdapat pada subjek tersebut akan ditokenisasi menjadi SUBJECT*Hello dan SUBJECT*There. Berdasarkan hasil pengamatan mayoritas yang mengandung tag HTML adalah spam. Kode-kode warna seperti #FF0000 hanya ditemukan pada spam. Begitu pula dengan alamat URL, hampir seluruh pesan spam yang ada pada data uji mencantumkan informasi URL untuk dikunjungi oleh penerima. Hasil Pengujian Metode Training 1. Tingkat Akurasi Pengujian metode training dilakukan dengan cara memasangkan kedua metode tersebut pada spam filter yang menggunakan metode klasifikasi NB Graham. Pada metode TEFT, seluruh yang dibaca akan di-training ke dalam kelas yang benar setelah hasil dari klasifikasi diperoleh. Proses training ini dilakukan tanpa mempedulikan apakah hasil klasifikasinya benar atau salah. Pada metode TOE, proses training hanya akan dilakukan jika terjadi kesalahan klasifikasi. Jumlah False Positive dan False Negative per kali pengujian beserta Ham Recall dan Spam Recall dapat dilihat pada Tabel 4. Tabel 4 Hasil pengujian metode training menggunakan teknik klasifikasi Graham TEFT TOE False Positive False Negative Spam Recall 0,9786 0,9714 Ham Recall 0,9856 0,
5 Grafik perbandingan nilai spam recall dan ham recall dari kedua metode training dapat dilihat pada Gambar 1. Gambar 1 Hasil pengujian metode training. Hasil pengujian menggunakan metode NB Graham menunjukkan metode training TEFT memiliki tingkat akurasi yang lebih tinggi dibandingkan dengan metode training TOE. Perbedaan akurasi tersebut disebabkan oleh lebih banyaknya proses training yang dilakukan oleh metode TEFT dibandingkan dengan metode TOE. Proses training yang lebih banyak membuat metode TEFT menyimpan informasi yang lebih akurat mengenai karakteristik token-token dari kelas spam maupun ham dalam data hasil training-nya. Untuk spam recall, perbedaan nilainya hanya sebesar 0,0072, namun untuk ham recall perbedaan nilai antara kedua metode training tersebut cukup tinggi yaitu 0,0777. Nilai ham recall berhubungan dengan tingkat false positive. Pada spam filter, cost dari false positive lebih tinggi dibandingkan dengan cost dari false negative. Berdasarkan petimbangan tersebut perbedaan tingkat akurasi ini cukup signifikan untuk dipertimbangkan. Perlu diperhatikan bahwa pada sistem yang sebenarnya koreksi hasil klasifikasi tidak dilakukan seketika seperti pada pengujian ini. Kelas yang benar dari setiap tidak akan diketahui oleh sistem kecuali pengguna melakukan koreksi. Untuk itu baik TEFT maupun TOE akan mengasumsikan bahwa hasil klasifikasi dari sistem merupakan hasil yang benar. Hal ini akan berpengaruh terhadap proses klasifikasi terutama pada TEFT. Pada metode TEFT, setiap yang masuk akan di-training sebagai data untuk kelas yang dianggap benar oleh sistem tersebut. Jika ternyata terjadi kesalahan pada hasil klasifikasi sistem, proses penilaian pesan selanjutnya akan ikut dipengaruhi oleh data training yang sudah terlanjur dimasukkan ke dalam kelas yang salah tersebut. 2. Waktu Pelatihan Karena proses training dilakukan untuk seluruh yang masuk, TEFT membutuhkan waktu pengujian lebih lama dibandingkan dengan TOE. Hasil pengujian menunjukkan TEFT menghabiskan waktu sekitar 18% lebih lama dibandingkan dengan TOE. Dengan demikian, meskipun TOE memiliki tingkat akurasi yang lebih rendah dibandingkan dengan TEFT, waktu pemrosesan yang dilakukan oleh TOE lebih sebentar. Perbedaan waktu antara kedua metode training ini dapat dibandingkan dengan perbedaan spam recall dan ham recall-nya untuk mengetahui seberapa besar peningkatan kinerja yang didapat untuk setiap tambahan waktu proses. Untuk spam recall, peningkatan kinerja per satuan waktu GS dapat dihitung dengan cara: GS = SR TOE SR TEFT DW dengan SR adalah nilai spam recall dan DW adalah persentase perbedaan waktu yang dihabiskan oleh kedua metode training. Dengan cara yang sama, peningkatan ham recall GH untuk masing-masing metode training dapat dihitung dengan cara: GH = HR TOE HR TEFT DW dengan HR adalah nilai ham recall untuk masing-masing metode training. Mengganti metode training TOE menjadi TEFT sama halnya dengan menggunakan metode training yang lebih lambat untuk mendapatkan peningkatan akurasi. Dengan perhitungan di atas, didapat bahwa penggunaan metode TEFT dibandingkan dengan TOE akan meningkatkan spam recall (GS) sebesar 0,0004 atau 0,04% untuk setiap 1% penambahan waktunya. Sementara untuk ham recall, peningkatan akurasi yang didapatkan adalah sebesar 0,0043 atau 0,43% untuk setiap 1% penambahan waktunya. Perlu diperhatikan bahwa pada sistem yang sebenarnya data hasil training disimpan dalam file atau database dan yang harus diproses bisa menjadi sangat banyak. Oleh 11
6 karena itu, baik perbedaan waktu maupun perbedaan akurasi antara TOE dan TEFT bisa menjadi sangat signifikan. Metode training mana yang lebih baik harus disesuaikan dengan lingkungan implementasinya. Jika waktu dan resource yang dibutuhkan untuk proses training termasuk dalam faktor yang cukup dipertimbangkan, TOE yang hanya melakukan proses training seperlunya memiliki keunggulan tersendiri dibandingkan dengan TEFT dalam hal penggunaan resources. Hasil Pengujian Metode Klasifikasi Proses pengujian metode klasifikasi dilakukan dengan menggunakan mode training TEFT. Jumlah false positive dan false negative per kali pengujian beserta nilai ham recall dan spam recall dapat dilihat pada Tabel 5. Gambar 2 Hasil pengujian metode klasifikasi menggunakan metode training TEFT. Tabel 6 Hasil pengujian metode klasifikasi dengan mode training TOE Tabel 5 Hasil pengujian metode klasifikasi dengan metode training TEFT NB Graham NB Multinomial NB Graham NB Multinomial False Positive False Negative Spam Recall 0,9786 0,9615 Ham Recall 0,9714 0,9864 Grafik perbandingan nilai spam recall dan ham recall dari pengujian kedua metode klasifikasi menggunakan metode training TEFT dapat dilihat pada Gambar 2. Hasil pengujian menggunakan mode training TEFT menunjukkan bahwa metode NB Graham memiliki spam recall lebih tinggi daripada metode NB Multinomial dengan perbedaan nilai sebesar 0,0171. Hasil sebaliknya terlihat pada ham recall dimana metode NB Multinomial memiliki nilai yang lebih tinggi dengan perbedaan nilai sebesar 0,0150. Pada pengujian selanjutnya dengan menggunakan metode training TOE, hasil yang diperoleh ternyata sedikit berbeda seperti yang dapat dilihat pada Tabel 6. False Positive False Negative Spam Recall 0,9714 0,9765 Ham Recall 0,9079 0,9773 Grafik perbandingan nilai spam recall dan ham recall dari pengujian kedua metode klasifikasi menggunakan metode training TOE dapat dilihat pada Gambar 3. Gambar 3 Hasil pengujian metode klasifikasi menggunakan metode training TOE. Pengujian dengan metode training TOE menunjukkan bahwa metode klasifikasi NB Multinomial memiliki spam recall dan ham 12
7 recall yang lebih tinggi dibandingkan dengan metode NB Graham dengan perbedaan masing-masing sebesar 0,0051 dan 0,0694. Sementara nilai hasil pengujian yang lain menurun pada saat digunakan metode TOE, hasil yang berbeda terlihat pada tingkat spam recall. NB Multinomial yang dipasangkan dengan metode training TOE ternyata menghasilkan nilai spam recall yang lebih baik dibandingkan dengan saat dipasangkan pada metode training TEFT. 1. Analisis Kesalahan Pengenalan Ham (False Positive) Meskipun dalam proses klasifikasinya metode NB Graham mengalikan jumlah kemunculan token pada kelas ham dengan faktor dua, ternyata tingkat ham recall-nya masih lebih rendah dibandingkan dengan ham recall dari metode NB Multinomial. Pada saat pengujian dengan metode training TOE, jumlah false postive yang dihasilkan metode Graham bahkan mencapai empat kali lipat dari jumlah false positive NB Multinomial. Lebih rendahnya ham recall dari metode NB Graham disebabkan oleh pemberian nilai 0,99 untuk token yang hanya pernah muncul di kelas spam. Dalam menentukan hasil klasifikasi, metode NB Graham hanya menggunakan lima belas token yang paling signifikan saja. Seberapa signifikan suatu token dilihat dengan melihat selisih nilai peluang token tersebut dengan nilai peluang netral 0,5. Jika dari kelas ham mengandung token-token yang hanya muncul di kelas spam saja, proses klasifikasi akan didominasi oleh token-token spam karena token dengan peluang 0,99 memiliki selisih yang tinggi dari peluang netral 0,5. Walaupun demikian, false positive juga cukup banyak terjadi pada metode NB multinomial. Selanjutnya akan dibahas karakteristik-karakteristik yang menyebabkan false positive. a. ham yang mengandung tag HTML Jenis pertama ham yang salah diklasifikasikan adalah yang mengandung token-token berpeluang spam tinggi seperti tag HTML beserta atributnya. Karakteristik seperti ini banyak ditemukan pada yang berjenis newsletter. Karena data uji yang digunakan tidak memiliki newsletter dalam jumlah yang cukup, tokentoken ham pada tersebut tidak memiliki nilai P am w yang signifikan untuk mengimbangi token-token spam yang ada. Akibatnya, terjadi false positive dalam proses filtering yang dilakukan. Walaupun hal ini juga akan menjadi masalah bagi NB multinomial, metode Graham akan terkena dampak yang cenderung lebih besar. Hal ini disebabkan oleh cara kerja metode Graham yang hanya memilih 15 token paling signifikan (paling jauh nilai dari peluang netral 0,5). Meski token spam yang ditemukan hanya berjumlah beberapa buah, nilai P spam w yang tinggi akan mengakibatkan peringkat token tersebut merangkak naik sampai menembus peringkat 15 besar. Jika kondisi ini tidak diikuti dengan keberadaan token-token dengan nilai P am w yang juga tinggi, proses klasifikasi akan didominasi oleh token-token spam tersebut. Solusi yang dapat digunakan untuk mengatasi persoalan ini adalah pemilihan tag HTML yang dicatat pada saat training. Menurut Zdziarski (2005), tag HTML yang terlalu umum seperti table, tr, td, div,dan p tidak perlu ikut dicatat kemunculannya. Dengan demikian, ham yang kebetulan memang menggunakan tag HTML tidak akan langsung dianggap sebagai spam. b. Newsletter resmi yang memiliki isi bertema promosi. Selain pengaruh tag HTML, false positive juga banyak dipengaruhi oleh isi dari nya itu sendiri. Meskipun newsletter dikirimkan dengan seizin penerimanya, isi dari newsletter tersebut seringkali berbau promosi dan menggunakan kata-kata yang digunakan pada spam. Pada kasus seperti ini, baik metode Graham maupun metode NB multinomial sama-sama mengalami kesulitan dalam menentukan kelas yang benar. c. ham yang memiliki beberapa format alternative. Jenis ham selanjutnya yang seringkali salah diklasifikasi adalah yang menggunakan format multipartalternative. Format ini memungkinkan dikirimkan dalam beberapa versi sekaligus. Sebagai contoh, jika aplikasi client memiliki kapabilitas untuk membaca dokumen HTML, maka akan ditampilkan versi yang menggunakan tag HTML. Namun jika tidak, akan ditampilkan versi yang hanya menggunakan teks biasa. 13
8 Karena cara kerja library pembaca yang menggabungkan multipart menjadi satu, versi alternative yang biasanya banyak mengandung tag HTML ikut terbawa. Pada akhirnya, timbul masalah yang sama dengan - bertipe newsletter. d. Kesalahan Lain Selain beberapa poin yang sudah disebutkan di atas, terdapat beberapa faktor lain yang menyebabkan false positive meskipun tidak dalam jumlah banyak. yang menggunakan token berhuruf kapital dalam jumlah banyak, seperti berisi peringatan cuaca buruk, kadang salah diklasifikasikan sebagai spam karena kata-kata dalam huruf kapital banyak ditemukan pada spam. yang dikirimkan oleh aplikasi auto-responder beberapa kali salah diklasifikasikan sebagai spam karena isinya yang pendek dan mengandung kata-kata yang umum ditemukan pada spam seperti call, contact, dan respond. Selain itu, pendek yang hanya berisikan URL juga kadang salah diklasifikasikan sebagai spam karena URL lebih banyak ditemukan pada spam. 2. Analisis Kesalahan Pengenalan Spam (False Negative) Hasil pengujian terhadap kedua metode klasifikasi tidak membuahkan kesimpulan mengenai metode mana yang memiliki tingkat false negative lebih tinggi. Selanjutnya dibahas karakteristik pesan spam yang berhasil lolos dari proses filtering. a. spam yang kebetulan memiliki isi seperti ham Tipe spam pertama yang berhasil lolos dari spam filter adalah spam yang secara kebetulan memiliki karakteristik yang mirip dengan mayoritas ham yang diterima oleh pengguna. Pesan-pesan ham pada data uji didominasi oleh pesan dari mailing list bertemakan teknologi informasi. Pesan-pesan spam yang memiliki tema sangat berbeda seperti obat ataupun judi akan mudah dikenali oleh spam filter, namun jika spam yang dikirim ternyata bertemakan teknologi informasi, kata-kata yang terkandung di dalamnya akan memiliki karakteristik yang mirip dengan mayoritas ham. Akibatnya, filter akan salah mengira spam tersebut sebagai ham. b. yang menggunakan huruf non-latin 7 Pemrosesan berkarakter latin dan berkarakter non-latin memiliki sedikit perbedaan. Proses yang paling harus diperhatikan adalah tokenisasi. Pada pesan berhuruf latin, dengan satu karakter pemisah token saja yaitu spasi, sudah dapat dipecahkan menjadi token-token dengan cukup baik. Pada tulisan dimana karakternya tidak menggunakan spasi sebagai pemisah token, proses tokenisasi biasa tidak akan menghasilkan token-token yang sesuai. Selain permasalahan pada tokenisasi, dengan huruf non-latin pada data pengujian jumlahnya sangat sedikit. Kurangnya data training untuk token-token yang ada menyebabkan token tersebut memiliki nilai peluang yang cenderung netral. Khusus pada metode Graham, batas nilai peluang suatu untuk masuk ke dalam kelas spam adalah 0,9, akibatnya, - yang dipenuhi dengan token netral akan masuk ke dalam kelas ham. c. yang isinya gagal di-decode. Beberapa yang menggunakan character-encoding maupun content-transferencoding khusus gagal di-decode. Hal tersebut disebabkan oleh kekurangan dari library pembaca yang digunakan atau kesalahan format pada nya sendiri. Kegagalan proses decode menyebabkan isi dari hanya muncul sebagian atau tidak muncul sama sekali, akibatnya, proses klasifikasi didominasi oleh token-token dari header. Karena keterbatasan dari token yang terdapat pada header, proses klasifikasi kadang mengalami kesalahan. Kesimpulan KESIMPULAN DAN SARAN Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan beberapa hal sebagai berikut: 1. Pengujian menggunakan metode klasifikasi Graham menunjukkan metode training TEFT memiliki akurasi yang lebih tinggi dibandingkan dengan metode TOE terutama pada ham recall dimana perbedaan nilai mencapai 0, Contoh seperti ini adalah berbahasa Jepang, Arab dan Cina. 14
Pengukuran Kinerja Spam Filter Menggunakan Bayes Classifier. Bayes Classifier PENDAHULUAN JULIO ADISANTOSO *, WILDAN RAHMAN
Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 2 Nomor 1 halaman 1-8 ISSN: 2089-6026 Pengukuran Kinerja Spam Filter Menggunakan Bayes Classifier Bayes Classifier JULIO ADISANTOSO
PENGUKURAN KINERJA SPAM FILTER MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER GRAHAM WILDAN RACHMAN
PENGUKURAN KINERJA SPAM FILTER MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER GRAHAM WILDAN RACHMAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j
3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan
BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH
SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
PEMBANGUNAN SPAM FILTERING SYSTEM DENGAN METODE NAIVE BAYESIAN
Makalah Nomor: KNSI-72 PEMBANGUNAN SPAM E-MAIL FILTERING SYSTEM DENGAN METODE NAIVE BAYESIAN Indrastanti R. Widiasari.1, Teguh Indra Bayu 2 1, 2 Fakultas Teknologi Informasi, Universitas Kristen Satya
HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.
beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini
BAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi Penelitian adalah sekumpulan peraturan, kegiatan, dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu. Metodologi juga merupakan analisis teoritis mengenai
BAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database
BAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review
beberapa tag-tag lain yang lebih spesifik di dalamnya.
metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista
BAB III METODOLOGI PENELITIAN
3.1 Alat dan Bahan Penelitian BAB III METODOLOGI PENELITIAN 3.1.1 Alat Alat yang digunakan dalam penelitian ini adalah: a. Hardware a. Prosesor : Intel Core i5-3230m CPU @ 2.60GHz b. Memori : 4.00 GB c.
PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK
J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu
BAB IV HASIL DAN PEMBAHASAN
BAB IV HASIL DAN PEMBAHASAN 4.1 Data E-mail Pada bagian ini akan disajikan detail jumlah keseluruhan dataset yang digunakan untuk penelitian. Dataset diambil CSDMC21 yang disediakan oleh http://www.csmining.org/
UPAYA MEMINIMALISASI PADA LAYANAN LAPAN BANDUNG
UPAYA MEMINIMALISASI PADA LAYANAN LAPAN BANDUNG Peneliti Pusat Pemanfaatan Sains Antariksa, LAPAN email: [email protected] RINGKASAN Email merupakan bentuk komunikasi bisnis yang sifatnya cepat,
Perancangan Website Ujian. Teknik Elektro UNDIP Berbasis HTML
TUGAS TEKNOLOGI INFORMASI Perancangan Website Ujian Teknik Elektro UNDIP Berbasis HTML OLEH: AULIA RAHMAN 21060113120007 JURUSAN TEKNIK ELEKTRO FAKULTAS TEKNIK UNIVERSITAS DIPONEGORO SEMARANG 2014 Abstrak
TUGAS KOMUNIKASI DATA Simple Mail Transfer Protocol (SMTP) Disusun oleh: Lusia Pusvita Dewi Feti Fuji Astuti Andi Rofik Adi Wijaya Kusuma Yayan Jaya
TUGAS KOMUNIKASI DATA Simple Mail Transfer Protocol (SMTP) Disusun oleh: Lusia Pusvita Dewi Feti Fuji Astuti Andi Rofik Adi Wijaya Kusuma Yayan Jaya FAKULTAS TEKNOLOGI INDUSTRI PRODI TEKNIK INFORMATIKA
BAB 1 PENDAHULUAN. Internet, dalam (28 April 2006)
BAB 1 PENDAHULUAN 1.1. Pengantar Komputer adalah alat yang dipakai untuk mengolah informasi menurut prosedur yang telah dirumuskan. Kata computer semula dipergunakan untuk menggambarkan orang yang perkerjaannya
BAB I PENDAHULUAN 1.1. Latar Belakang Masalah
BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Basis data saat ini sudah berkembang menjadi sangat besar secara cepat ke dalam ukuran terabyte. Di dalam tumpukan data tersebut mungkin terdapat informasiinformasi
MODUL 3 DASAR-DASAR PHP
MODUL 3 DASAR-DASAR PHP Para pengguna internet dewasa ini cenderung lebih menyukai situs-situs yang mempunyai tampilan menarik dan menghibur. Yang pasti, mereka sudah bosan dengan tampilan web yang begitu-begitu
Pemrograman Web Week 2. Team Teaching
Pemrograman Web Week 2 Team Teaching WEEK 2 HTML IKG2I4 Software Project I Persiapan Instalasi Editor Download dan Install apilkasi editor (mis. Notepad++) Karena membantu dalam pengembangan syntax highlighting
BAB III ANALISIS DAN PERANCANGAN
26 BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya, selain itu juga berfungsi untuk memberikan gambaran dan
Menguasai Internet I. Created by ALFITH,S.Pd,M.Pd Page 1
Ekstension File adalah segalanya yang mengikuti akhir nama dokumen yang menjadi indikasi dari software yang digunakan untuk membuat file. Ekstension File terdapat pada tiga huruf terakhir sesudah titik,
Pemrograman Web BAB I Pendahuluan
BAB I Pendahuluan Pemrograman Web 2015 1.1 Internet dan Web Internet sebenarnya merupakan contoh sebuah jaringan computer. Jaringan ini menghubungkan jutaan computer yang tersebar di seluruh dunia. Yang
Materi 2 Komputer Aplikasi IT (KAIT) 2 SKS Semester 1 S1 Sistem Informasi UNIKOM 2014 Nizar Rabbi Radliya [email protected]
Materi 2 Komputer Aplikasi IT (KAIT) 2 SKS Semester 1 S1 Sistem Informasi UNIKOM 2014 Nizar Rabbi Radliya [email protected] Nama Mahasiswa NIM Kelas Kompetensi Dasar 1. Memahami cara kerja world
BAB IV HASIL DAN UJI COBA
BAB IV HASIL DAN UJI COBA IV.1. Uji Coba Aplikasi chatting ini dirancangan untuk berjalan dalam sistem operasi Windows. Untuk menjalankan aplikasi ini dapat dilakukan dengan dengan menggunakan aplikasi
BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine
BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan
Panduan untuk Calon Penerjemah Tim Indonesia
Panduan untuk Calon Penerjemah Tim Indonesia Tedi Heriyanto [email protected] Artikel ini akan menerangkan bagaimana cara anda mememulai menjadi penerjemah tim Indonesia dalam proyek GNU. Anda menulis kepada
BAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
BAB 3 ANALISIS MASALAH DAN PERANCANGAN
BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk
Kode Huffman dan Penggunaannya dalam Kompresi SMS
Kode Huffman dan Penggunaannya dalam Kompresi SMS A. Thoriq Abrowi Bastari (13508025) Teknik Informatika Institut Teknologi Bandung email: [email protected] ABSTRAK Dalam makalah ini, akan dibahas
BAB II LANDASAN TEORI Konsep Dasar Membangun Aplikasi Berbasis Web
BAB II LANDASAN TEORI 2.1. Konsep Dasar Membangun Aplikasi Berbasis Web Aplikasi berbasis web adalah aplikasi yang dijalankan melalui browser dan diakses melalui jaringan komputer. Aplikasi berbasis web
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 [email protected]
BAB III ANALISA DAN PERANCANGAN SISTEM
3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal
PENDAHULUAN. Latar belakang
Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium
BAB III LANDASAN TEORI. Pengertian sistem menurut Jogianto (2005 : 2) mengemukakan
BAB III LANDASAN TEORI 3.1 Pengertian Sistem Informasi Pengertian sistem menurut Jogianto (2005 : 2) mengemukakan bahwa sistem adalah kumpulan dari elemen-elemen yang berinteraksi untuk mencapai suatu
Spam Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes
Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes Wirawan Nathaniel Chandra 1, Gede Indrawan
DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.
DAFTAR ISI ABSTRAK...i ABSTRACT... ii KATA PENGANTAR... iii DAFTAR ISI... v DAFTAR GAMBAR...vii DAFTAR TABEL... viii DAFTAR ISTILAH... ix BAB I PENDAHULUAN... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah...
BAB IV HASIL PENELITIAN DAN PEMBAHASAN
BAB IV HASIL PENELITIAN DAN PEMBAHASAN 1.1 Data Training Data training adalah data yang digunakan untuk pembelajaran pada proses data mining atau proses pembentukan pohon keputusan.pada penelitian ini
Pengantar Common Gateway Interface (CGI) dan Perl. - Konsep CGI dan Perl - Lingkungan variabel di Perl - Metode POST dan GET
Pengantar Common Gateway Interface (CGI) dan Perl - Konsep CGI dan Perl - Lingkungan variabel di Perl - Metode POST dan GET 1 Konsep CGI dan Perl Definisi CGI adalah suatu bentuk komunikasi dimana client
BAB 4 IMPLEMENTASI DAN EVALUASI
BAB 4 IMPLEMENTASI DAN EVALUASI 4.1 Implementasi 4.1.1 Spesifikasi Perangkat Keras Spesifikasi perangkat keras yang digunakan dalam pembuatan program ini adalah sebagai berikut: Prosesor Intel Atom 1,6
HASIL DAN PEMBAHASAN. sim(, )=
4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i
BAB V IMPLEMENTASI DAN PENGUJIAN
BAB V IMPLEMENTASI DAN PENGUJIAN Bab kelima ini berisi uraian hasil implementasi dan pengujian terhadap perangkat lunak yang dibuat pada tugas akhir ini. 5.1 Implementasi Sub bab ini mendeskripsikan hasil
BAB I PENDAHULUAN. Pada era teknologi informasi yang semakin berkembang, pengiriman data
1 BAB I PENDAHULUAN I.1 Latar Belakang Pada era teknologi informasi yang semakin berkembang, pengiriman data dan informasi merupakan suatu hal yang sangat penting. Apalagi dengan adanya fasilitas internet
BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.
BAB I PENDAHULUAN 1.1 Latar Belakang Jumlah email spam di dunia semakin meningkat secara eksponensial. Dilaporkan bahwa pada tahun 1978 sebuah email spam dikirimkan ke 600 alamat email. Sedangkan pada
HASIL DAN PEMBAHASAN
10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.
1.1 Latar Belakang Masalah
BAB 1. PENDAHULUAN Bab ini mendeskripsikan tentang latar belakang masalah, rumusan masalah, tujuan pembahasan, ruang lingkup kajian, sumber data dan sistematika penyajian. 1.1 Latar Belakang Masalah Di
BAB IV HASIL DAN PEMBAHASAN
BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Pengembangan Sistem Penelitian ini mengembangkan dua buah prototipe aplikasi, yaitu aplikasi pada client dan aplikasi pada server. Aplikasi pada client akan diimplementasikan
BAB 2 TINJAUAN PUSTAKA
6 BAB 2 TINJAUAN PUSTAKA Pada bab ini penulis memaparkan teori-teori ilmiah yang didapat dari metode pencarian fakta yang digunakan untuk mendukung penulisan skripsi ini dan sebagai dasar pengembangan
Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta
Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk
BAB IV IMPLEMENTASI DAN PENGUJIAN
62 BAB IV IMPLEMENTASI DAN PENGUJIAN 4.1 Implementasi Tahap implementasi dan pengujian sistem, dilakukan setelah tahap analisis dan perancangan selesai dilakukan. Pada sub bab ini akan dijelaskan implementasi
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
METODE SMOOTHING DALAM NAÏVE BAYES UNTUK KLASIFIKASI SPAM MUTIA HAFILIZARA
METODE SMOOTHING DALAM NAÏVE BAYES UNTUK KLASIFIKASI EMAIL SPAM MUTIA HAFILIZARA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI
II. TINJAUAN PUSTAKA. elemen yang saling berinteraksi untuk mencapai suatu tujuan. Sedangkan
5 II. TINJAUAN PUSTAKA 2.1 Sistem Informasi Sekolah Sistem merupakan suatu kesatuan yang terdiri dari suatu kumpulan elemen yang saling berinteraksi untuk mencapai suatu tujuan. Sedangkan informasi adalah
BAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi
Pengenalan Dasar HTML 5. Author : Minarni, S.Kom.,MM Universitas Darwan Ali Sampit - KALTENG
Pengenalan Dasar HTML 5 Author : Minarni, S.Kom.,MM Universitas Darwan Ali Sampit - KALTENG HTML adalah bahasa standar untuk membuat halaman Web HTML (Hypertext Markup Language) adalah suatu bahasa yang
Implementasi Identifikasi Kendala Sistem Identifikasi Pengguna Administrator Pengujian Sistem Member Pengunjung atau umum HASIL DAN PEMBAHASAN
Implementasi Pada tahap ini CMS akan dibuat atau dikembangkan berdasarkan tahap-tahap pengembangan sistem yang telah dijelaskan sebelumnya dengan menggunakan software dan hardware yang diperlukan untuk
APLIKASI SPAM FILTER PADA MICROSOFT OUTLOOK DENGAN METODE BAYESIAN
APLIKASI SPAM FILTER PADA MICROSOFT OUTLOOK DENGAN METODE BAYESIAN Rudy Adipranata, Adi Wibowo, Eko Katsura Koessami Teknik Informatika, Fakultas Teknologi Industri, Universitas Kristen Petra Jl. Siwalankerto
BAB III ANALISIS DAN RANCANGAN
BAB III ANALISIS DAN RANCANGAN Sebelum merancang sebuah sistem, perlu dilakukan analisis terlebih dahulu. Analisis sistem adalah proses menentukan kebutuhan sistem, apa yang harus dilakukan sistem untuk
Dasar Pemrograman Web. Pemrograman Web. Adam Hendra Brata
Dasar Pemrograman Web Pemrograman Web Adam Hendra Brata Konsep Dasar Desain Web HTML CSS HTML HTML (HyperText Markup Language) Bahasa standar yang digunakan untuk menampilkan document web. Mengontrol tampilan
APLIKASI KOMPRESI TEKS SMS PADA MOBILE DEVICE BERBASIS ANDROID DENGAN MENGGUNAKAN ALGORITMA HUFFMAN KANONIK
APLIKASI KOMPRESI TEKS SMS PADA MOBILE DEVICE BERBASIS ANDROID DENGAN MENGGUNAKAN ALGORITMA HUFFMAN KANONIK Rozzi Kesuma Dinata (1), Muhammad Al hafizh Hasmar (2) (1)Program Studi Teknik Informatika Universitas
LANDASAN TEORI. Dunia informasi di Indonesia sedang dan harus. berubah. Saat ini, dunia pemasaran tidak dapat
BAB II LANDASAN TEORI 2.1 Karakteristik Uneven Solution Dunia informasi di Indonesia sedang dan harus berubah. Saat ini, dunia pemasaran tidak dapat mengandalkan satu bahasa seperti tahun lalu. Coba lihat
BAB III ANALISIS DAN PERANCANGAN
BAB III ANALISIS DAN PERANCANGAN 3.1 Analisis Sistem Analisis sistem merupakan penguraian dari suatu sistem yang utuh kedalam bagian bagian komponennya dengan maksud untuk mengidentifikasikan dan mengevaluasi
MENGIRIM E-mail DENGAN BAIK*) Oleh: Muhammad Isnaini
MENGIRIM E-mail DENGAN BAIK*) Oleh: Muhammad Isnaini Sebagian besar dari Anda tentu sudah tidak asing lagi dalam melakukan komunikasi dengan fasilitas email. Walaupun e-mail (sebagian orang menerjemahkannya
BAB 3 Metode dan Perancangan Sistem
BAB 3 Metode dan Perancangan Sistem 3.1. Kebutuhan Sistem Dalam penelitian ini membutuhkan beberapa perangkatperangkat, rincian perangkat-perangkat yang digunakan dalam penelitian ditampilkan beserta spesifikasi
PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)
PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir
BAB III LANDASAN TEORI
BAB III LANDASAN TEORI 3.1 Company Profile Menurut Maimunah dkk. Dalam jurnal CCIT Vol.5 No.3 (2012) company profile adalah sebuah aset suatu lembaga atau perusahaan yang dapat digunakan untuk meningkatkan
ADMINISTRASI SERVER KELAS 11. Oleh Alimansyah Aprianto Tek. Komputer dan Jaringan
ADMINISTRASI SERVER KELAS 11 Oleh Alimansyah Aprianto Tek. Komputer dan Jaringan Kegiatan Belajar 3 Memahami prinsip kerja komunikasi client server 1 Prinsip kerja komunikasi client server Client dan server
TEORI HTML. Informasi dari Internet dapat diakses Keseluruh dunia hanya dalam hitungan detik.
TEORI HTML Kata-kata Web sebenarnya penyederhanaan dari sebuah istilah dalam dunia komputer yaitu WORLD WIDE WEB yang merupakan bagian dari tekhnologi Internet. World wide Web atau disingkat dengan nama
SMS Marketing (intouch System)
SMS Marketing (intouch System) Pendahuluan Untuk sebuah perusahaan yang memiliki banyak pelanggan, karyawan dan kebutuhan yang memerlukan kecepatan dalam informasi terbaru, maka dibutuhkan sebuah solusi
BAB V IMPLEMENTASI DAN PENGUJIAN
BAB V IMPLEMENTASI DAN PENGUJIAN Bab kelima ini berisi uraian hasil implementasi dan pengujian terhadap perangkat lunak yang dibuat pada tugas akhir ini. 5.1 Implementasi Sub bab ini mendeskripsikan hasil
BAB III ANALISIS PENYELESAIAN MASALAH
BAB III ANALISIS PENYELESAIAN MASALAH Pada bab tiga ini akan dilakukan analisis terhadap landasan teori yang telah dijelaskan pada bab sebelumnya. Analisis yang dilakukan bertujuan untuk menemukan solusi
BAB IV HASIL DAN UJI COBA
BAB IV HASIL DAN UJI COBA IV.1. Hasil Pada tahap ini adalah tahapan dimana kita dapat membuktikan apakah sistem yang dirancang sudah layak dan sudah sesuai dengan perancangan. Sebuah sistem yang telah
BAB 4 IMPLEMENTASI DAN EVALUASI SISTEM
BAB 4 IMPLEMENTASI DAN EVALUASI SISTEM 4. 1 Implementasi Sistem Atau Aplikasi 4. 1. 1 Spesifikasi Sistem Aplikasi pengolahan jurnal online berbasis web dibuat dengan menggunakan bahasa PHP 5.0 sebagai
DAFTAR ISI. Abstrak Kata Pengantar Daftar Isi... Daftar Tabel.. Daftar Singkatan...
Abstract The abbreviation of PHP is PHP Hypertext Preprocessor, the interpreter language that having looking like C language that having moderation in command. PHP can be used together with HTML so facilitate
BAB 4 IMPLEMENTASI DAN EVALUASI
BAB 4 IMPLEMENTASI DAN EVALUASI 4.1 Implementasi Aplikasi 4.1.1 Kebutuhan Sumber Daya Perangkat Keras Server : 1. Processor Intel Pentium Core 2 Duo 1,8 Ghz atau lebih 2. Memory 2 GB DDR2 atau lebih 3.
BAB I PENDAHULUAN. service yang tidak bisa dilepaskan dari segala aktivitas yang terjadi di dunia maya,
BAB I PENDAHULUAN I.1 Latar Belakang Electronic Mail atau biasa yang disebut Email merupakan salah satu jenis service yang tidak bisa dilepaskan dari segala aktivitas yang terjadi di dunia maya, penggunaan
BAB I PENDAHULUAN. dipakai masyarakat umum adalah electronic mail ( ). Pada akhir tahun 1990,
1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat sekarang ini sudah mengubah gaya hidup masyarakat dalam berkomunikasi, saat ini masyarakat sudah hidup berdampingan dengan teknologi
Pengenalan JavaScript
Pengenalan JavaScript Tujuan - Mahasiswa memahami konsep dasar Javascript - Mahasiswa mampu memahami cara menggunakan Javascript - Mahasiswa mampu memahami dasar variabel di Javascript - Mahasiswa mampu
KEAMANAN . Tentang
KEAMANAN EMAIL Email Security Tentang email Email merupakan aplikasi yang paling populer di Internet Masalah email Disadap Dipalsukan Disusupi (virus) Spamming Mailbomb Mail relay Email security -2-1 masih
PHP mendukung komentar yang digunakan pada C, C++ dan Shell Unix. Sebagai contoh:
Perintah Dasar Tag PHP Ketika PHP membaca suatu file, proses akan berlangsung hingga ditemukan tag khusus yang berfungsi sebagai tanda dimulainya interpretasi teks tersebut sebagai kode PHP. PHP akan menjalankan
BAB IV IMPLEMENTASI DAN PENGUJIAN
76 BAB IV IMPLEMENTASI DAN PENGUJIAN 1.1 IMPLEMENTASI SISTEM Tahap implementasi dan pengujian sistem dilakukan setelah tahap analisis dan perancangan selesai dilakukan. Pada bab ini akan dijelaskan implementasi
MODUL 1 INTERNET PROGRAMMING : PHP 1
MODUL 1 INTERNET PROGRAMMING : PHP 1 A. Tujuan : 1. Memahami tentang PHP 2. Memahami instalasi Apache dan PHP 3. Memahami tag-tag dalam PHP 4. Memahami tentang struktur kontrol B. Dasar Teori PENGENALAN
2. DASAR TEORI 2.1 PHP5
Modul 2 1. TUJUAN Mahasiswa dapat memahami pemrograman server side menggunakan PHP5 Mahasiswa dapat mengetahui sintak-sintak yang digunakan dalam penanganan form dengan menggunakan metode GET dan POST
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
HTTP Protocol Ketika sebuah alamat web (atau URL) yang diketik ke dalam web browser, web browser melakukan koneksi ke web service yang berjalan pada
Application Layer Application layer adalah lapisan yang menyediakan interface antara aplikasi yang digunakan untuk berkomunikasi dan jaringan yang mendasarinya di mana pesan akan dikirim. Layer ini berhubungan
BAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA 2.1 Penelitian Terdahulu Pembuatan website sangat terbantu dengan adanya referensi-referensi yang ada. Adanya informasi tersebut dapat membantu menyajikan konten yang baik dan
BAB III LANDASAN TEORI. kinerja dan memotivasi kinerja individu di waktu berikutnya.
BAB III LANDASAN TEORI 3.1 Penilaian Kinerja Pada organisasi modern, penilaian memberikan mekanisme penting bagi manajemen untuk digunakan dalam menjelaskan tujuan-tujuan dan standart kinerja dan memotivasi
