Aplikasi Inferensi Bayes pada Data Mining terutama Pattern Recognition

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA. sekumpulan besar data yang tersimspan dalam penyimpanan dengan

Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

( ) ( ) (3) II-1 ( ) ( )

BAB 2 LANDASAN TEORI

Aplikasi Pengujian Hipotesis Statistik dalam Sistem Teknologi Informasi

BAB I PENDAHULUAN 1.1 Latar Belakang

Aplikasi Teori Graf Pada Knight s Tour

Logika Permainan Sudoku

Penggunaan Algoritma Divide and Conquer Dalam Pewarnaan Graf

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

Penerapan Graf Terhubung untuk Menentukan Klasifikasi Sidik Jari

Studi dan Implementasi Integrasi Monte Carlo

KONSEP DASAR TERKAIT METODE BAYES

I. PENDAHULUAN. Gambar 1. Contoh-contoh graf

Penyelesaian Game Lights Out dengan Algoritma Runut Balik

Implementasi Algoritma Runut Balik dalam Pengenalan Citra Wajah pada Basis Data

BAB II TINJAUAN PUSTAKA. (b) Variabel independen yang biasanya dinyatakan dengan simbol

Analisa Kombinatorial Dalam Android Pattern Safety Lock

Our Way of Thinking I. PENDAHULUAN

Implementasi Algoritma Knuth Morris Pratt pada Alat Penerjemah Suara

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

Perbandingan Algoritma Depth-First Search dan Algoritma Hunt-and-Kill dalam Pembuatan Labirin

Penerapan Algoritma Brute Force dan Backtracking pada Permainan Skycraper

Analisa Keputusan Manajemen dengan Pemrograman Dinamis

Algoritma Prim sebagai Maze Generation Algorithm

Solusi Rekursif pada Persoalan Menara Hanoi

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

Strategi Permainan Menggambar Tanpa Mengangkat Pena

Aplikasi Probabilitas dan Statistika Dalam Bidang Sistem Informasi Manajemen

Perbandingan Algoritma Brute Force dan Backtracking dalam Permainan Word Search Puzzle

Optimalisasi Susunan Tempat Duduk Kereta Api Menggunakan Algoritma Greedy dan Program Dinamis

BAB 1 PENDAHULUAN Latar Belakang

Peluang Mendapatkan Bonus Dari Sebuah Game Menggunakan Distribusi Multinomial

Aplikasi Teori Graf dalam Permainan Kombinatorial

SISTEM PREDIKSI PENGUNDURAN DIRI PESERTA DIDIK MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER

Penerapan Algoritma Program Dinamis pada Penyejajaran Sekuens dengan Algoritma Smith Waterman

Penerapan Pewarnaan Graf dalam Alat Pemberi Isyarat Lalu Lintas

Algoritma Greedy pada Board Game Saboteur

Penerapan Algoritma Pattern Matching untuk Mengidentifikasi Musik Monophonic

Memanfaatkan Pewarnaan Graf untuk Menentukan Sifat Bipartit Suatu Graf

Pemilihan Monster yang Akan Digunakan dalam Permainan Yu-Gi-Oh! Capsule Monster Coliseum

BAB I PENDAHULUAN. 1.1 Latar Belakang

Penentuan Lintasan Terbaik Dengan Algoritma Dynamic Programming Pada Fitur Get Driving Directions Google Maps

Metode Analisis Relasi Pemasukan dan Pengeluaran dalam Bisnis dan Ekonomi dengan Matriks Teknologi

Aplikasi Algoritma Brute Force dan Backtracking pada Permainan Slitherlink

Aplikasi Teori Graf dalam Penggunaan Cairan Pendingin pada Proses Manufaktur

Penerapan Teori Graf dan Graf Cut pada Teknik Pemisahan Objek Citra Digital

Menyelesaikan Kakuro Puzzle dengan Kombinatorial

Pemanfaatan Permodelan Ruang Vektor untuk Pengecekan Kemiripan

Pembuktian Cayley s Formula dengan Prüfer Sequence

Penerapan Pohon Keputusan dalam Pengambilan Keputusan Terbaik dibidang Pemasaran Produk

Penggunaan Pohon Biner dalam Binary Space Partition untuk Membuat Dungeon Game Roguelike RPG

Representasi Graf dalam Jejaring Sosial Facebook

Interpolasi Polinom pada Farmakokinetik dengan Model Kompartemen Ganda

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Implementasi Pohon Keputusan untuk Membangun Jalan Cerita pada Game Engine Unity

Penerapan Algoritma Prim dan Kruskal Acak dalam Pembuatan Labirin

BAB II LANDASAN TEORI

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES

Penggunaan Pohon Huffman Sebagai Sarana Kompresi Lossless Data

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.

Aplikasi Pohon Prefix pada Pencarian Kontak di

Aplikasi Pohon dan Graf dalam Kaderisasi

Penerapan Logika dan Peluang dalam Permainan Minesweeper

Mencari Solusi Persamaan Rekursif Bilangan Catalan dengan Prinsip-prinsip Kombinatorial

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

APLIKASI PENENTUAN ANGGOTA KELAS UNGGULAN DENGAN METODE NAÏVE BAYES

Penerapan Algoritma DFS dan BFS untuk Permainan Wordsearch Puzzle

Deteksi Wajah Menggunakan Program Dinamis

SKRIPSI. Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom) Pada Program Studi Teknik Informatika OLEH :

Penerapan Algoritma Pencocokan String Boyer-Moore dan Knuth-Morris-Pratt (KMP) dalam Pencocokkan DNA

Menyelesaikan Permainan Wordament Menggunakan Algoritma Backtracking

Aplikasi Pewarnaan Graf Pada Pengaturan Warna Lampu Lalu Lintas

Algoritma Greedy dalam Artificial Intelligence Permainan Tic Tac Toe

Penerapan Algoritma Greedy untuk Menempatkan Pelanggan dalam Permainan Video Diner Dash

Penerapan Algoritma Greedy dalam Pembuatan Artificial Intelligence Permainan Reversi

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Aplikasi Graf pada Fitur Friend Suggestion di Media Sosial

Penerapan Interpolasi Polinom pada Sinkronisasi Subtitle

KLASIFIKASI PADA TEXT MINING

PERANCANGAN ALGORITMA KRIPTOGRAFI KUNCI SIMETRI DENGAN MENGGUNAKAN JARINGAN SARAF TIRUAN

KLASIFIKASI PADA TEXT MINING

Penggunaan Senarai Sirkuler dan Permutasi Inversi untuk Pengurutan pada Josephus Problem

Variansi dan Kovariansi. Bahan Kuliah II2092 Probabilitas dan Statistik Oleh: Rinaldi Munir Sekolah Teknik Elektro dan Informatika ITB

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

Penerapan Algoritma Backtrack pada Knight s Tour

BAB II LANDASAN TEORI

Penerapan Algoritma BFS dan DFS dalam Mencari Solusi Permainan Rolling Block

Teori Peluang dalam Sistem Turnamen Eliminasi Ganda

Penggunaan Transformasi Matriks dalam Enkripsi dan Dekripsi

Aplikasi Teori Graf dalam Permainan Instant Insanity

Aplikasi Pohon dan Logika pada Variasi Persoalan Koin Palsu

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

Penerapan Graf dan Pohon dalam Permainan Dota 2

1. Pendahuluan 1.1 Latar Belakang

Transkripsi:

Aplikasi Inferensi Bayes pada Data Mining terutama Pattern Recognition Trilaksono Aribowo (18209015) Program Studi Sistem dan Teknologi Informasi Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia 18209015@std.stei.itb.ac.id ABSTRAK Makalah ini akan membahas tentang aplikasi dari salah satu teori statistika dalam sistem informasi. Teori statistika yang akan dibahas adalah teori inferensi Bayes, yang banyak diaplikasikan dalam data mining di bagian pattern recognition. Lebih lanjut lagi, akan dibahas mengenai algoritma klasifikasi, salah satu terapan pattern recognition, yang menggunakan teorema Bayes, yaitu naive Bayes classifier. Kata kunci : pattern recognition, naive Bayes classifier, inferensi Bayes. I. PENDAHULUAN Data mining adalah salah satu cabang sains komputer dan intelegensia buatan yang merupakan sebuah proses pengambilan pattern (pola) data untuk kemudian diolah menjadi informasi yang bisa diambil dan digunakan oleh pengguna. Data mining banyak digunakan di bidang marketing untuk mengolah data yang ada menjadi informasi statistik untuk digunakan sebagai bagian dalam penentua keputusan. Dalam mengubah data menjadi informasi yang dapat digunakan secara bebas, dilakukanlah sebuah proses yang bernama pattern recognition. Proses ini akan kemudian mengelompokkan data-data yang ada berdasarkan keunikan pola masing-masing data. Setelah itu, data yang sudah dikelompokkan tadi akan disajikan dalam bentuk informasi statistik. Data mining sering digunakan untuk membantu dalam menganalisis sekelompok pengamatan tingkah laku. Dalam hal ini, data mining berguna untuk menemukan pola tersembunyi dalam serangkaian aksi. Hal ini biasanya diterapkan pada pembuatan intelegensia buatan untuk permainan seperti catur, tic tac toe, igo, dll. Selain itu, data mining biasanya digunakan juga dalam dunia bisnis, terutama bidang marketing untuk menentukan calon konsumen yang prospeknya lebih bagus. Data mining juga sudah biasa diterapkan di bioinformatika dan studi genetika, terutama untuk menemukan dan memetakan pola hubungan rangkaian DNA manusia dengan penyakit tertentu. Dengan menentukan hal tersebut, akan sangat membantu diagnosis, pencegahan, dan pengobatan penyakit tersebut. II. DASAR TEORI A. Pattern Recognition Pattern recognition adalah memetakan atau memasangkan sebuah nilai keluaran (atau label) kepada sebuah nilai inputan (atau instance), berdasarkan algoritma tertentu. Tujuan dari pattern recognition adalah untuk mendapatkan hasil yang bisa dipertanggungjawabkan dari setiap nilai masukan dan untuk memasangkan masukan dengan keluaran secara kasar. Hal ini berkebalikan dengan pattern matching, yang mencari pola yang benar-benar sama dengan pola pengetes yang sudah ada sebelumnya di masukan. Salah satu contoh pattern recognition adalah klasifikasi. Proses klasifikasi memasangkan setiap masukan dengan salah satu dari beberapa kelas yang ada. Contoh dari proses klasifikasi ini adalah spam filtering yang banyak tersedia di kotak masuk penyedia fasilitas surel, di mana setiap surel yang masuk akan diidentifikasi dan dikelompokkan ke dalam dua kelompok, yaitu spam dan non-spam, berdasarkan pada pola data yang ada di setiap surel masuk. Contoh lain adalah regresi, yang memasangkan sebuah nilai keluaran berupa bilangan riil pada setiap nilai masukannya. Selain itu, ada pula sequence labeling, yang memasangkan sebuah kelas pada sebuah sekuen masukan. Pattern recognition dikelompokkan ke dalam dua kelompok berdasarkan prosedur studi yang digunakan untuk menghasilkan keluaran. Supervised learning adalah salah satu jenis pattern recognition yang mengasumsikan bahwa training set, yang terdiri dari beberapa instance yang sudah diberi label dengan keluaran yang benar, sudah tersedia. Kemudian dalam prosedur studi dibuat sebuah model untuk mencapai dua tujuan yang terkadang bertentangan, yaitu melakukan pattern recognition sebaik mungkin pada training set dan menggeneralisir data-data baru sebaik mungkin (yang terkadang berarti harus bekerja sesimpel mungkin). Di lain pihak, unsupervised learning mengasumsikan training data yang belum diberi label secara manual, dan berusaha menemukan sebuah pola pada training data untuk menentukan nilai keluaran

yang benar pada data instance baru. Pada unsupervised learning terkadang tidak ada training data, yang berarti data yang harus diberi label adalah training data itu sendiri. Belakangan ini juga sedang dikembangkan metode penggabungan keduanya, yaitu semi-supervised learning, yang menggunakan kombinasi dari data yang sudah dilabeli dan data yang belum dilabeli (biasanya sedikit data yang sudah dilabeli dan banyak yang belum dilabeli). Secara umum, algoritma pattern recognition biasanya bersifat probabilistik, di mana dalam prosesnya digunakan inferensi statistikal untuk menentukan label terbaik untuk setiap instance. Tidak seperti algoritma lainnya, algoritma probabilistik juga mengeluarkan besaran nilai peluang suatu instance tertentu diberi label tertentu. Maka dari itu, terkadang algoritma probabilistik menghasilkan N label terbaik untuk suatu instance beserta peluangnya masingmasing alih-alih hanya mengeluarkan satu label terbaik saja. Pada makalah ini akan dibahas mengenai algoritma klasifikasi menggunakan naive Bayes classifier. Secara umum, supervised pattern recognition dirumuskan secara matematis sebagai demikian yang memetakan sekumpulan instance ke sekumpulan label bersama dengan training data yang diasumsikan sudah merepresentasikan contoh pemetaan yang akurat. Lalu dibuatlah sebuah fungsi yang mendekati fungsi g. Untuk pattern recognizer probabilistis, di mana harus dihasilkan nilai peluang suatu instance diberi label tertentu, dirumuskan secara matematis sebagai berikut di mana x adalah variabel masukan, dan θ adalah parameter dari fungsi f. Pada pendekatan diskriminatif, nilai f sudah diestimasikan dan bisa langsung digunakan dalam perhitungan. Namun, pada pendekatan generatif, peluang inverse yang diestimasikan dan dimasukkan dalam perhitungan bersama dengan Menggunakan teorema Bayes sebagai berikut : Persamaan di atas berlaku jika label yang ada bersifat diskrit. Jika label yang akan diberikan bersifat kontinu, maka persamaan di atas berubah menjadi : Nilai θ biasanya didapatkan menggunakan estimasi maximum a posteriori (MAP). Dengan cara ini, bisa didapat nilai terbaik untuk memenuhi dua tujuan, melakukan pattern recognition sebaik mungkin pada training data dan menemukan model tersimpel. Berarti, cara ini menggabungkan estimasi kesamaan maksimal dengan prosedur regularisasi untuk mendapatkan model yang lebih simpel. B. Naive Bayes Classifier Naive Bayes classifier adalah suatu classifier probabilistik simpel yang berdasarkan pada teorema Bayes pada umumnya, inferensi Bayes khususnya dengan asumsi independensi yang kuat (naive). Dalam prosesnya, naive Bayes classifier mengasumsikan bahwa ada atau tidak adanya suatu fitur pada suatu kelas tidak berhubungan dengan ada atau tidaknya fitur lain di kelas yang sama. Sebagai contoh, suatu buah bisa dikatakan apel jika berwarna merah, bundar, dan berdiameter sekitar 5 cm. Naive Bayes classifier mengasumsikan bahwa masing-masing fitur tersebut punya peranan dan bagiannya masing-masing dalam menentukan peluang bahwa suatu buah tadi memang benar-benar apel. Naive Bayes classifier bisa menjadi sangat efisien jika dilakukan berdasarkan supervised learning. Biasanya, parameter fungsi f di naive Bayes classifier diestimasikan berdasarkan kesamaan maksimal, yang berarti seseorang bisa membuat naive Bayes model tanpa memercayai peluang Bayes atau menggunakan metode Bayes apapun. Model peluang untuk sebuah classifier adalah model kondisional. Karena itu, naive Bayes probabilistic model dapat dirumuskan sebagai berikut di mana C adalah peubah kelas yang dependen yang akan berisi salah satu kelas dari berbagai kelas, dan F 1 sampai F n adalah peubah fitur atau ciri-ciri dari masukan. Masalah muncul jika nilai n terlalu besar atau ada

beberapa fitur yang memiliki nilai sangat besar. Karena itu, dengan menggunakan teorema Bayes, kita dapat mengubah persamaan matematis di atas menjadi dan yang jika ditulis secara sederhana adalah Karena nilai F i selalu diberikan dan dependen terhadap nilai C, maka penyebut pada persamaan di atas akan selalu konstan. Karenanya, yang bisa kita lakukan hanyalah memanipulasi pembilangnya sesuai dengan joint probability model sebagai berikut Sekarang asumsikan setiap F i independen secara kondisional terhadap F j dan i j. Ini berarti karena itu, persamaan tadi bisa ditulis ulang sebagai Hal ini berarti, kita dapat menulis ulang persamaan awal tadi sebagai berikut di mana Z adalah faktor konstan yang bergantung pada bukti atau fitur apa yang sedang diperiksa. Dari situ dapat dilihat peluang suatu masukan termasuk pada kelas C tertentu untuk dijadikan sebagai masukan dalam proses penentuan keputusan di kelas manakah sebenarnya masukan tadi berasal. Semua parameter model dapat diketahui menggunakan estimasi kesamaan maksimal. Jika data yang ada bersifat kontinu, maka diasumsikan bahwa data terdistribusi normal dan parameter model adalah rataan dan variansi dengan C. Inferensi Bayes Inferensi Bayes adalah semacam inferensi statistikal di mana beberapa bukti atau pengamatan digunakan untuk menghitung peluang bahwa sebuah hipotesis itu benar atau memperbarui nilai peluangnya yang sudah dihitung sebelumnya. Sesuai dengan namanya, inferensi Bayes menggunakan teorema Bayes dalam perhitungannya. Pada penggunaannya, inferensi Bayes dilakukan dengan cara melihat kesamaan pada hipotesis untuk menentukan hipotesis tersebut termasuk ke kelas mana dengan bukti atau fitur yang ada. Hasilnya bisa didapat dengan melihat kesamaan hipotesis dengan kecocokan bukti yang ada dengan hipotesis. Inferensi Bayes menggunakan sebagian aspek metode ilmiah, di mana pada inferensi Bayes terdapat proses pengumpulan barang bukti yang bisa konsisten atau tidak dengan hipotesisnya. Seiring dengan bertambahnya barang bukti yang ada, tingkat kepercayaan pada suatu hipotesis bisa berubah. Dengan bukti yang cukup, tingkat kepercayaan pada suatu hipotesis bisa sangat tinggi atau sangat rendah. Karenanya, inferensi Bayes bisa digunakan untuk membedakan dua hipotesis yang saling bertentangan. Hipotesis dengan peluang yang sangat tinggi harus kita terima, sedangkan yang sangat rendah harus kita tolak. Pada inferensi Bayes, kita harus menentukan tingkat kepercayaan pada suatu hipotesis menggunakan estimasi numerik sebelum terdapat bukti apapun. Setelah didapatkan bukti baru, dilakukan lagi pencarian tingkat kepercayaan hipotesis tersebut menggunakan estimasi numerik, dan begitu selanjutnya tiap ditemukan bukti baru. Setiap didapatkan data baru, dengan menggunakan teorema Bayes, peluang bahwa suatu hipotesis itu benar berubah sesuai dengan di mana : - H adalah hipotesis yang diperiksa - E adalah bukti atau data yang didapat dari pengamatan - P(H) adalah peluang hipotesis itu benar sebelum didapatkan bukti baru - P(E H) adalah fungsi kesamaan atau peluang

bahwa akan didapat bukti E jika H benar - P(E) adalah peluang marginal, peluang kita akan mendapat bukti E, tidak tergantung pada hipotesis yang kita periksa - P(H E) adalah peluang hipotesis H benar setelah kita mendapatkan bukti E Faktor P(E H)/P(E) menunjukkan pengaruh ditemukannya bukti E terhadap tingkat kepercayaan pada hipotesis H. Tentu saja kita mengasumsikan bahwa H itu benar, tapi ketika H tidak diasumsikan benar, bukti E akan susah ditemukan (P(E) bernilai kecil), karena itu faktor tadi akan bernilai sangat besar. Jika itu terjadi, maka P(H E) akan bernilai sangat besar. Sebaliknya, jika P(E) bernilai besar ketika H diasumsikan benar, maka faktor tadi akan bernilai kecilm sehingga akan memperkecil tingkat kepercayaan kita pada hipotesis H. Dengan menggunakan inferensi Bayes, dapat ditentukan berapa banyak bukti yang didapatkan untuk mengubah tingkat kepercayaan terhadap suatu hipotesis. P(H E) bisa diubah menjadi sebuah fungsi dari H, dengan membuat E menjadi konstan. Fungsi yang demikian adalah fungsi kesamaan, di mana fungsi tersebut hanya memiliki satu peubah H, dengan E menjadi parameter saja. Perbandingan dua fungsi kesamaan disebut rasio kesamaan, dilambangkan dengan Λ. Persamaannya adalah III. APLIKASI A. Spam FIltering Salah satu aplikasi dari inferensi Bayes adalah penggunaan naive Bayes classifier dalam pattern recognition untuk mengelompokkaan dokumen-dokumen ke kelas-kelas tertentu. Contoh mudahnya adalah pengelompokkan setiap surel masuk ke dalam kelompok spam dan non-spam. Untuk melakukan hal tersebut, bayangkan ada beberapa kelas dokumen yang bisa dimodelkan sebagai kumpulan kata-kata di mana di mana kata ke-i dari suatu dokumen terdapat di dokumen kelas C bisa dituliskan sebagai Kemudian, peluang bahwa dokumen tersebut adalah dokumen D, jika diketahui termasuk ke kelas C, adalah Yang harus kita cari adalah berapa peluang bahwa dokumen itu berada di kelas C, jika diketahui, dokumen tersebut adalah dokumen D? yang bisa ditulis sebagai dari persamaan tersebut didapatkan bahwa Berdasarkan definisinya Maka, kita bisa menulis ulang persamaan Bayes di atas menjadi Kemudian kita bisa menggunakan fungsi identitas Untuk mengubah P(H E) menjadi fungsi dari P(H) dan Λ E (bisa didapat dari perhitungan langsung dari bukti yang ada) saja. Caranya adalah dengan menggunakan dua buah bukti sekaligus untuk langsung menghitung P(H E) secara berturut-turut. Rumusnya adalah Dengan menggunakan teorema Bayes, persamaan di atas dapat diubah menjadi sebagai berikut Pada kasus spaam filtering, hanya ada dua kelas, spam dan non-spam. Karena itu, persamaanya adalah (1) dengan menggunakan rasio kesamaan, persamaan di atas dapat diubah menjadi (2)

Dengan menggabungkannya ke persamaan (1) di atas, didapatkan Jika keduanya dibandingkan Rasio peluang p(s D) / p( S D) dapat ditulis dalam rasio kesamaan. Nilai p(s D) bisa didapat dari perhitungan log (p(s D) / p( S D)) berdasarkan pada pengamatan bahwa p(s D) + p( S D) = 1. Dengan menggunakan logaritma pada persamaan di atas, didapat Dari situ bisa didapatkan nilai rasio peluangnya tanpa harus menggunakan cara di awal tadi. Setelah didapatkan nilai tersebut, barulah akhirnya dokumen tersebut dapat dikelompokkan sebagai spam atau non-spam berdasarkan pada standarnya. Sebuah dokumen dikatakan spam jika atau IV. KESIMPULAN (3) 1. Inferensi Bayes hanya membutuhkan sedikit training data untuk menentukan parameter rataan dan variansi yang dibutuhkan untuk membuat klasifikasi. 2. Penggunaan inferensi Bayes pada pattern recognition tidak terbatas pada spam filtering saja. 3. Inferensi Bayes digunakan untuk menghitung peluang untuk penentuan keputusan pada kondisi ketidakpastian. 4. Supervised learning terkadang tidak efisien, karena proses ini harus mencapai dua tujuan yang terkadang bertentangan. 5. Probabilistic pattern recognition sangat baik untuk digunakan karena menghasilkan beberapa kemungkinan label untuk setiap instance dan juga nilai peluang masing-masing kemungkinan label. 6. Dengan menggunakan inferensi Bayes dan bukti yang cukup, akan sangat mudah untuk menentukan kebenaran suatu hipotesis. 7. Metode inferensi bisa melenceng jauh dari kebenaran, karena nilai tingkat kebenaran yang pertama diestimasikan tanpa ada bukti apapun. V. ACKNOWLEDGMENT Terima kasih kepada Allah SWT, yang telah menciptakan penulis ke dunia ini dan selalu menjaga penulis hingga bisa terselesaikannya makalah ini. Tidak lupa terima kasih penulis sampaikan kepada junjungan Rasulullah SAW, yang selalu menjadi panutan penulis dalam bertindak di dunia ini. Terima kasih juga penulis ucapkan kepada orangtua penulis, yang telah merawat dan membesarkan penulis sehingga sekarang penulis bisa berkuliah di ITB. Terima kasih kepada Pak Rinaldi Munir, yang telah dengan sabar mengajarkan materi Probabilitas dan Statistika dan pelajaran kehidupan yang berharga kepada penulis. Terima kasih kepada temanteman seperjuangan STI 2009 yang selalu bersama dalam susah maupun senang. REFERENCES [1] Wikipedia http://en.wikipedia.org/wiki/data_mining, [2] Wikipedia http://en.wikipedia.org/wiki/pattern_recognition, [3] Wikipedia http://en.wikipedia.org/wiki/naive_bayes_classifier, [4] Wikipedia http://en.wikipedia.org/wiki/bayes_inference, PERNYATAAN Dengan ini saya menyatakan bahwa makalah yang saya tulis ini adalah tulisan saya sendiri, bukan saduran, atau terjemahan dari makalah orang lain, dan bukan plagiasi. Bandung, 17 Desember 2010 Trilaksono Aribowo (18209015)