BAB. II. TINJAUAN PUSTAKA

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB. II. TINJAUAN PUSTAKA"

Transkripsi

1 BAB. II. TINJAUAN PUSTAKA Klasifikasi merupakan sebuah tugas dasar untuk menganalisa data dan pengenalan pola yang membutuhkan sebuah model klasifikasi, yaitu suatu fungsi/model yang dapat memberikan label kelas berdasarkan atribut-atribut pada suatu data. Permasalahan yang timbul adalah membangun sebuah model klasifikasi. Ada beberapa teknik yang dapat dipakai untuk membangun sebuah model klasifikasi, antara lain decision tree, neural networks, backpropagration. Salah satu teknik yang dapat digunakan untuk membangun model klassifikasi adalah Bayesian Networks[FRI97]. Ketika membangun model klasifikasi berdasarkan Bayesian Networks, terdapat 2 (dua) tugas utama yang harus dilakukan, yaitu pembelajaran dalam membangun struktur DAG (directed acyclic graph) dan pembelajaran untuk menghitung CPT (Conditional Probability Table). Ada dua pendekatan learning (pembelajaran) yang dapat dilakukan untuk membangun struktur Bayesian Networks dari suatu basis data yaitu : (1) Scored Based : menggunakan metode pencarian untuk mendapatkan struktur yang cocok dengan data, dimana proses kontruksi dilakukan secara iteratif, dimulai dari sebuah graf tanpa edge kemudian menggunakan metode pencarian untuk menambahkan sebuah edge pada graf dan berhenti ketika tidak ada struktur baru yang lebih baik daripada struktur sebelumnya, (2) Constraint Based (Dependency Analysis) : yaitu mengidentifikasi / menganalisa hubungan bebas bersyarat (conditional independence-ci) antar atribut, di mana CI menjadi constraint dalam membangun struktur Bayesian Networks. Bab ini berisi teori dasar yang dipakai penulis dalam melakukan penelitian untuk membangun aplikasi data mining struktur Bayesian Networks. Selain itu, bab ini juga berisi uraian algoritma dependency analysis based berdasarkan studi literatur, yaitu TPDA (Three Phase Dependency Analysis) [JIE01]. Fokus penelitian adalah mengaplikasi algoritma tersebut kedalam perangkat lunak dengan menggunakan data bank sebagai bahan studi kasus. 8

2 II.1 Definisi Data Mining Data Mining adalah proses otomatis untuk mendapatkan pengetahuan berdasarkan nilai-nilai yang terdapat pada basis data berukuran besar [TAN06]. Data mining didesain untuk dapat memindai basis data yang bertujuan untuk menemukan informasi yang berguna yang sebelumnya tidak diketahui. Salah satu teknik data mining dapat digunakan untuk memprediksi nilai yang akan keluar dari suatu domain yang diteliti[tan06], sebagai contoh adalah untuk memprediksi apakah pelanggan baru akan membelanjakan uangnya sebanyak Rp ,- pada suatu supermarket pada hari-hari tertentu. II.2 Beberapa Metode untuk Data Mining Fungsionalitas dari tugas data mining adalah untuk menemukan pola/tingkah laku dari suatu dataset yang diamati. Untuk itu dalam tugas data mining, ada beberapa metode yang dipakai untuk melakukan tugas data mining, yaitu diantaranya aturan asosiasi, klasifikasi dan analisa cluster. Tesis ini lebih fokus pada metode klasifikasi, sehingga dua metode lain hanya diuraikan secara singkat saja. II.2.1 Aturan Asosiasi Aturan asosiasi (Association Rule) atau disebut juga dengan Association Analysis adalah metode data mining untuk mencari suatu aturan hubungan yang menunjukkan kondisi didalam satu set data, di mana beberapa atribut-nilai akan muncul secara bersamaan[han02]. Metode ini lebih banyak digunakan untuk analisa data transaksi atau market basket analysis. II.2.2 Klasifikasi Klasifikasi (classification) adalah metode data mining yang dapat digunakan untuk proses pencarian sekumpulan model (fungsi) yang dapat menjelaskan dan membedakan kelas-kelas data atau konsep, yang tujuannya supaya model tersebut dapat digunakan untuk memprediksikan objek kelas yang labelnya tidak diketahui atau dapat memprediksikan kecenderungan data-data yang akan muncul dimasa depan [HAN01]. Untuk sebuah model klasifikasi, yang menjadi masukkan adalah kumpulan record yang disebut sampel, dianggap sebagai tuple(x,y), di mana x adalah 9

3 himpunan atribut dan y adalah atribut khusus yang disebut dengan label kelas (juga dikenal dengan sebutan atribut kelas target)[tan01]. Klasifikasi juga dapat didefinisikan sebagai tugas/pekerjaan dari pembelajaran sebuah fungsi target f yang memetakan setiap kumpulan atribut x ke salah satu label kelas y. Fungi target secara informal dikenal sebagai model klasifikasi. Proses klasifikasi di gambarkan seperti Gambar 2.1[TAN02] (lebih rinci proses klasifikasi dapat dilihat pada gambar 1.1). Input Set Atribut X Model Klasifikasi F(x) Output Class Label Gambar 2.1. Model Klasifikasi sebagai Fungsi F(x) [TAN01] II.2.3 Clustering Pengelompokan atau disebut dengan Clustering adalah suatu proses pengelompokkan data-data ke dalam kelas yang disebut clusters, yang dimaksud dengan cluster adalah sebuah koleksi objek data yang mirip yang berada pada satu cluster tetapi berbeda dengan koleksi objek data lain yang berada pada cluster yang berbeda[han02]. Ukuran dari kesamaan dan perbedaan dari objek data diukur dari nilai atribut yang mendeskripsikan objek data tersebut. Aplikasi Clustering Analysis banyak digunakan pada aplikasi seperti analisis data, pengolahan citra, dan riset pemasaran. Walaupun clustering menggunakan kelas-kelas untuk membedakan objek data satu dengan objek data lainnya, namun clustering berbeda dengan klasifikasi. Perbedaan terdapat pada proses identifikasi/penentuan kelas-kelas data tersebut. Jika pada klasifikasi, kelas data sudah ditentukan sebelum model dihasilkan, sedangkan pada clustering kelas-kelas data diketahui setelah model dihasilkan.. II.3 Bayesian Networks Bayesian Networks adalah sebuah directed acyclic graph (DAG) dengan sebuah tabel probabilitas untuk setiap node. Node yang terdapat pada Bayesian 10

4 Networks merupakan representasi variable proporsional dalam suatu domain dan garis menunjukkan hubungan ketergantungan di antara varibel-variabel [JIE01]. Dalam hal kaitannya dengan basis data, pada Bayesian Networks node merupakan representasi dari atribut-atribut tabel yang ada pada basis data. Gambar 2.2 merupakan contoh sederhana dari Bayesian Networks. Gambar 2.2. Contoh sederhana Bayesian Networks [JIE96]. II.4 Fundamental Probabilitas Bayesian Sub bab ini berisi beberapa uraian tentang fundamental/dasar probabilitas Bayesian, yaitu aksioma dasar, konsep prior probabilities dan probabilitas bersyarat. II.4.1 Aksioma Notasi X) menyatakan probabilitas dari suatu kejadian X. Nilai dari X) mempunyai interval sebuah nilai real [0..1] [JEN96]. Aksioma dasar dari probabilitas tersebut adalah : a) X) = 1 jika dan hanya jika X merupakan kejadian yang mutlak terjadi (true) b) X) = 0 jika dan hanya jika X merupakan kejadian yang tidak pernah terjadi (false) c) 0 X) 1 menunjukkan tingkat/ derajat kepercayaan bahwa kejadian bernilai true. d) Jika X dan Y merupakan kondisi mutually exclusive maka X Y ) = X) + Y) 11

5 II.4.2 Prior Probabilitas dan Probabilitas Bersyarat Prior probabilities dapat ditulis dalam notasi X) adalah derajat kepercayaan untuk suatu informasi tertentu yang ada, sebagai contoh jika diberikan sebuah informasi mengenai kemungkinan untuk setiap orang di dunia mempunyai penyakit jantung adalah sebesar 0.3, maka prior probabilities mengenai informasi tersebut dapat ditulis dengan Penyakit=Jantung)=0.3. Prior probabilities digunakan ketika tidak ada informasi lain yang dapat digunakan untuk melihat kemungkinan terjadinya suatu kejadian, tetapi begitu informasi baru diketahui maka probabilitas yang baru harus dilihat berdasarkan informasi yang baru diketahui tersebut. Probabilitas jenis ini disebut probabilitas bersyarat (conditional probabilities). Pernyataan probabilitas bersyarat ditulis dalam notasi A B )= x, yaitu jika diberikan suatu kejadian B yang yang sudah terjadi, maka probabilitas dari kejadian A adalah sebesar x [JEN96]. Sebagai contoh, jika manusia berjenis kelamin pria, maka probabilitas untuk mengidap penyakit jantung adalah 0.5. Pernyataan tersebut dapat ditulis dalam Penyakit=Jantung Jenis_kelamin=Pria)=0.5. Notasi Y X) dapat diformulasikan dengan menggunakan Persamaan 2.1 yang disebut dengan Teorema Bayes yaitu [TAN04] : P ( Y X ) = X Y ) Y ) X ) 2.1 Teorema Bayes digunakan dalam memberikan suatu hipotesis Y berdasarkan bukti X yang ada, di mana dalam konteks ini maka notasi Y X) juga disebut dengan posteor probability dari Y yaitu derajat kemungkinan Y akan bernilai y jika nilai X diketahui, dan Y) disebut dengan prior probability dari Y. Sebuah tabel yang berisi probabilitas dari setiap kemungkinan nilai dari X dan Y disebut dengan Conditional Probability Table (CPT). Pada literatur-literatur yang ada notasi X Y) ditulis dengan notasi X,Y) yang disebut dengan joint probability. Joint probability distribution (JPD) adalah probabilitas kemunculan bersama untuk semua kemungkinan/kombinasi nilainilai yang terdapat pada variabel X dan Y. Sama seperti CPT, JPD dari suatu variable X dan Y adalah sebuah tabel yang berisi probabilitas untuk setiap kombinasi 12

6 nilai X =x 1,..x n, dan nilai Y=y 1,,y n yang dapat terjadi. Notasi X,Y) dapat ditulis dalam bentuk Persamaan 2.2[JEN96]. P ( X, Y ) = X Y ) Y ) Jika ditulis dalam bentuk setiap kombinasi nilai X dan Y yaitu x i, y j ) maka Persamaan 2.2 dapat ditulis kembali dalam bentuk Persamaan P ( xi, y j) = xi y j ) y j ) 2.3 Tabel 2.1 dan Tabel 2.2 merupakan contoh CPT dan JPD. Tabel 2.1 Contoh CPT untuk X Y) y 1 y 2 y 3 x x Tabel 2.2 Contoh JPD untuk X,Y) y 1 y 2 y 3 x x Berdasarkan Persamaan 2.3 untuk mendapatkan hasil probabilitas bersama yang terdapat pada Tabel 2.2, maka untuk masing-masing j pada kolom y j akan dikalikan dengan y j ), sehingga jika di asumsikan Y) =(0.4,0.4,0.2) yang terdapat pada Tabel 2.1 maka hasil dari X,Y) dapat dilihat pada Tabel 2.2 Dari Persamaan 2.2, x i ) dapat dihitung dengan menggunakan Persamaan 2.4 [JEN96], yaitu : m P ( x ) = x, y ) i j= i i j yaitu : Persamaan 2.4 disederhanakan untuk menghitung X) menjadi Persamaan 13

7 = Y P ( X) X, Y ) Dengan mengaplikasi Persamaan 2.5 ke dalam Tabel 2.2 maka didapat prior probability untuk X, X) = (0.4,0.6) 2.5 II.5 Dasar Bayesian Networks Bayesian Networks merupakan salah satu model yang dapat digunakan untuk klasifikasi. Berdasarkan literatur-literatur, metode ini adalah metode yang efektif dalam hal merepresentasikan model klasifikasi dengan beberapa alasan, antara lain: 1. Bayesian Networks dapat merepresentasikan hubungan kausalitas di antara variabel-variabel yang terdapat pada struktur Bayesian Networks[HEC96]. 2. Bayesian Networks mengeksploitasi hubungan bebas bersyarat (conditional independence) dalam membangun struktur jaringan sehingga dapat membangun model klasfikasi yang lebih compact [NEA04]. Hal tersebut mengakibat berkurangnya kompleksitas perhitungan dalam melakukan inferensi (mengambil keputusan). 3. Metode Bayesian yang digunakan pada Bayesian Networks membuat model klassifikasi yang dibangun terhindar dari model overfitting [HEC96]. Model overfitting adalah model klasifikasi yang benar-benar sangat cocok/dekat dengan training data yang digunakan, Ini menyebabkan ketika model digunakan untuk memprediksi data dengan menggunakan testing data akan menghasilkan performansi yang jelek. Hal bisa diakibatkan antara lainnya karena : terlalu banyak attribut/node yang digunakan dalam melakukan prediksi atau karena noise yang terdapat pada data. II.5.1 Definisi Bayesian Networks Bayesian Networks menyatakan representasi grafis hubungan kausalitas yang berada dalam himpunan variabel acak [TAN04]. Terdapat 2 eleman kunci dari Bayesian Networks yang dapat dijadikan sebagai definisi dari Bayesian Networks yaitu : 14

8 1. Merupakan sebuah directed acyclic graph di mana masing-masing node merepresentasikan sebuah variabel acak, dan masing-masing garis menggambarkan probabilitas ketergantungan dari node sebelumnya (node parent-nya). 2. Memiliki sebuah tabel probabilitas bersyarat (CPT) untuk masing-masing node ke node parent-nya. Sebagai ilustrasi, terdapat 3 variabel acak A, B dan C, di mana A dan B adalah variabel bebas dan masing-masing mempunyai pengaruh langsung kepada variabel C. Hubungan yang terjadi diantara ketiga variabel tersebut dapat digambarkan ke dalam directed acyclic graph seperti yang diperlihatkan pada Gambar 2.3. Setiap node mewakili sebuah varibel dan setiap garis mengambarkan hubungan ketergantungan antara 2 variabel. Jika terdapat garis dari A ke C, maka A merupakan parent C dan C merupakan child dari A. A B C Gambar 2.3. Contoh struktur sebuah DAG Gambar 2.4 Contoh lain dari sebuah struktur Bayesian Networks dapat dilihat pada 15

9 Gambar 2.4. Contoh struktur Bayesian Networks (CPT tidak ditampilkan) II.5.2 Kaidah Aturan Berantai Pada Bayesian Networks dikenal istilah kaidah aturan berantai (chain rule). Istilah ini digunakan untuk merepresentasikan joint probability distribution (JPD) yang terdapat pada struktur Bayesian Networks, di mana struktur tersebut kemungkinan akan terdiri dari N variabel/node. Jika kita anggap keseluruhan nodenode yang terdapat pada Bayesian Networks diwakili oleh U, maka JPD U) adalah perkalian dari semua probabilitas bersyarat yang terdapat pada struktur, yaitu : U ) = Ai pa( Ai)) i di mana pa(a i ) merupakan node parent dari A i. Sebagai contoh, JPD untuk struktur Bayesian Networks yang terdapat pada Gambar 2.4 adalah P ( U ) = A, B, C, D, E, F, G) = A) B) C D) D A, B) E A) F D) G E, C) Persamaan 2.2 dan Persamaan 2.3 dapat dipresentasikan juga dalam kaidah chain rule Bayesian Networks untuk N variabel. II.5.3 Topologi Jaringan Bayesian Networks Dalam kaitannya dengan struktur jaringan yang terdapat pada Bayesian Networks, terdapat tiga jenis topologi atau tiga tipe koneksi, yaitu koneksi serial, koneksi divergen dan koneksi convergen. Identifikasi topologi jaringan berguna untuk menentukan ketergantungan informasi diantara node-node yang terdapat pada Bayesian Networks. II Koneksi Serial Gambar 2.5 merupakan ilustrasi dari tipe koneksi serial. Nilai node A akan mempengaruhi probabilitas node B dan nilai node B akan mempengaruhi probabilitas node C, demikian juga sebaliknya nilai node C akan mempengaruhi probabilitas B dan nilai node B akan mempengaruhi probabilitas A[JEN96]. Tetapi, pada saat nilai B diketahui, maka jalur antara A dan C akan terputus (blocked), sehingga A dan C menjadi independent (saling tidak mempengaruhi). 16

10 Kondisi ini menyebabkan A d-separated dengan C karena B diketahui nilainya [JEN96]. Dengan kata lain informasi dapat mengalir dari A ke C jika nilai B belum / tidak diketahui. Gambar 2.5. Koneksi Serial [JEN96]. II Koneksi Divergen Seperti yang diperlihatkan pada Gambar 2.6, pada koneksi divergen, informasi dapat mengalir pada semua jalur yang ada dari A ke setiap node anaknya yakni B, C, D, E, dan F jika nilai dari A tidak diketahui. Namun ketika nilai A diketahui maka jalur-jalur yang berada pada node anak A akan terputus, sehingga B, C, D,, F akan menjadi saling tidak tergantung. Kondisi tersebut menyebabkan B, C, D,, F d-separated karena nilai A diketahui [JEN96]. Gambar 2.6. Koneksi Divergen [JEN96] II Koneksi Konvergen Pada struktur dengan tipe koneksi konvergen seperti yang diilustrasikan pada Gambar 2.7, jika tidak ada informasi yang diketahui pada node A, maka informasi diantara node-node parent dari A, yaitu B,C,, F akan independent, sehingga nilai yang berada pada node-node parent tersebut tidak akan mempengaruhi probabilitas node-node lain. Tetapi ketika nilai dari A di ketahui maka node-node parent A, yaitu B, C,, F akan menjadi saling tergantung, yaitu nilai untuk node-node parent akan mempengaruhi probabilitas node parent yang lain [JEN96]. 17

11 Gambar 2.7. Koneksi Konvergen [JEN96] II.5.4 Bebas Bersyarat dan d-separation Notasi bebas bersyarat (conditional independence) dapat ditulis dalam bentuk I(X, Y Z). Notasi tersebut menunjukkan bahwa X dan Y disebut bebas bersyarat jika nilai dari Z diketahui. Sehingga varibel X dan Y akan saling bebas berdasarkan Z jika memenuhi Persamaan 2.6, yaitu : P ( X Y, Z) = X Z ) 2.6 Persamaan 2.6 menunjukkan bahwa jika nilai dari Z diketahui maka tidak ada informasi dari Y yang akan mempengaruhi probabilitas dari X. Sebagai contoh [TAN06] dari bebas bersyarat adalah hubungan antara seseorang yang mempunyai lengan panjang (misalkan diwakili oleh node Y) dengan kemampuannya membaca (misalkan diwakili oleh node X). Seseorang yang mempunyai lengan yang lebih panjang cenderung(y) akan mempunyai kemampuan membaca yang lebih baik (X). Namun demikian hubungan tersebut dapat diabaikan jika terdapat faktor lain didalam relationship tersebut misalkan usia (misalkan diwakili oleh node Z). Dalam kondisi normal, usia (Z) akan mempengaruhi panjang lengan manusia(y). Anak kecil akan memiliki lengan yang lebih pendek dari pada orang dewasa yang mempunyai lengan yang lebih panjang. Orang dewasa mempunyai kemampuan membaca yang lebih baik daripada anak kecil. Dengan demikian hubungan antara lengan (Y) dengan membaca (X) dapat dihilangkan jika usia (Z) seseorang diketahui. Sehingga dapat disimpulkan bahwa panjang lengan (Y) bebas bersyarat dengan kemampuan membaca (X) jika umur (Z) diketahui. Contoh hubungan bebas bersyarat (conditional independence) dalam dilihat pada Gambar 2.4, untuk node A, C dan 18

12 node D. Node A dengan node C disebut bebas bersyarat jika nilai dari node D diketahui. D-separation merupakan bagian dari konsep bebas bersyarat, dapat dikatakan bahwa semua d-separation adalah bebas bersyarat [NEA04]. Sebuah node X disebut d-separation (direction separation) dengan node Y oleh node Z jika semua jalur yang menghubungkan node X ke node Y diblok oleh node Z. Berdasarkan tipe koneksi yang ada pada sturktur Bayesian Networks, d- separated dapat dikenali pada struktur Bayesian Networks, yaitu untuk dua variabel A dan B dan pada semua jalur antara A dan B terdapat variabel V jika [JEN96] : 1. Tipe koneksi adalah serial atau divergen dan nilai dari V diketahui, atau 2. Tipe koneksi adalah convergen dan bukan V atau bukan turunannya yang diketahui nilainya. II.6 Contoh Mengambil Keputusan Menggunakan Bayesian Networks Contoh berikut, diadaptasi dari [TAN01]. Berdasarkan Gambar 2.8, struktur Bayesian Networks terdiri enam variabel yang dipresentasikan dalam node node yaitu :Excercise (E), Diet(D), Hearth Disease (HD), Heartburn (Hb), Blood Pressure (BP), Chest Pain (CP) dan terdapat 3 skenario diagnosis untuk menentukan seseorang akan mempunyai penyakit jantung (HD=Yes) atau tidak (HD=No). Gambar 2.8. Struktur BN untuk Contoh Kasus Klassifikasi [HAN01]. 19

13 1. Kasus 1, Tanpa informasi awal Tanpa informasi awal, dapat ditentukan apakah seseorang dapat menderita penyakit jantung dengan menghitung prior probabilitas HD=Yes) dan HD=No). Untuk penyederhanaan notasi, dianggap α { Yes, No } mewakili nilai binary dari Exercise dan β { Healty, Unhealty} mewakili nilai binary dari Diet. Dengan mengimplementasikan Persamaan 2.4 dan kaidah chain rule, maka didapat : HD=Yes) = P ( HD = Yes) E =, D = ) E =, D = α β α β α β ) = P ( HD = Yes) E =, D = ) E = ) D = α β α β α β ) = 0.25 x 0.7 x x 0.7 x x 0.3 x x 0.3 x 0.75 = 0.49 Karena HD=no) = 1 HD=yes) =0.51, maka dapat diambil kesimpulan bahwa seseorang akan lebih besar kemungkinan untuk tidak mempunyai penyakit jantung. 2. Kasus 2, Tekanan Darah Tinggi Jika seseorang mempunyai tekanan darah tinggi (high blood pressure), sebuah diagnosa mengenai penyakit jantung dengan membandingkan posterior probability, HD=Yes BP=High) dengan HD=No BP=High). Untuk melakukan hal ini, pertama kali harus dihitung P (BP=High). BP=High) = P ( BP = High HD = γ ) HD = γ ) γ = 0.85 x x 0.51 = di mana γ { Yes, No}. Selanjutnya menghitung posterior probability seseorang akan mempunyai penyakit jantung : BP = High HD = Yes) HD = Yes) HD=Yes BP=High) = BP = High) = =

14 Dengan cara yang sama HD=No HB=high) = 1 (HD=Yes BP=High) = = Berdasarkan perhitungan diatas seseorang dengan high blood pressure (tekanan darah tinggi) akan lebih berisiko untuk mempunyai penyakit jantung. 3. Kasus 3, Tekanan Darah Tinggi, Diet Sehat dan Olahraga Seandainya diberitahukan bahwa seseorang berolahraga dengan teratur (reguler exercise) dan melakukan diet sehat (healthy diet), dan ditanya kemungkinan orang tersebut akan mempunyai penyakit jantung (heart disease). Dengan informasi baru tersebut, posterior probability bahwa seseorang dapat mempunyai penyakit jantung adalah : HD=Yes BP=High,D=Healthy,E=Yes) BP = High HD = Yes, D = Healthy, E = Yes) = BP = High D = Healthy, E = Yes) P ( HD = Yes D = Healthy, E = Yes) = BP = High HD = Yes) HD = Yes D = Healthy, E = Yes) BP = High HD = γ ) HD = γ D = Healhty, E = Yes) γ = = Sedangkan probabilitas seseorang tidak mendapat penyakit jantung : HD=No BP=High,D=healthy,E=yes)= = Dengan demikian model mengambil kesimpulan bahwa tekanan darah tinggi yang dibarengi dengan diet yang sehat, olahraga secara teratur akan mengurangi resiko penyakit jantung. II.7 Algoritma untuk Membangun Struktur Bayesian Networks Algoritma yang dapat digunakan dalam membangun struktur Bayesian Networks dapat dibagi menjadi dua kategori yaitu (1) algoritma yang menggunakan suatu metode pencarian untuk membangun model dan mengevaluasi model tersebut 21

15 berdasarkan suatu nilai skor. Proses ini akan berlanjut dan berhenti jika suatu nilai (skor) model yang ke n tidak mempunyai perbedaan yang lebih baik yang signifikan dibandingkan model ya ke n-1[jie97], algoritma ini disebut juga dengan Scoring Based Algorithm, contoh algoritma yang termasuk dalam kategori adalah K2 yang dikembangan oleh G.F Cooper dan E.A Herskovits (1992) ; (2) algoritma yang membangun struktur Bayesian Networks dengan menganalisa hubungan ketergantungan yang terdapat diantara node-node / variabel / atribut data. Hubungan ketergantungan tersebut diukur dengan melakukan pengujian bebas bersyarat, dengan kata lain algoritma membangun struktur Bayesian Networks dengan mengidentifikasi hubungan bebas bersyarat yang terdapat diantara node-node. Algoritma ini disebut juga dengan CI Algorithm yang merupakan bagian dari kategori Constraint Based Algorithm, contoh algoritma yang termasuk dalam kategori ini adalah TPDA (Three Phase Dependency Analysis) dan SLA (Simple Learning Algorithm) yang dikembangkan oleh Jie Cheng, Russel Greiner dan Jonathan Kelly (2001). Didalam tesis ini penelitian dibatasi hanya untuk mengeksplorasi secara studi literatur algoritma TPDA dengan alasan karena faktor ketersediaan literatur-literatur mengenai algoritma tersebut, dibandingkan dengan algoritma lain, algoritma TPDA lebih terbuka dipublikasikan termasuk pseudo-codenya. II.7.1 Three Phase Dependency Analysis (TPDA) Seperti yang telah disebutkan diatas algoritma TPDA ini dikembangkan oleh Cheng, Russel dan Kelly (2001). Tujuan dari algoritma ini adalah untuk menentukan node mana yang seharusnya terhubung dengan node lainnya, yaitu menentukan / mencari atribut-atribut yang seharusnya saling berhubungan. Algoritma ini akan bekerja secara inkremental di mana setiap fase akan memiliki himpunan arcs (garis penghubung), di mana himpunan tersebut bisa ditambah dengan garis yang baru atau menghapus garis yang sudah ada. Keputusan dalam melakukan hal tersebut (menambah atau menghapus garis) adalah berdasarkan aliran informasi yang terdapat pada sepasang node yang akan dianalisa oleh algoritma yang akan menentukan apakah suatu node d-separated dengan node lain. Tolok ukur yang dipakai adalah dengan menghitung mutual information antara dua node. 22

16 Algoritma ini memandang Bayesian Networks sebagai sebuah jaringan channel informasi [JIE01] di mana setiap node dianggap sebagai valve yang mempunyai status aktif atau tidak aktif dan dapat berubah dari aktif menjadi tidak aktif dan sebaliknya. Setiap valve saling berhubungan melalui jalur-jalur (channel) informasi. Informasi dapat mengalir melalui valve yang aktif, tetapi tidak dapat mengalir melalui valve yang tidak aktif. Sebagai contoh jika seandainya terdapat dua node X dan Y yang secara tidak langsung saling berhubungan dalam sebuah jaringan, jika jaringan tersebut benar, maka asumsinya adalah tidak akan ada informasi yang mengalir di antara dua node tersebut jika semua jalur yang menghubungkan X dan Y di tutup dengan mengubah status valves yang terdapat di sepanjang jalur node X dan Y, ketika hal tersebut dilakukan maka X dan Y d- separated. Cara kerja algoritma adalah mencoba menutup semua jalur koneksi dan melihat apakah dataset menunjukkan adanya aliran informasi lainnya di antara dua node tersebut ketika d-seperated. Jika ada aliran informasi yang lain maka algoritma akan membuat asumsi bahwa struktur tidak benar dan akan menambah garis yang baru antara X dan Y secara langsung. II Konsep Dasar TPDA Berikut ini akan diberikan beberapa konsep dasar yang terdapat pada TPDA yang ditulis oleh pengembang algoritma ini yaitu Cheng, Russel dan Kelly (2001). Pada dasarnya konsep-konsep tersebut merupakan definisi-definisi atau istilah yang dipakai pada algoritma TPDA. Beberapa definisi tersebut meupakan definisi yang telah diuraikan / ditulis pada sub-bab sub-bab sebelumnya. Definisi-definisi tersebut antara lain adalah : Adjacency Path, merupakan jalur-jalur yang dapat menghubungkan dua node X dan Y tanpa melihat arah dari jalur. Pada Gambar 2.9, C-E-D merupakan adjacency path yang menghubungkan C dan D, walaupun garis yang menghubungkan node-node tersebut berbeda arah. Gambar 2.9. Contoh Multi Koneksi pada Bayesian Networks [JIE01]. 23

17 Collider, merupakan sebuah node V yang menjadi titik pertemuan antara node X dan Y. Pada Gambar 2.9, node E merupakan sebuah collider, karena node C dan D bertemu pada node E. Strukur jaringan C-E-D mirip seperti topologi convergen connection pada Bayesian Networks. Secara formal sebuah node V disebut collider pada satu jalur a 1, a 2, a i-1 = (X,V), a i = (Y,V),, a k, jika dua garis searah yang berasosiasi dengan node yaitu node a i-1 =(X,V) dan node a i =(Y,V) bertemu di V. Dengan kata lain, jika dua garis pada satu jalur di mana ujungnya bertemu di V maka V disebut node collider pada jalur tersebut. Conditional Independence (CI), Jika X,Y, Z merupakan variabel node, secara formal X dan Y disebut conditionally independent karena Z jika untuk semua nilai x X, y Y, z Z, x, y,z)=p(x z) di mana y,z)>0. d-separation, untuk sebuah directed acyclic graph DAG=(N,A) di mana X, Y N dan X Y, L N \{X,Y} maka X dan Y disebut d-separated karena diberikan status L pada struktur G, jika dan hanya jika tidak terdapat satupun adjacency path yang terbuka (open), di mana sebuah adjacency path P disebut open jika dan hanya jika (iff): Semua collider pada jalur P berada dalam L atau mempunyai turunan pada L dan Tidak ada node-node selain collider yang di P berada pada L. Pada Gambar 2.9, jika belum diketahui informasi apapun (empty evidence), maka C dan D adalah d-separated. Mengubah status dari suatu node berarti memasukkan node ke dalam cut-set, oleh karena itu ketika collider E dimasukkan ke dalam cut-set maka akan membuat jalur dan C ke D terbuka, sementara meletakkan non-collider B ke dalam cut-set akan menutup jalur A-B-C-E dan A-B-D-E, sehingga A dan E d-separated. Mutual Information, adalah tolok ukur yang dipakai untuk menentukan besaran aliran informasi antara node A dan B. Mutual Information dapat didefinisikan sebagai Persamaan 2.7 a, b) I ( A, B) = a, b)log 2.7 a) b) 24

18 Sedangkan Conditional mutual information, yaitu mutual information berdasarkan nilai yang terdapat pada node C dapat ditulis dalam bentuk Persamaan 2.8 I ( A, B C) = a, b c) a, b c)log a c) b c) 2.8 A dan B dikatakan independent jika I(a,b) 0 (diwakilkan dengan sebutan nilai threshold)[jie01]. Nilai threshold ε yang dianjurkan adalah 0.01 [JIE01], sehingga algoritma ini akan mengatakan bahwa A dan B akan independent jika I(a,b) < ε, di mana ε =0.01. Semakin tinggi nilai mutual information antara dua node/variabel, semakin tinggi kemungkinan untuk membuat garis yang menghubungkan node-node tersebut [BEK05;JIE97]. TPDA menggunakan mutual information ini sebagai CI (conditional independence) sehinggan CI menjadi constraint dalam membangun struktur Bayesian Networks. II.7.2 Algoritma TPDA tanpa Pengurutan Node Algoritma TPDA dibagi dalam 2 (dua) kategori, yaitu algoritma untuk node ordering dan algoritma tanpa node without ordering. Node ordering maksudnya adalah variabel-variabel telah diurut sedemikian rupa, yaitu node yang mana akan menentukan node selanjutnya akan tampil telah ditentukan sebelumnya. Urutan ini bisa berdasarkan pemikiran dari para ahli analisa yang menentukan satu variabel mana yang dapat mempengaruhi variabel lain. Node without ordering merupakan kebalikan dari node ordering. Pada penelitian ini, algoritma yang diekplorasi adalah algoritma TPDA dengan node without ordering karena didasarkan oleh pengetahuan penulis yang bukan merupakan seorang ahli dalam kasus yang akan di implementasikan. Algoritma ini terdiri dari tiga fase / tahap yaitu fase drafting, thickening, dan thinning dan orients edges. TPDA diawali dengan fase drafting, di mana fase ini menghasilkan inisialisasi sekumpulan garis penghubung dengan melakukan pengujian pada struktur jaringan yang ada. Draft merupakan sebuah graph tanpa loops yang menggunakan Chow-Liu algoritma [GRO06;LIU96]. Fase kedua adalah thickening, TPDA menambahkan garis pada graph ketika dua node tidak dapat di 25

19 pisahkankan (non d-separated) dengan menggunakan pengujian CI yaitu menghitung mutual information antara 2 (dua) node. Fase ketiga adalah thinning adalah fase di mana setiap garis akan di uji dan dihapus jika dua node diketahui bebas bersyarat, fase ini diakhiri dengan memanggil prosedur orients edges untuk menentukan arah garis. Uraian lebih lengkap untuk ketiga fase fase adalah sebagai berikut [JIE98]: Fase 1 : Drafting 1. Menginisialisasi grafik G (V,E) di mana V= adalah node-node dari dataset, E={} (himpunan kosong). Menginisialisasi sebuah list L yang kosong. 2. Untuk setiap pasangan node-node (v i, v j ), di mana v i, v j merupakan elemen dari V dan i j, hitung nilai mutual information I(v i,v j ) menggunakan Persamaan 2.7. Untuk semua pasangan node-node yang memiliki nilai mutual information lebih besar dari sebuah nilai ε, node-node tersebut diurut mengecil dan letakkan pada list L. Selanjutnya buat sebuah pointer p yang mengacu kepada pasangan node yang pertama pada list L. 3. Ambil pasangan node yang pertama yang ada pada list L dan hapus dari L. Selanjutnya tambahkan garis ke E. Pindahkan pointer p ke pasangan node yang selanjutnya. 4. Ambil pasangan node-node dari L yang ditunjuk oleh pointer p. Jika tidak terdapat jalur yang terbuka (no adjacency path), tambahkan garis ke E dan hapus node tersebut dari L. 5. Kembali ke no. 4, dan berhenti pointer p menunjuk ke akhir list L. Untuk memberikan ilustrasi mekanisme kerja algoritma ini, penulis akan memberikan contoh yang diberikan oleh Cheng [JIE98;JIE01]. Seperti yang terlihat pada Gambar 2.9a, terdapat sebuah struktur Bayesian Networks dari suatu data. Tugas dari algoritma TPDA adalah untuk menemukan kembali struktur Bayesian Networks di mana Gambar 2.9a sama seperti Gambar 2.9d. 26

20 Gambar 2.9. Contoh struktur BN untuk implementasi TPDA[JIE01] Setelah melakukan langkah ke-2 dari pada tahap drafting, maka akan diperoleh mutual information untuk 10 pasang node. Seandainya I(B,D) I(C,E) I(B,E) I(A,B) I(B,C) I(C,D) I(D,E) I(A,D) I(A,E) I(A,C), di mana semua mutual information pasangan node tersebut lebih besar dari e, sehingga L akan berisi [{B,D}, {C,E} {B,E}, {A,B}, {B,C}, {C,D}, {D,E}, {A,D}, {A,E}, {A,C}]. Setelah melalui langkah 3, 4, dan 5, isi list L yang terakhir berisi [{B,C}, {C,D}, {D,E}, {A,D}, {A,E}, {A,C}]. Untuk pasangan node (B,D),(C,E),(B,E), (A,B), (B,C) akan langsung ditambahkan masing-masing garis penghubung mengingat bahwa pasangan node-node tersebut belum ada adjacency path. Akhir dari tahap ini akan menghasilkan struktur seperti yang terlihat pada Gambar 2.9b. Pada gambar tersebut garis (B,E) adalah salah, sedangkan (D,E) dan (B,C) akan hilang karena sudah terdapat adjacency path (D-B-E) dan (B-E-C). Struktur ini akan menjadi dasar dalam dalam membangun struktur selanjutnya pada untuk tahap kedua yaitu thickening. Fase 2 : Thickening 6. Pindahkan pointer p ke pasangan node pertama yang ada pada list L. 7. Ambil pasangan node tersebut (node1,node2) yang berada pada posisi pointer p saat ini. Selanjutnya panggil prosedur edge_needed_a(current_graph,node1,node2) untuk menentukan apakah node-node tersebut dapat dipisahkan (d-separated). Jika d- separated, langkah 8 akan dijalankan, tetapi jika non d-separated 27

21 maka node tersebut akan dihubungkan dengan menambahkan garis ke himpunan E. Prosedur edge_needed_a akan ditampilkan berikut dibawah ini. 8. Pindahkan pointer p ke pasangan node selanjutnya yang ada pada list L dan kembali ke langkah 7. Berhenti jika pointer p menunjuk pada akhir list L. Hasil dari fase ke-2 dapat dilihat pada Gambar 2.9c. Pada contoh yang diberikan garis (B,C) dan (D,E) ditambahkan karena D dan E bukan bebas bersyarat pada B, di mana B adalah cut-set yang terkecil antara D dan E. Garis (A,C) tidak ditambahkan karena A dan C independent karena cut-set B, demikian juga dengan garis (A,D), (C,D) dan (A,E) Fase 3 : Thinning 9. Untuk masing-masing garis (node1,node2) yang ada pada E, jika terdapat jalur-jalur lain selain garis tersebut diantara dua node-node itu, hapus sementara garis dari E dan panggil prosedur edge_needed_a(current_graph,node1,node2). Jika dua node tersebut bukan d-separated, tambahkan kembali garis untuk menghubungkan dua node itu ke E, jika dua node non separated maka garis dihapus secara permanen dari E. 10. Untuk setiap garis di E, jika terdapat jalur lain selain garis tersebut antara dua node, maka garis tersebut dihapus sementara dari E, selanjutnya jalankan prosedur edge_needed_b(current_graph,node1,node2), jika dua node adalah d-separated maka masukkan kembali garis yang dihapus tersebut ke E, jika dua node non d-separated maka hapus garis tersebut secara permanen. 11. Selanjutnya jalankan prosedur orients_edges(current_grap). Prosedure ini berguna untuk mengindentifikasi colliders[jie98;jie01],yaitu mengidentifikasi jalur yang dapat mengalirkan informasi ketika node collider tersebut di instansiasi. 28

22 Hasil dari fase ke-tiga dapat dilihat pada Gambar 2.9d. Tahap ini adalah fase perbaikan mengingat pada dua fase sebelum sebuah garis dapat ditambahkan dengan salah. Fase ini akan berusaha mencari jalur-jalur lain yang menghubungkan dua node, yaitu mencari kemungkinan adanya jalur yang menghubungkan dua node secara tidak langsung. Pada Gambar 2.9d terlihat bahwa garis (B,E) dihapus karena B dan E independent karena cut-set C, D. Pada akhirnya struktur Bayesian Networks yang terdapat pada Gambar 2.9a ditemukan kembali pada gambar 2.9d. Fase 2 (thickening) TPDA langkah ke-7 dan ke-9 memerlukan suatu prosedur algoritma, yaitu prosedur edge_needed_a(current_structur, node1, node2) yang berfungsi untuk mengidentifikasi apakah suatu node akan d-separated dengan node pasangannya. Adapun pseudocode untuk prosedur tersebut dapat dilihat pada Gambar Procedure edge_needed_a(struktur BN,node1,node2) : 1. Temukan node-node disekitar node1 dan node2 yang merupakan adjency path antara node1 dan node2 tersebut. Store node-node tersebut ke N1 untuk node1 dan N2 untuk node2. 2. Hapus child node node1 yang diketahui dari N1 dan child node node2 dari N2. 3. Jika kardinalitas N1 > dari N2 maka tukar nilai N1 ke N2 dan N2 ke N1 4. Gunakan N1 sebagai condition-set (himpunan kondisi) C. 5. Lakukan penghitungan pengujian CI menggunakan Persamaan 2.8. Untuk v=i(node1,node2 C) di mana v < ε, maka prosedur ini mengembalikan nilai return - ( separated ). 6. Jika C berisi hanya satu node, lompat ke langkah yang ke 8, jika tidak : untuk setiap i di mana C i = C \ {i th node C}, v i =I(node1,node2 C i ), temukan v m yang terkecil dari v 1,v 2, 7. Jika v m < ε, return( separated ), selain itu jika v m > v maka lompat ke langkah 8, atau v m =v, C m =C, dan ulangi langkah Jika N2 belum pernah digunakan, maka gunakan N2 sebagai condition-set C, dan ulangi langkah 5. Jika sudah pernah digunakan maka return( failed ). Gambar Prosedur edge_needed_a 29

23 Prosedur edge_needed_a menggunakan metode heuristik untuk mencari cutset, namun demikian prosedur ini tidak selamanya dapat memisahkan dua node yang bebas bersyarat [JIE98;JIE01]. Oleh sebab itu diperlukan sebuah prosedur yang benar untuk melakukan pengecekan ulang. Pada langkah ke-10, prosedur tersebut bernama edge_needed_b(struktur,node1,node2). Pseudocode untuk prosedur tersebut dapat dilihat pada Gambar Prosedur edge_needed_b(struktur,node1,node2) : 1. Temukan node-node disekitar node1 dan node2 yang merupakan adjacency path antara node1 dan node2 tersebut. Store node-node tersebut ke N1 untuk node1 dan N2 untuk node2. 2. Temukan node-node disekitar N1 yang merupakan adjacency path antara node1 dan node2 tersebut dan bukan kepunyaan N2. Store node-node tersebut ke N1. 3. Temukan node-node disekitar N2 yang merupakan adjacency path antara node1 dan node2 tersebut dan bukan kepunyaan N1. Store node-node tersebut ke N2. 4. Jika N1+N1 < N2+N2 maka C=N1+N1, jika tidak C =N2+N2 5. Lakukan penghitungan pengujian CI menggunakan Persamaan 2.8. Untuk v=i(node1,node2 C). Jika v < ε, maka prosedur ini mengembalikan nilai return - ( separated ), jika tidak, jika C hanya berisi satu node maka return( failed ). 6. Andaikan C =C, untuk setiap i [1,C], dan andaikan C i =C\{node C yang ke i}, v i =I(node1,node2 C i ), jika vi < ε maka return ( separated ), atau jika v i v + e, maka C =C \{node C yang ke-i }. ( e adalah nilai yang kecil ) 7. Jika C < C maka C=C, ulangi langkah 5, jika tidak return( failed ). Gambar Prosedur Edge_Needed_B Pada Fase ke-3 yaitu thinning, terdapat prosedur orients_ edge(struktur), yang berguna untuk memastikan arah dari garis dari satu node ke node lain sudah benar. Berdasarkan karakteristik Bayesian Networks, algoritma prosedur ini diupayakan untuk mengidentifikasi colliders (V-Struktur) dengan menggunakan pengujian CI [JIE98;JIE01]. Dengan terindentifikasinya collider, maka sub rutin ini akan memutar sebanyak mungkin garis untuk mencari strukutr V yang dapat menyalurkan informasi (open path) pada saat instansiasi struktur. Prosedur orients_ edge(struktur) dapat dilihat pada Gambar

24 prosedur orients_ edge(struktur); 1. Untuk setiap dua node s 1 dan s 2 yang terhubung secara tidak langsung dan di mana setidaknya terdapat satu node yang merupakan tetangga s 1 dan s 2, temukan node-node sekitar s 1 dan s 2 yang berada pada adjacency path antara s 1 dan s 2, Simpan node-node tersebut pada himpunan N1 dan N2. 2. Temukan tetangga dari node-node yang ada di N1 yang berada pada adjacency path antara s 1 dan s 2 tetapi tidak terdapat pada N1 dan simpan node-node tersebut dalam himpunan N1 3. Temukan tetangga dari node-node yang ada di N2 yang berada pada adjacency path antara s 1 dan s 2 tetapi tidak terdapat pada N2 dan simpan node-node tersebut dalam himpunan N2. 4. Jika N1 + N2 < N2 + N2 maka C=N1+N1 atau jika tidak C=N2+N2 5. Lakukan pengujian CI menggunakan Persamaan 2.8. Jika v = I(s1,s2 C). Jika v < ε, langsung ke langkah-8, jika tidak ; jika C =1 maka s1 dan s2 merupakan parent node dari C, lakukan langkah ke Andaikan C =C, untuk setiap i [1, C ], andaikan C i =C \ {node C yang ke-i}, v i =I(s 1,s 2 Ci). Jika v i v+e maka C =C \ {node C yang ke-i}, andaikan s 1 dan s 2 merupakan parent node dari node C yang ke-i jika node yang ke-i adalah tetangga dari s 1 dan s 2. Jika v 1 < ε, lakukan langkah ke-8. ( e merupakan nilai yang kecil). 7. jika C < C maka C=C, jika C >0 maka lakukan langkah ke Ulangi langkah ke-1 dan berhenti jika semua pasangan node telah di periksa 9. Untuk setiap tiga node a, b, c, jika a adalah parent dari b, b dan c adalah adjacent, dan a dan c tidak adjacent dan garis(b,c) tidak dapat di putar, maka b adalah parent dari c. 10. Untuk setiap garis(a,b) yang tidak dapat di putar, jika terdapat jalur searah (directed path ) dari a ke b, maka a adalah parent dari b. 11. Ulangi langkah ke-9 dan berhenti jika tidak ada lagi garis yang bisa di putar. Gambar Prosedur Orients_Edge II.8 Kajian Studi Literatur TPDA Kajian untuk kompleksitas dari algoritma TPDA dalam tesis ini berdasarkan studi literatur. Analisis kompleksitas TPDA telah dilakukan oleh pengembang algoritma tersebut yaitu [JI01]. Analisa yang dilakukan untuk algoritma TPDA adalah sama yaitu berdasarkan jumlah pengujian CI dan jumlah operasi dasar perhitungan yang dilakukan. Namun demikian, operasi dasar perhitungan tidak menjadi pertimbangan utama mengingat perkembangan teknologi sekarang, dimana 31

25 komputer modern dapat melakukan hampir semua perhitungan matematika dalam waktu hitungan sepersekian detik. Setiap pengujian CI membutuhkan satu query basis data, dan semakin tinggi kebutuhan dari pengujian CI maka akan semakin lambat query basis data dalam melakukan operasinya. Jika seandainya dataset mempunyai sejumlah N attribut dan masing masing atribut paling banyak mempunyai r kemungkinan nilai atribut dan mempunyai paling banyak k node parent, maka berdasarkan Persamaan 2.7, untuk setiap perhitungan mutual information membutuhkan O(r 2 ) [JIE01] operasi dasar perhitungan (seperti logaritma, perkalian dan pembagian). Sedangkan berdasarkan Persamaan 2.8, setiap perhitungkan conditional mutual information akan membutuhkan O(r k+2 ) [JIE01] operasi dasar perhitungan mengingat condition-set berisi sebanyak k node. Analisa kompleksitas berdasarkan pengujian CI adalah sebagai berikut : Fase I, fase ini menghitung mutual information antara dua node, sehingga membutuhkan N(N-1)/2 (di mana N adalah jumlah node) pengujian CI. Prosedur Egde_Needed_A, untuk kasus terburuk, N1 dan N2 dapat berisi N-2 node. Prosedur ini akan melakukan satu pengujian CI untuk N1 atau N2 sebagai condition-set inisial. Selanjutnya prosedur ini akan melakukan N-2 pengujian CI dengan menggunakan subset N-2 dari kardinalitas N-3 dari inisial condition-set sebagai condition-set. Jika seandainya prosedur tidak pernah dapat untuk memisahkan dua node, prosedur ini akam menghapus satu node secara permanen dengan memilih satu subset diantara N-2 subset yang ada dan mengulanginya dan berhenti jika kardinalitas dari condition-set sama dengan satu. Oleh sebab itu procedur ini akan melakukan 1 + (N-2) + (N-3) + +2=(N-1) (N-2)/2 pengujian CI yang dimulai dari salah satu dari dua set himpunan N1 atau N2. Dengan menggunakan N1 dan N2,maka kompleksitas pada prosedur ini adalah O(N 2 ) [JIE01]. Fase II, fase ini mencoba untuk untuk menambahkan garis ke graph yang didapat pada Fase I. Karena paling banyak N(N-1)/2-(N-1) garis yang akan ditambahkan, fase ini akan memanggil prosedure Edge_Needed_A paling banyak sebesar N(N-1)/2-(N-1) kali. Pengeksekusian prosedure tersebut 32

26 paling banyak memerlukan (N-1)(N-2). Sehingga fase ini membutuhkan paling banyak O(N 4 ) pengujian CI [JIE01]. Prosedur Edge_Needed_B, prosedur ini hampir sama dengan prosedur Edge_Needed_A. Pada kasus terburuk, inisial condition-set akan berisi N-2 node. Jika seandainya setiap iterasi hanya mampu menghilangkan satu node dari percobaan lebih lanjut, maka total jumlah pengujian CI yang dapat dilakukan maksimal adalah (N-1)(N-2)/2. [JIE02]. Dengan menggunakan N1+N1 dan N2+N2, maka kompleksitas pada prosedur ini adalah O(N 2 ). Prosedur Orient_Edges, prosedur ini akan memeriksa setiap pasangan node untuk melihat apada terdapat collider diantara dua node tersebut. Terdapat paling banyak N 2 pemeriksaan demikian. Kompleksitas waktu untuk setiap pemeriksaan sama seperti kompleksitas waktu dalam mengeksekusi prosedur Edge_Needed_B. Oleh karena prosedur ini memerlukan kompleksitas waktu sebanyak O(N 4 ) pengujian CI [JIE01]. Fase 3, fase ini akan mencoba menghilangkan setiap garis dari graph yang didapat dari fase dua. Karena terdapat N(N-1)/2 garis pada graph, fase ini akan menggunakan Edge_Needed_A dan Edge_Needed_B sebanyak N(N- 1)/2. Oleh karena itu total jumlah paling banyak pengujian CI pada fase ini sebelum rotasi garis adalah O(N 4 )[JIE01]. TPDA akan membutuhkan pengujian CI paling banyak sebesar O(N 4 ) kali. II.9 Visualisasi pada Data Mining Data mining merupakan gabungan dari beberapa area disiplin keilmuan. Salah satu diantaranya adalah visualisasi. Data dapat divisualisasikan dalam bentuk grafik maupun tabular. Visualisasi tersebut harus dapat menampilkan karakteristik data sehingga hubungan antara item-item data dapat diamati [TAN06]. Motivasi utama dari visualisasi adalah bahwa manusia dapat dengan cepat menyerap berbagai informasi yang ditampilkan dalam bentuk visual. Memvisualisasikan data adalah menampilkan sebuah informasi dalam bentuk grafik atau format tabular. Ada beberapa tahapan dalam visualisasi data. Tahap pertama data adalah memetakan data ke dalam elemen-elemen grafik, yaitu memetakan objek 33

27 data, seperti atribut dan hubungan antar objek data ke dalam bentuk-bentuk grafik seperti garis, titik, shape juga termasuk warna[tan06]. Tahap kedua adalah mengatur item-item yang terdapat pada tampilan visual[tan06]. Tahap terakhir adalah pemilihan, yaitu pemilihan objek data dan atribut-atribut yang akan di visualisasikan[tan06]. Dengan adanya visualisasi pada data mining, ada beberapa keuntungan yang diharapkan, antara lain yaitu [FAY02]: Tugas Data mining biasanya berhubungan dengan masalah statistik, oleh sebab itu dengan visualisasi ini pengguna (user) dengan pengetahuan sedikit tentang statistik dapat memahami dengan cepat informasi yang ditampilkan dan faktor-faktor utama (atribut dan nilai data) yang mempengaruhi peng-klasifikasi-an data. Pengguna (user) dapat melihat karakteristik untuk setiap kelas. Karakteritik kelas-kelas dapat dilihat dari daftar nilai-nilai untuk setiap atribut atau rentang (range) yang dapat membedakan satu kelas dengan kelas lainnya. Pengguna/user dapat berinteraksi dengan visualisasi, yaitu user secara langsung dapat mengklasifikasi data dengan melihat hasil visualisasi dan melihat perubahan prediksi ketika memilih suatu nilai untuk sebuah atribut. Banyak teknik grafis yang dapat dipakai untuk melakukan visualisasi suatu informasi data. Sebagian teknik yang umum dipakai secara ringkas dijelaskan pada sub bab berikut. II.9.1 Histogram Dalam disiplin ilmu statistik, histogram adalah suatu bentuk grafis yang digunakan untuk mempelajarai distribusi frekuensi nilai dari suatu variabel/atribut. Histogram merupakan versi grafis dari sebuah table yang menunjukkan proporsi dari kasus-kasus/kelas-kelas yang termasuk dalam suatu interval tertentu dengan distribusi frekuensinya. Intrepetasi sebuah histogram adalah dengan membentuk sebuah kolom yang digambar dengan lebar pada suatu kelas interval tertentu dan 34

28 tinggi kolom menunjukkan frekuensi yang proposional untuk kelas tersebut. Contoh dari sebuah histogram adalah Gambar Gambar Histogram waktu bepergian sensus penduduk Amerika II.9.2 Pie Chart Pie chart adalah suatu bagan yang berbentuk lingkaran yang dibagi menjadi beberapa sektor yang menggambarkan besaran suatu nilai atau frekuensi. Pada suatu pie chart, panjang busur setiap sektor (termasuk juga area yang meliputi panjang busur tersebut) merupakan representasi yang proporsional untuk sebuah nilai variabel. Jika setiap variable digambarkan untuk setiap area maka representasi nilainilai varibel tersebut akan membentuk suatu lingkaran yang penuh. Pie chart merupakan salah satu format grafis yang yang paling banyak digunakan untuk merepresentasikan proporsi-proporsi nilai pada suatu variabel. Bentuk grafis ini memungkinkan kita membentuk suatu pie chart yang dapat dipecah/dibagi dalam satu atau lebih variabel lain (misalnya pengelompokan jenis kelamin). Contoh sebuah pie chart dapat dilihat pada Gambar Contoh gambar dan penjelasan diambil dari diakses pada tanggal 22 Juni 2007 pukul WIB. 5 Contoh gambar dan penjelasan diambil dari diakses pada tanggal 22 Juni 2007 pukul WIB. 35

29 Gambar Contoh sebuah Pie Chart II.9.3 Bar/Colum Chart Bar chart, dikenal juga dengan bar graph, adalah suatu grafik/bagan dengan batang/palang (bar) yang berbentuk persegi panjang, di mana panjang bar merupakan representasi besaran frekuensi atau nilai suatu varibel yang ditampilkan. Bar dapat digambarkan secara horizontal maupun vertikal. Bentuk bar chart hampir sama dengan histogram. Namun demikian bar chart tidak sama dengan histogram. Histogram adalah representasi suatu nilai yang diikuti dengan representasi interval suatu kelas secara bersamaan, sedangkan bar chart adalah representasi suatu nilai variabel/data/atribut. Contoh dari bar chart dapat dilihat pada Gambar Gambar Contoh bar chart untuk representasi pemilu Eropa Contoh gambar dan penjelasan diambil dari diakses pada tanggal 22 Juni 2007 pukul WIB. 36

30 Pada Gambar 2.12 dapat dilihat untuk setiap nilai-nilai kursi yang didapat untuk setiap partai yang mengikuti pemilu di Parlemen Eropa tahun Jika bar chart digunakan untuk menampilkan nilai-nilai varibel yang didapat dari 2 domain yang berbeda (misalnya pemilu tahun 2004 dan 1999), maka bar chart dapat ditampilkan sebagai multivariate cluster of bar. Contoh jenis bar chart tersebut dapat dilihat pada Gambar Pada Gambar 2.13 dapat dilihat untuk perbandingan setiap nilai-nilai kursi yang didapat untuk setiap partai yang mengikuti pemilu di Parlemen Eropa tahun 2004 dan Gambar Contoh bar chart menampilkan pemilu tahun 2004 dan 1999 II.10 Aplikasi Visualisasi Bayesian Networks Pada saat tesis ini ditulis, sudah banyak aplikasi data mining untuk klasifikasi dengan Bayesian Networks yang telah dikembangkan oleh para peneliti data mining dengan fokus pengembangan dalam pembangunan/pembelajaran struktur Bayesian Network dan juga dalam melakukan inferensi (prediksi kelas). Beberapa diantaranya adalah paket aplikasi BN PowerSoft dan GeNie/SMILE. Penjelasan umum mengenai aplikasi visualisasi BN PowerSoft dan Genie/SMILE dapat dilihat pada Lampiran A. 7 Contoh gambar dan penjelasan diambil dari diakses pada tanggal 22 Juni 2007 pukul WIB. 37

ALGORITMA TPDA DAN TPDA Π SEBAGAI ALTERNATIF STRUKTUR BAYESIAN NETWORK

ALGORITMA TPDA DAN TPDA Π SEBAGAI ALTERNATIF STRUKTUR BAYESIAN NETWORK ALGORITMA TPDA DAN TPDA Π SEBAGAI ALTERNATIF STRUKTUR BAYESIAN NETWORK Ivan Michael Siregar, Mewati Ayub, Hendry Handaka Departemen Teknik Informatika, Institut Teknologi Harapan Bangsa Jl. Dipatiukur

Lebih terperinci

BAB 3 ANALISIS HIPOTESIS

BAB 3 ANALISIS HIPOTESIS BAB 3 ANALISIS HIPOTESIS Pada bagian ini dibahas mengenai analisis hipotesis sequential pattern dapat dimanfaatkan sebagai node ordering dalam mengkonstruksi struktur BN. Analisis dimulai dengan melakukan

Lebih terperinci

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan BAB. I. PENDAHULUAN I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan datanya secara elektronik dan bersifat

Lebih terperinci

APLIKASI PEMBANGUNAN BAYESIAN NETWORK PADA DATA MINING TESIS. HENGKY SIPAYUNG NIM : Program Studi Magister Informatika

APLIKASI PEMBANGUNAN BAYESIAN NETWORK PADA DATA MINING TESIS. HENGKY SIPAYUNG NIM : Program Studi Magister Informatika APLIKASI PEMBANGUNAN BAYESIAN NETWORK PADA DATA MINING TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Oleh HENGKY SIPAYUNG NIM : 23505015 Program

Lebih terperinci

Struktur Bayesian Network untuk Penentuan Class Karakteristik Siswa pada Sistem Tutor Cerdas

Struktur Bayesian Network untuk Penentuan Class Karakteristik Siswa pada Sistem Tutor Cerdas Struktur Bayesian Network untuk Penentuan Class Karakteristik Siswa pada Sistem Tutor Cerdas Ika Widiastuti #1, Ratih Ayuninghemi #2 # Jurusan Teknologi Informasi, Politeknik Negeri Jember Jl. Mastrip

Lebih terperinci

BAB. III. ANALISA PERMASALAHAN

BAB. III. ANALISA PERMASALAHAN BAB. III. ANALISA PERMASALAHAN Pada Bab II telah diuraikan beberapa teori dasar yang akan menjadi acuan / referensi ilmiah dalam melakukan penelitian. Bab ini akan berisi studi kasus yang dibangun dari

Lebih terperinci

BAB 2 DASAR TEORI Bayesian Network

BAB 2 DASAR TEORI Bayesian Network BAB 2 DASAR TEORI Bab ini berisi konsep yang berhubungan dengan Bayesian network (BN), node ordering, dan sequential pattern (SP). Penjelasan dimulai dari pendahuluan, konsep dan teori dasar BN, pendekatan

Lebih terperinci

IMPLEMENTASI DAN PENGUJIAN

IMPLEMENTASI DAN PENGUJIAN BAB. V. IMPLEMENTASI DAN PENGUJIAN V.1 Implementasi SIDAMIBAYES Hasil perancangan yang telah dilakukan pada pada tahap perancangan selanjutnya akan diimplementasi menjadi program/perangkat lunak yang siap

Lebih terperinci

ANALISA DAN PERANCANGAN PERANGKAT LUNAK

ANALISA DAN PERANCANGAN PERANGKAT LUNAK BAB. IV. ANALISA DAN PERANCANGAN PERANGKAT LUNAK IV.1 Analisa Perangkat Lunak Subbab ini berisi uraian tentang analisa untuk membangun perangkat lunak yang mengimplementasikan salah satu algoritma yang

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

PENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP

PENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP PENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP Humasak Tommy Argo Simanjuntak 1) Manajemen Informatika, Politeknik Informatika Del Jl. Sisingamangaraja, Sitoluama,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING BAB IV GAMBARAN UMUM METODOLOGI DATA MINING A. Metodologi Data Mining Metodologi Data Mining Komponen data mining pada proses KDD seringkali merupakan aplikasi iteratif yang berulang dari metodologi data

Lebih terperinci

BAB 6 METODE PENGUJIAN

BAB 6 METODE PENGUJIAN BAB 6 METODE PENGUJIAN Metode pengujian adalah cara atau teknik untuk menguji perangkat lunak, mempunyai mekanisme untuk menentukan data uji yang dapat menguji perangkat lunak secara lengkap dan mempunyai

Lebih terperinci

Aplikasi Algoritma Dijkstra dalam Pencarian Lintasan Terpendek Graf

Aplikasi Algoritma Dijkstra dalam Pencarian Lintasan Terpendek Graf Aplikasi Algoritma Dijkstra dalam Pencarian Lintasan Terpendek Graf Nur Fajriah Rachmah - 0609 Program Studi Teknik Informatika, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jalan

Lebih terperinci

Menyelesaikan Topological Sort Menggunakan Directed Acyclic Graph

Menyelesaikan Topological Sort Menggunakan Directed Acyclic Graph Menyelesaikan Topological Sort Menggunakan Directed Acyclic Graph Muhammad Afif Al-hawari (13510020) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung,

Lebih terperinci

PUSTAKA. Agrawal, Rakesh and Srikant, Ramakrishnan (2000), Mining Sequential Pattern, IBM Almaden Research Center, 650 Harry Road, San Jose, CA 95120

PUSTAKA. Agrawal, Rakesh and Srikant, Ramakrishnan (2000), Mining Sequential Pattern, IBM Almaden Research Center, 650 Harry Road, San Jose, CA 95120 PUSTAKA [AGR00] [CHE98] Agrawal, Rakesh and Srikant, Ramakrishnan (2000), Mining Sequential Pattern, IBM Almaden Research Center, 650 Harry Road, San Jose, CA 95120 Cheng, J., Bell, D. A., Liu, W. (1998)

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Teori Graf 2.1.1 Defenisi Graf Graf G didefenisikan sebagai pasangan himpunan (V,E), ditulis dengan notasi G = (V,E), yang dalam hal ini V adalah himpunan tidak kosong dari simpul-simpul

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Pustaka Salah satu metode penambangan data adalah klasifikasi. Metode klasifikasi memiliki beberapa algoritma dan setiap algoritma klasifikasi pada

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) LEARNING BAYESIAN NETWORK PADA GAME SPORT PINGPONG

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) LEARNING BAYESIAN NETWORK PADA GAME SPORT PINGPONG 80 LEARNING BAYESIAN NETWORK PADA GAME SPORT PINGPONG Prama Azaria Nurhalim Putra 1, Nelly Indriani Widiastuti 2 Program Studi Teknik Informatika. Universitas Komputer Indonesia. Jl. Dipatiukur 112 114

Lebih terperinci

Harmonisasi Algoritma Hybrid Untuk Membangun Struktur Bayesian Network Pada Basisdata

Harmonisasi Algoritma Hybrid Untuk Membangun Struktur Bayesian Network Pada Basisdata Harmonisasi Algoritma Hybrid Untuk Membangun Struktur Bayesian Network ada Basisdata Ilham M.Said, Handayani Tjandrasa Teknik Informatika ITS ilham@cs.its.ac.id Staff engajar Teknik Informatika ITS Abstrak

Lebih terperinci

BAB II INDUCT/RIPPLE-DOWN RULE (RDR)

BAB II INDUCT/RIPPLE-DOWN RULE (RDR) BAB II INDUCT/RIPPLE-DOWN RULE (RDR) Bab ini berisi tentang uraian mengenai teori Ripple-Down Rules (RDR), yang meliputi RDR dengan pengembangan manual dan RDR yang menerapkan algoritma Induct untuk pengembangannya.

Lebih terperinci

Latar Belakang Masalah Masing-masing algoritma hanya dapat bekerja pada pada data lengkap (algoritma CB) dan data tidak lengkap (algortima BC) untuk m

Latar Belakang Masalah Masing-masing algoritma hanya dapat bekerja pada pada data lengkap (algoritma CB) dan data tidak lengkap (algortima BC) untuk m Harmonisasi Algoritma Hybrid Untuk Membangun Struktur Bayesian Network Pada Basisdata Dosen Pembimbing : Prof.Dr.Ir.Handayani TJandrasa,MSc.PhD Ilham M.Said 5108201020 Latar Belakang Masalah Masing-masing

Lebih terperinci

NAIVE BAYES. Artinya Peluang kejadian X bersyarat Y ditentukan dari peluang Y terhadap X, peluang X, dan peluang Y. Posterior Evidence

NAIVE BAYES. Artinya Peluang kejadian X bersyarat Y ditentukan dari peluang Y terhadap X, peluang X, dan peluang Y. Posterior Evidence NAIVE BAYES Konsep Naive Bayes Simple naive Bayesian classifier merupakan salah satu metode pengklasifikasian sederhana yang berdasarkan pada penerapan Teorema Bayes dengan asumsi antar variabel penjelas

Lebih terperinci

2.2 Data Mining. Universitas Sumatera Utara

2.2 Data Mining. Universitas Sumatera Utara Basis data adalah kumpulan terintegrasi dari occurences file/table yang merupakan representasi data dari suatu model enterprise. Sistem basisdata sebenarnya tidak lain adalah sistem penyimpanan-record

Lebih terperinci

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti Jurnal Dinamika, September 2016, halaman 34-41 P-ISSN: 2087 7889 E-ISSN: 2503 4863 Vol. 07. No.2 KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION

Lebih terperinci

LANDASAN TEORI. Bab Konsep Dasar Graf. Definisi Graf

LANDASAN TEORI. Bab Konsep Dasar Graf. Definisi Graf Bab 2 LANDASAN TEORI 2.1. Konsep Dasar Graf Definisi Graf Suatu graf G terdiri atas himpunan yang tidak kosong dari elemen elemen yang disebut titik atau simpul (vertex), dan suatu daftar pasangan vertex

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

Algoritma Bayesian Network Untuk Simulasi Prediksi Pemenang PILKADA Menggunakan MSBNx

Algoritma Bayesian Network Untuk Simulasi Prediksi Pemenang PILKADA Menggunakan MSBNx Algoritma Bayesian Network Untuk Simulasi Prediksi Pemenang PILKADA Menggunakan MSBNx Andi Lukman Dosen Teknik Informatika STIMED Nusa Palapa Makassar, Indonesia uke@stimednp.ac.id Muh Nadzirin Anshari

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK Dody Herdiana, S.T., M. Kom. Dosen PNS DPK pada Program Studi Teknik Informatika

Lebih terperinci

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2. 6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK TESIS Karya tulis sebagai salah satu syarat Untuk memperoleh gelar Magister dari

Lebih terperinci

Nama : Rendi Setiawan Nim :

Nama : Rendi Setiawan Nim : Nama : Rendi Setiawan Nim : 41813120188 Desain Test Case Definisi Test Case Test case merupakan suatu tes yang dilakukan berdasarkan pada suatu inisialisasi, masukan, kondisi ataupun hasil yang telah ditentukan

Lebih terperinci

REKAYASA PERANGKAT LUNAK DETEKSI DINI KECENDERUNGAN GANGGUAN KESEHATAN MASYARAKAT TERTINGGAL DAN PESISIR DENGAN BAYESIAN NETWORK

REKAYASA PERANGKAT LUNAK DETEKSI DINI KECENDERUNGAN GANGGUAN KESEHATAN MASYARAKAT TERTINGGAL DAN PESISIR DENGAN BAYESIAN NETWORK REKAYASA PERANGKAT LUNAK DETEKSI DINI KECENDERUNGAN GANGGUAN KESEHATAN MASYARAKAT TERTINGGAL DAN PESISIR DENGAN BAYESIAN NETWORK Ilham, Dwi Rolliawati Universitas Muhammadiyah Gresik, Jl.Sumatra 101 GKB

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

Penggunaan Algoritma Dijkstra dalam Penentuan Lintasan Terpendek Graf

Penggunaan Algoritma Dijkstra dalam Penentuan Lintasan Terpendek Graf Penggunaan Algoritma Dijkstra dalam Penentuan Lintasan Terpendek Graf Rahadian Dimas Prayudha - 13509009 Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung,

Lebih terperinci

GRAF. V3 e5. V = {v 1, v 2, v 3, v 4 } E = {e 1, e 2, e 3, e 4, e 5 } E = {(v 1,v 2 ), (v 1,v 2 ), (v 1,v 3 ), (v 2,v 3 ), (v 3,v 3 )}

GRAF. V3 e5. V = {v 1, v 2, v 3, v 4 } E = {e 1, e 2, e 3, e 4, e 5 } E = {(v 1,v 2 ), (v 1,v 2 ), (v 1,v 3 ), (v 2,v 3 ), (v 3,v 3 )} GRAF Graf G(V,E) didefinisikan sebagai pasangan himpunan (V,E), dengan V adalah himpunan berhingga dan tidak kosong dari simpul-simpul (verteks atau node). Dan E adalah himpunan berhingga dari busur (vertices

Lebih terperinci

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE Warih Maharani Fakultas

Lebih terperinci

Teknik Pengklasifikasi : Bayesian, JST (ANN) Bertalya Universitas Gunadarma 2009

Teknik Pengklasifikasi : Bayesian, JST (ANN) Bertalya Universitas Gunadarma 2009 Teknik Pengklasifikasi : Bayesian, JST (ANN) Bertalya Universitas Gunadarma 2009 Masalah Pengklasifikasian Klas suatu record yg diuji tidak selalu dapat diprediksi disebabkan oleh faktor2 penentu tidak

Lebih terperinci

BAB 2 TELAAH PUSTAKA

BAB 2 TELAAH PUSTAKA BAB 2 TELAAH PUSTAKA Pada bab ini akan dipaparkan mengenai deskripsi data mining secara umum dan landasan teori dari algoritma data mining yang digunakan pada FIKUI Mining. Selain itu, juga akan dijelaskan

Lebih terperinci

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering

Lebih terperinci

Kecerdasan Buatan/ Artificial Intelligence

Kecerdasan Buatan/ Artificial Intelligence Kecerdasan Buatan/ Artificial Intelligence Bayesian Network Imam Cholissodin, S.Si., M.Kom. Pokok Bahasan 1. Syntax & Semantics 2. Compact conditional distributions 3. Efficient Inference 4. Latihan Individu

Lebih terperinci

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI.. Definisi Graf Secara matematis, graf G didefinisikan sebagai pasangan himpunan (V,E) ditulis dengan notasi G = (V, E), yang dalam hal ini: V = himpunan tidak-kosong dari simpul-simpul

Lebih terperinci

CONTOH KASUS DATA MINING

CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING Sebuah rumah sakit ingin ingin menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan

Lebih terperinci

Penerapan Teknik Bayesian Network dalam Pengembangan Prototipe Aplikasi Web Content Mining

Penerapan Teknik Bayesian Network dalam Pengembangan Prototipe Aplikasi Web Content Mining Penerapan Teknik Bayesian Network dalam Pengembangan Prototipe Aplikasi Web Content Mining LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Miridhani Riani Ningrum / 13503023

Lebih terperinci

Penggunaan Pohon Keputusan untuk Data Mining

Penggunaan Pohon Keputusan untuk Data Mining Penggunaan Pohon Keputusan untuk Data Mining Indah Kuntum Khairina NIM 13505088 Program Studi Teknik Teknik Informatika, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jalan Ganesha

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Penelitian ini menggunakan beberapa sumber pustaka yang berhubungan dengan kasus yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI 2.1 Pengertian Algoritma Menurut (Suarga, 2012 : 1) algoritma: 1. Teknik penyusunan langkah-langkah penyelesaian masalah dalam bentuk kalimat dengan jumlah kata terbatas tetapi tersusun

Lebih terperinci

Sistem Pakar Untuk Mendiagnosa Penyakit Mata Dengan Metode Bayesian Network

Sistem Pakar Untuk Mendiagnosa Penyakit Mata Dengan Metode Bayesian Network Sistem Pakar Untuk Mendiagnosa Penyakit Mata Dengan Metode Bayesian Network Rahmad Kurniawan, Luh Kesuma Wardhani Jurusan Teknik Informatika UIN SUSKA Riau Jl. H.R Subrantas KM. 15 no. 155 Simpang Baru,

Lebih terperinci

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU Aradea, Satriyo A., Ariyan Z., Yuliana A. Teknik Informatika Universitas Siliwangi Tasikmalaya Ilmu Komputer Universitas Diponegoro

Lebih terperinci

BAB II TINJAUAN PUSTAKA. a) Purwadhi (1994) dalam Husein (2006) menyatakan: perangkat keras (hardware), perangkat lunak (software), dan data, serta

BAB II TINJAUAN PUSTAKA. a) Purwadhi (1994) dalam Husein (2006) menyatakan: perangkat keras (hardware), perangkat lunak (software), dan data, serta BAB II TINJAUAN PUSTAKA 2.1 Sistem Informasi Geografis (SIG) 2.1.1 Pengertian Sistem Informasi Geografis Ada beberapa pengertian dari sistem informasi geografis, diantaranya yaitu: a) Purwadhi (1994) dalam

Lebih terperinci

( ) ( ) (3) II-1 ( ) ( )

( ) ( ) (3) II-1 ( ) ( ) BAB II LANDASAN TEORI 2.1 Naïve Bayes Classifier 2.1.1 Teorema Bayes Bayes merupakan teknik prediksi berbasis probabilistik sederhana yang berdasar pada penerapan teorema Bayes (atau aturan Bayes) dengan

Lebih terperinci

BAB III KONSEP DASAR TEORI GRAF. Teori graf adalah salah satu cabang matematika yang terus berkembang

BAB III KONSEP DASAR TEORI GRAF. Teori graf adalah salah satu cabang matematika yang terus berkembang BAB III KONSEP DASAR TEORI GRAF Teori graf adalah salah satu cabang matematika yang terus berkembang dengan pesat. Teori ini sangat berguna untuk mengembangkan model-model terstruktur dalam berbagai keadaan.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Graf (Graph) Graf G didefinisikan sebagai pasangan himpunan (V, E) yang dinotasikan dalam bentuk G = {V(G), E(G)}, dimana V(G) adalah himpunan vertex (simpul) yang tidak kosong

Lebih terperinci

BAB III ANALISIS DAN PENYELESAIAN MASALAH

BAB III ANALISIS DAN PENYELESAIAN MASALAH BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

TEKNIK PENGUJIAN PERANGKAT LUNAK (Software Testing Techniques)

TEKNIK PENGUJIAN PERANGKAT LUNAK (Software Testing Techniques) TEKNIK PENGUJIAN PERANGKAT LUNAK (Software Testing Techniques) Ujicoba software merupakan elemen yang kritis dari SQA dan merepresentasikan tinjauan ulang yang menyeluruh terhadap spesifikasi,desain dan

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB LANDASAN TEORI. Teori Graf Teori graf merupakan pokok bahasan yang sudah tua usianya namun memiliki banyak terapan sampai saat ini. Graf digunakan untuk merepresentasikan objek-objek diskrit dan hubungan

Lebih terperinci

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO Sendy Winanta Yetli Oslan, Gunawan Santoso Abstrak Penjurusan siswa kelas X SMA yang akan naik

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

IMPLEMENTASI METODE BAYESIAN NETWORK DALAM MENENTUKAN KLASIFIKASI RASA RAMBUTAN BERBASIS WEB Timbo Faritcan Parlaungan S *1, Asep Galih Miftah F.

IMPLEMENTASI METODE BAYESIAN NETWORK DALAM MENENTUKAN KLASIFIKASI RASA RAMBUTAN BERBASIS WEB Timbo Faritcan Parlaungan S *1, Asep Galih Miftah F. IMPLEMENTASI METODE BAYESIAN NETWORK DALAM MENENTUKAN KLASIFIKASI RASA RAMBUTAN BERBASIS WEB Timbo Faritcan Parlaungan S *1, Asep Galih Miftah F. #2 Program Studi Manjemen Informatika, STMIK Subang Jl.

Lebih terperinci

Penerapan Teori Graf Pada Algoritma Routing

Penerapan Teori Graf Pada Algoritma Routing Penerapan Teori Graf Pada Algoritma Routing Indra Siregar 13508605 Program Studi Teknik Teknik Informatika, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jalan Ganesha 10, Bandung

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Konsep Dasar Simulasi Sistem didefinisikan sebagai sekumpulan entitas baik manusia ataupun mesin yang yang saling berinteraksi untuk mencapai tujuan tertentu. Dalam prakteknya,

Lebih terperinci

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES Selvy Megira 1), Kusrini 2), Emha Taufiq Luthfi 3) 1), 2), 3) Teknik Universitas AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,

Lebih terperinci

Pemanfaatan Directed Acyclic Graph untuk Merepresentasikan Hubungan Antar Data dalam Basis Data

Pemanfaatan Directed Acyclic Graph untuk Merepresentasikan Hubungan Antar Data dalam Basis Data Pemanfaatan Directed Acyclic Graph untuk Merepresentasikan Hubungan Antar Data dalam Basis Data Winson Waisakurnia (13512071) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Jasa Jasa (service) merupakan suatu atau serangkaian aktivitas yang tidak berwujud dan yang biasanya, tidak selalu, berhubungan dengan interaksi antara customer (pelanggan) dan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini akan diberikan beberapa definisi dan konsep dasar dalam teori graf dan pelabelan graf yang akan digunakan pada bab selanjutnya. 2.1 Definisi dan Istilah Dalam Teori Graf

Lebih terperinci

Studi Algoritma Optimasi dalam Graf Berbobot

Studi Algoritma Optimasi dalam Graf Berbobot Studi Algoritma Optimasi dalam Graf Berbobot Vandy Putrandika NIM : 13505001 Program Studi Teknik Informatika, Institut Teknologi Bandung Jl. Ganesha 10, Bandung E-mail : if15001@students.if.itb.ac.id

Lebih terperinci

Dibuat Oleh : 1. Andrey ( )

Dibuat Oleh : 1. Andrey ( ) Dibuat Oleh : 1. Andrey (41813120186) FAKULTAS ILMU KOMPUTER PROGRAM STUDI SISTEM INFORMASI UNIVERSITAS MERCU BUANA JAKARTA 2015 Definisi Test Case Test case merupakan suatu tes yang dilakukan berdasarkan

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan digunakan untuk mengklasifikasi

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ yudi@upi.edu / Okt 2012 Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan

Lebih terperinci

BAB 2 GRAF PRIMITIF. 2.1 Definisi Graf

BAB 2 GRAF PRIMITIF. 2.1 Definisi Graf BAB 2 GRAF PRIMITIF Pada Bagian ini akan dijelaskan beberapa definisi dan teorema terkait graf, matriks adjency, terhubung, primitifitas, dan scrambling index sebagai landasan teori yang menjadi acuan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Graf Menurut Foulds (1992) graf G adalah pasangan terurut (VV,) dimana V adalah himpunan simpul yang berhingga dan tidak kosong. Dan E adalah himpunan sisi yang merupakan pasangan

Lebih terperinci

SOFTWARE TESTING. Ratna Wardani

SOFTWARE TESTING. Ratna Wardani SOFTWARE TESTING Ratna Wardani Capaian Memahami pentingnya Software Testing Memahami teknik dalam Software Testing Dasar-dasar Software Testing Teknik-teknik dalam Software Testing Here we go... Dasar-dasar

Lebih terperinci

BAB III ANALISIS PENYELESAIAN MASALAH

BAB III ANALISIS PENYELESAIAN MASALAH BAB III ANALISIS PENYELESAIAN MASALAH Pada bab ini akan dipaparkan analisis yang dilakukan dalam pengerjaan Tugas Akhir ini. Analisis diawali dengan analisis terhadap konsep Bayesian network yang diperlukan

Lebih terperinci

Algoritma Dasar. 4.1 Naive Bayes

Algoritma Dasar. 4.1 Naive Bayes 4 Algoritma Dasar It is a capital mistake to theorize before one has data. Arthur Conan Doyle Sebelum masuk ke algoritma machine learning yang cukup modern/ matematis, kami akan memberi contoh algoritma

Lebih terperinci

LANDASAN TEORI. Pada bab ini akan diberikan beberapa konsep dasar teori graf dan bilangan. kromatik lokasi sebagai landasan teori pada penelitian ini.

LANDASAN TEORI. Pada bab ini akan diberikan beberapa konsep dasar teori graf dan bilangan. kromatik lokasi sebagai landasan teori pada penelitian ini. 6 II. LANDASAN TEORI Pada bab ini akan diberikan beberapa konsep dasar teori graf dan bilangan kromatik lokasi sebagai landasan teori pada penelitian ini. 2.1 Konsep Dasar Graf Pada sub bab ini akan diberikan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

Statistika. Probabilitas. Universitas Gadjah Mada Fakultas Teknik Jurusan Teknik Sipil dan Lingkungan Prodi S2 Teknik Sipil.

Statistika. Probabilitas. Universitas Gadjah Mada Fakultas Teknik Jurusan Teknik Sipil dan Lingkungan Prodi S2 Teknik Sipil. Universitas Gadjah Mada Fakultas Teknik Jurusan Teknik Sipil dan Lingkungan Prodi S2 Teknik Sipil Statistika Probabilitas 1 Probabilitas Probabilitas Peluang Kemungkinan Mengapa probabilitas? Orang 7dak

Lebih terperinci

Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} {susu} (support = 40%, confidence = 50%)

Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} {susu} (support = 40%, confidence = 50%) ASSOCIATION RULE (ALGORITMA A PRIORI) Algoritma A Priori termasuk jenis aturan asosiasi pada data mining. Selain a priori, yang termasuk pada golongan ini adalah metode generalized rule induction dan algoritma

Lebih terperinci

GRAF. Graph seperti dimaksud diatas, ditulis sebagai G(E,V).

GRAF. Graph seperti dimaksud diatas, ditulis sebagai G(E,V). GRAF GRAF Suatu Graph mengandung 2 himpunan, yaitu : 1. Himpunan V yang elemennya disebut simpul (Vertex atau Point atau Node atau Titik) 2. Himpunan E yang merupakan pasangan tak urut dari simpul. Anggotanya

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Fuzzy Local Binary Pattern (FLBP) Fuzzifikasi pada pendekatan LBP meliputi transformasi variabel input menjadi variabel fuzzy, berdasarkan pada sekumpulan fuzzy rule. Dalam

Lebih terperinci

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI Gunawan 1, Fandi Halim 2, Tony Saputra Debataraja 3, Julianus Efrata Peranginangin 4

Lebih terperinci

BAB 2 LANDASAN TEORI. Algoritma adalah urutan atau deskripsi langkah-langkah untuk memecahkan suatu masalah.

BAB 2 LANDASAN TEORI. Algoritma adalah urutan atau deskripsi langkah-langkah untuk memecahkan suatu masalah. BAB 2 LANDASAN TEORI 2.1. Pengertian Algoritma Algoritma adalah urutan atau deskripsi langkah-langkah untuk memecahkan suatu masalah. Algoritma merupakan jantung ilmu komputer atau informatika. Banyak

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Konsep Dasar Graph Sebelum sampai pada pendefenisian masalah lintasan terpendek, terlebih dahulu pada bagian ini akan diuraikan mengenai konsep-konsep dasar dari model graph dan

Lebih terperinci

Penerapan Algoritma A* (A Star) Sebagai Solusi Pencarian Rute Terpendek Pada Maze

Penerapan Algoritma A* (A Star) Sebagai Solusi Pencarian Rute Terpendek Pada Maze Penerapan Algoritma A* (A Star) Sebagai Solusi Pencarian Rute Terpendek Pada Maze 1 Rakhmat Kurniawan. R., ST, M.Kom, 2 Yusuf Ramadhan Nasution, M.Kom Program Studi Ilmu Komputer, Fakultas Sains dan Teknologi

Lebih terperinci

= himpunan tidak-kosong dan berhingga dari simpul-simpul (vertices) = himpunan sisi (edges) yang menghubungkan sepasang simpul

= himpunan tidak-kosong dan berhingga dari simpul-simpul (vertices) = himpunan sisi (edges) yang menghubungkan sepasang simpul Struktur Data Graf 1. PENDAHULUAN Dalam bidang matematika dan ilmu komputer, teori graf mempelajari tentang graf yaitu struktur yang menggambarkan relasi antar objek dari sebuah koleksi objek. Definisi

Lebih terperinci

BAB 1 PENDAHULUAN 1-1

BAB 1 PENDAHULUAN 1-1 BAB 1 PENDAHULUAN Bab ini menguraikan penjelasan umum mengenai tugas akhir yang dikerjakan. Penjelasan tersebut meliputi latar belakang masalah, tujuan tugas akhir, lingkup tugas akhir, metodologi yang

Lebih terperinci

CRITICAL PATH. Menggunakan Graph berbobot dan mempunya arah dari Critical Path: simpul asal : 1 simpul tujuan : 5. Graph G. Alternatif

CRITICAL PATH. Menggunakan Graph berbobot dan mempunya arah dari Critical Path: simpul asal : 1 simpul tujuan : 5. Graph G. Alternatif CRITICAL PATH Menggunakan Graph berbobot dan mempunya arah dari Critical Path: simpul asal : 1 simpul tujuan : 5 Graph G Path Bobot Alternatif 1 4 5 16 1 2 5 15 1 2 3 5 24 1 4 3 5 19 1 2 3 4 5 29 1 4 3

Lebih terperinci

Pertemuan 11 GRAPH, MATRIK PENYAJIAN GRAPH

Pertemuan 11 GRAPH, MATRIK PENYAJIAN GRAPH Pertemuan 11 GRAPH, MATRIK PENYAJIAN GRAPH GRAPH Suatu Graph mengandung 2 himpunan, yaitu : 1. Himpunan V yang elemennya disebut simpul (Vertex atau Point atau Node atau Titik) 2. Himpunan E yang merupakan

Lebih terperinci

Universitas Gadjah Mada Fakultas Teknik Departemen Teknik Sipil dan Lingkungan PROBABILITAS. Statistika dan Probabilitas

Universitas Gadjah Mada Fakultas Teknik Departemen Teknik Sipil dan Lingkungan PROBABILITAS. Statistika dan Probabilitas Universitas Gadjah Mada Fakultas Teknik Departemen Teknik Sipil dan Lingkungan PROBABILITAS Statistika dan Probabilitas 2 Peluang (Probabilitas) Peluang/Probabilitas/Risiko Peluang Risiko Probabilitas

Lebih terperinci

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. BAB 2 LANDASAN TEORI Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. 2.1. Data Mining Data mining adalah suatu istilah yang digunakan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data mining

Lebih terperinci