Harmonisasi Algoritma Hybrid Untuk Membangun Struktur Bayesian Network Pada Basisdata

dokumen-dokumen yang mirip
REKAYASA PERANGKAT LUNAK DETEKSI DINI KECENDERUNGAN GANGGUAN KESEHATAN MASYARAKAT TERTINGGAL DAN PESISIR DENGAN BAYESIAN NETWORK

Latar Belakang Masalah Masing-masing algoritma hanya dapat bekerja pada pada data lengkap (algoritma CB) dan data tidak lengkap (algortima BC) untuk m

REKAYASA PERANGKAT LUNAK DETEKSI DINI KECENDERUNGAN GANGGUAN KESEHATAN MASYARAKAT TERTINGGAL DAN PESISIR DENGAN BAYESIAN NETWORK

PENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP

ALGORITMA TPDA DAN TPDA Π SEBAGAI ALTERNATIF STRUKTUR BAYESIAN NETWORK

BAB 2 DASAR TEORI Bayesian Network

Struktur Bayesian Network untuk Penentuan Class Karakteristik Siswa pada Sistem Tutor Cerdas

BAB 3 ANALISIS HIPOTESIS

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

IMPLEMENTASI DAN PENGUJIAN

Algoritma Bayesian Network Untuk Simulasi Prediksi Pemenang PILKADA Menggunakan MSBNx

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) LEARNING BAYESIAN NETWORK PADA GAME SPORT PINGPONG

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan

BAB. III. ANALISA PERMASALAHAN

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

Kata kunci: graph, graph database, GIndex, subgraph query, size-increasing support constraint, discriminative fragments, index, subgraph matching

BAB II TINJAUAN PUSTAKA

ANALISA DAN PERANCANGAN PERANGKAT LUNAK

APLIKASI PEMBANGUNAN BAYESIAN NETWORK PADA DATA MINING TESIS. HENGKY SIPAYUNG NIM : Program Studi Magister Informatika

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

Penerapan Teknik Bayesian Network dalam Pengembangan Prototipe Aplikasi Web Content Mining

BAB I PENDAHULUAN. WHO Department of Gender, Women and Health mengatakan dalam. jurnal Gender in lung cancer and smoking research bahwa kematian yang

BAB II LANDASAN TEORI

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

2.2 Data Mining. Universitas Sumatera Utara

PADA jaman sekarang ini sudah banyak sarana dan

Penerapan Algoritma Backtracking pada Pewarnaan Graf

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Pemanfaatan Directed Acyclic Graph untuk Merepresentasikan Hubungan Antar Data dalam Basis Data

BAB. II. TINJAUAN PUSTAKA

Implementasi Random Numbers Java untuk Menciptakan Missing Value dari suatu Tabel

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Implementasi Teori Graf Dalam Masalah Fingerprint Recognition (Pengenalan Sidik Jari)

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PUSTAKA. Agrawal, Rakesh and Srikant, Ramakrishnan (2000), Mining Sequential Pattern, IBM Almaden Research Center, 650 Harry Road, San Jose, CA 95120

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II INDUCT/RIPPLE-DOWN RULE (RDR)

IMPLEMENTASI DECISION TREE UNTUK MEMPREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS

ALGORITMA BAYESIAN NETWORK UNTUK SIMULASI PREDIKSI PEMENANG PILKADA MENGGUNAKAN MSBNX

Model Multinomial Bayesian Network pada Data Simulasi Curah Hujan

BAB I PENDAHULUAN. Universitas Sumatera Utara

Sistem Deteksi Kemiripan antar Dokumen Teks Menggunakan Model Bayesian pada Term Latent Semantic Analysis (LSA)

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 LANDASAN TEORI

Sistem Pakar Untuk Mendiagnosa Penyakit Mata Dengan Metode Bayesian Network

Kecerdasan Buatan/ Artificial Intelligence

PREDIKSI KELULUSAN TEPAT WAKTU MAHASISWA MENGGUNAKAN NEURO-FUZZY CLASSIFICATION

Artificial Intelligence. uthie 1

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

BAB 2 LANDASAN TEORI

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

Keoptimalan Naïve Bayes Dalam Klasifikasi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

Algoritma Vertex Cover dan Aplikasinya

Penggabungan Algoritma Brute Force dan Backtracking dalam Travelling Thief Problem

Perancangan Sistem Penjadwalan Asisten Dosen Menggunakan Algoritma Genetika (Studi Kasus: STIKOM Bali)

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

Kata kunci : metode pencarian, perpustakaan, Naïve Bayes Classifier.

Penerapan Pohon dengan Algoritma Branch and Bound dalam Menyelesaikan N-Queen Problem

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Menyelesaikan Topological Sort Menggunakan Directed Acyclic Graph

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

PENGEMBANGAN SHORTEST PATH ALGORITHM (SPA) DALAM RANGKA PENCARIAN LINTASAN TERPENDEK PADA GRAF BERSAMBUNG BERARAH BERUNTAI

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

BAB 2 LANDASAN TEORI

BAB II LANDASAN TEORI

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

OPERASI LOGIKA PADA GENERAL TREE MENGGUNAKAN FUNGSI REKURSIF

BAB II TINJAUAN PUSTAKA

BAB 6 METODE PENGUJIAN

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4

TEKNIK PENGUJIAN PERANGKAT LUNAK (Software Testing Techniques)

BAB 3 ANALISA DAN PERANCANGAN

Neural Network dan Implementasinya Dalam Data Mining. Rudolf Rudi Hermanto. Institut Teknologi Bandung.

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

Aplikasi Graf pada Deskripsi Sistem Lokalisasi Robot Humanoid dengan Metode Monte Carlo Localization dan K Means Clustering

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Pemanfaatan Algoritma Hybrid Ant Colony Optimization dalam Menyelesaikan Permasalahan Capacitated Minimum Spanning Tree. Tamam Asrori ( )

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES

Jaringan Syaraf Tiruan dengan Pembelajaran Algoritma Genetika dan Diversitas untuk Deteksi Kelas Penyakit

PENILAIAN KINERJA DOSEN DENGAN MENGGUNAKAN METODE SUGENO

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III ANALISIS PENYELESAIAN MASALAH

BAB 2 TINJAUAN PUSTAKA

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

Transkripsi:

Harmonisasi Algoritma Hybrid Untuk Membangun Struktur Bayesian Network ada Basisdata Ilham M.Said, Handayani Tjandrasa Teknik Informatika ITS ilham@cs.its.ac.id Staff engajar Teknik Informatika ITS Abstrak erkembangkan berbagai algoritma untuk mengkonstruksi struktur Bayesian Network, baik untuk basis data lengkap maupun untuk basis data yang tidak lengkap (terdapat missing value) cukup banyak. Beberapa algoritma hanya dapat bekerja secara parsial saja. Dan yang menjadi masalah adalah dari beberapa penelitian belum ada uji coba dari penggabungan algoritma CB (Constraint Base) dan BC (Bound dan Collapse) dalam konstruksi struktur Bayesian Network berdasarkan data lengkap dan tidak lengkap. Oleh karena itu solusi penggunaan metode Analisis dependensi dan Search & Scoring yang dapat bekerja untuk data lengkap dan tidak lengkap adalah merupakan solusi alternative dalam membangun struktur. Simpulan engembangan (propose) adalah melakukan konstruksi struktur Bayesian Network dari data lengkap dan tidak lengkap dengan algoritma Hybrid (CB dan BC).. Kedua Algoritma ini terdiri dari dua fase yaitu fase pertama menghasilkan node ordering dan fase kedua untuk mengkonstruksi struktur DAG(Directed Acyclic Graph) dari Bayesian Network. ada fase kedua juga dapat menangani missing value. Sedangkan jumlah missing value tidak berpengaruh secara mutlak terhadap struktur Bayesian Network yang dihasilkan. Jumlah missing value yang besar ataupun yang kecil pada basis data tetap dapat menghasilkan struktur. Namun dalam makalah ini yang ditekankan adalah berapapun jumlah missing value yang dimiliki oleh basis data, Algoritma Hybrid ini tetap mampu menghasilkan konstruksi struktur Bayesian Network. Kata kunci : Data lengkap, Data tidak lengkap, Bayesian Network, Missing Value, Dependency Analysis, Search and Scoring, Node Ordering 1. endahuluan Konsep Algoritma CB merupakan konsep algoritma pembangunan framework Bayesian Network yang mengkombinasikan algoritma dengan pendekatan metode analisis dependensi (Algoritma C) dan metode search & scoring (Algoritma K2) [US05]. Tujuan utama dari Algoritma CB adalah memperoleh algoritma pencarian framework yang secara komputasi mudah dikerjakan, yaitu tidak terlalu bergantung pada CI (conditional independence) test dan tidak membutuhkan node ordering (node ordering tidak di inputkan secara manual dalam pembentukannya) [SIN95]. Namun, Algoritma CB mensyaratkan data lengkap. Berdasarkan cara kerja dan fungsinya yang berbeda dari beberapa ciri algoritma tersebut maka yang menjadi masalah adalah masing-masing dari algoritma tidak bisa bekerja secara bersamasama untuk membangun framework Bayesian Network dari data yang lengkap dan tidak lengkap. padahal pada kenyataannya basisdata itu ada yang lengkap dan ada yang tidak lengkap. Dari beberapa algoritma tersebut hanya bisa berjalan dan berfungsi secara parsial saja dari beberapa bentuk basisdata. ada penelitian Improvement of CB & BC Algorithm (CB* Algorithm) for Learning Structure of Bayesian Networks as Classifier in Data Mining [SIT06]. Sekolah Teknik Elektro dan Informatika, ITB menyatakan bahwa dengan menggabungkan kedua algoritma tersebut tetap akan mampu menghasilkan konstruksi struktur dari basisdata tidak lengkap. Namun penelitian ini pada makalah belum terlihat adannya analisa lebih jauh akan performansinya, kemudian memeriksa kebenaran struktur Bayesian Network yang dihasilkan. ada penelitian dengan judul algoritma CB: algoritma yang dibangun dengan dua pendekatan untuk konstruksi struktur bayesian network dalam data mining [US05].rogram Studi Teknik Informatika, STEI, ITB. Menyatakan bahwa algoritma yang di telitinya hanya memperlihatkan konstruksi struktur pada data lengkap, dan belum dapat bekerja pada data tidak lengkap. 2. Metode enelitian Metodologi adalah kumpulan metode untuk menguraikan bagaimana suatu kumpulan aktivitas dilaksanakan. Umumnya metodologi terdiri dari prosedur, teknik dan disiplin tertentu. Metode yang digunakan pada penelitian ini adalah : Gambar 2.1. Desain System

Berikut penjelasan pada gambar 2.1 adalah : 1. Tahap pertama disusun dari tujuh langkah sebagai bagian dari Algoritma CB dan hasilnya adalah node ordering. Fase pertama ini sebagian besar digunakan untuk mengkonstruksi DAG. 2. Tahap kedua disusun dari tiga langkah. Fase ini dirancang untuk mempelajari struktur Bayesian Network dari data yang memiliki missing value, sama dengan yang diaplikasikan oleh Algoritma BC. Algoritma BC sendiri terdiri dari tiga bagian utama yaitu: a. encarian interval estimasi probabilitas disebut tahap bound (penanganan missing value). b. Mencari nilai estimasi tunggal dari interval yang telah diperoleh disebut tahap collapse. c. pembangunan struktur Bayesian Network itu sendiri. Gambar 2.2. FlowChart System Berikut penjelasan pada gambar 2.2 adalah : 1. Menerima masukan sebuah tabel basis data yang memiliki missing value dan yang tidak memiliki missing value tentunya (disediakan juga data lengkap), yang dibangkitkan struktur Bayesian Network dari atribut-atributnya. 2. Inisialisasi : menginisialisasi nilai nilai awal untuk konstruksi struktur Bayesian Network dengan tujuan mendapatkan Graph Lengkap. 3. embuatan node ordering, yang terdiri dari sub-sub fungsi : CI test, identifikasi collider, pemberian arah dengan rule dan pembangkitan node ordering. 4. Bagian bound Menghitung CT (Conditional robability Table) dalam bentuk tabel, berdasarkan nilai probabilitas nodenode dari struktur BN. 5. Bagian Collapse Memanfaatkan hasil yang diperoleh pada tahap bound untuk mencari satu nilai estimasi tunggal dari probabilitas kondisional yang bersesuaian 6. Melakukan Scoring function dalam menentukan hubungan ketergantungan antar variabel, apakah sebuah variabel atau node dapat ditambahkan sebagai parent atau tidak. 7. Konstruksi struktur Bayesian Network. 2.1 Rancangan Metode Konstruksi Struktur Bayesian Network endekatan yang digunakan untuk membangun framework Bayesian Network [CHE01] yaitu metode search and scoring dan metode dependency analysis. Masing-masing metoda ini memandang Bayesian Network dari sudut yang berbeda. ada metoda search and scoring, Bayesian Network dipandang sebagai sebuah struktur yang merepresentasikan JD (Joint robability Distribution)dari variabelvariabel, sedangkan pada metoda dependency analysis, Bayesian Network dipandang sebagai sebuah struktur yang merepresentaskan sekumpulan kebebasan kondisional di antara node-node. Berikut ini diberikan penjelasan lebih rinci mengenai kedua pendekatan tersebut [CHE97[b] : 1. Metode Search and Scoring (Scoring Based). Metode ini melakukan pengembangan struktur dengan mencari sebuah struktur yang paling cocok dengan data. Dalam metode ini, permasalahan digambarkan sebagai pencarian struktur graf (model) yang baik dari data. Model dibangkitkan dari kombinasi node (variabel) yang ada. encarian tersebut dilakukan dengan search method. Setiap model dievaluasi oleh sebuah scoring function 2. Metode Dependency Analysis (Constraint Based) ada metode ini, permasalahan digambarkan sebagai pencarian kebebasan (ketidakbergantungan) dari data yang kemudian dipergunakan untuk (meng-infer) sebuah struktur. Hubungan kebebasan tersebut data diukur dengan menggunakan salah satu dari beberapa jenis Conditional Independence test (CI test) dan hubungan tersebut digunakan sebagai batasan untuk membangun framework Bayesian Network. 2.2 Membangkitkan Node Ordering yang Menghasilkan Struktur yang Markov Ekuivalen Dengan Struktur Original Algoritma Hybrid dapat membangkitkan node ordering yang mampu menghasilkan struktur Bayesian Network yang Markov ekuivalen dengan struktur original (mendekati struktur asal). - Node ordering adalah urutan node-node pada graf yang merepresentasikan salah satu dari dua kemungkinan berikut [2] : 1. Hubungan sebab akibat (causal) Node yang muncul lebih awal adalah node yang merupakan penyebab dari node yang muncul berikutnya. 2. Urutan sementara (temporal ordering) Node yang muncul lebih awal

menyatakan event yang terjadi lebih dahulu dibanding node yang muncul berikutnya. - Markov condition (Kondisi Markov) Markov condition merupakan hubungan antara graf dan distribusi probabilitas yang menjadi hal mendasar dalam Bayesian Network. Markov condition mendefinisikan hubungan kebebasan yang terdapat pada graf dan kebebasan yang terdapat pada distribusi probabilitas dari data. Kebutuhan node ordering dapat dipenuhi oleh Algoritma Hybrid dengan memanfaatkan pendekatan dependency analysis. Arah edge pada DAG yang dianggap sebagai hubungan parent mempengaruhi child adalah pada collider yang terdapat dalam DAG tersebut. Adanya edge berarah yang lain hanya dapat diinterpretasikan sebagai kebergantungan langsung antara dua node yang dihubungkan tanpa dapat diketahui node mana yang berpengaruh terhadap node yang lain. 2.3 Rancangan Tabel-Tabel untuk Sistem Tabel 2.1 Rancangan Data Visit to Asia Nama Keterangan Variabel Visit to Asia? Smoking? Tuberculosis? Lung Cancer? Either Tub or Lung Cancer? enyebab langsung dari tuberculosis yaitu apakah pasien pernah ke Asia tau tidak. enyebab langsung lung cancer dan bronchitis atau apakah pasien adalah perokok atau tidak. Apakah pasien memiliki penyakit tuberculosis atau tidak. Apakah pasien memiliki kanker paru atau tidak. Variabel gabungan dari tuberculosis dan lung cancer. Bernilai true/yes bila pasien memiliki tuberculosis atau lung cancer. Bronchitis? enyebab langsung dari dyspnoea yaitu apakah pasien memiliki penyakit bronchitis atau tidak. rositive X- ray? Apakah tes X-ray menunjukkkan hasil positif atau tidak, tidak ada keterkaitan langsung dengan dyspnoea. Dyspnoea? Apakah pasien memiliki penyakit kesulitan bernapas atau tidak. Tabel 2.2 Rancangan Representasi nilai dari variable-variabel BN Node Nilai Keterangan H B h1 h2 b1 b2 Ada riwayat merokok (H=history) Tidak ada riwayat merokok Bronkhitis ada (B=bronkhitis) Bronkhitis tidak ada L F C l1 l2 f1 f2 c1 c2 Kanker paru-paru ada (L=lung) Kanker paru-paru tidak ada Kelelahan ada (F=fatique) Kelelahan tidak ada Hasil uji sinar-x terhadap kanker paru-paru positif (C=cancer) Hasil uji sinar-x terhadap kanker paru-paru negatif 2.3.1 Rancangan enanganan Missing Value Menggunakan Algoritma hybrid enanganan Missing Value dilakukan pada fase kedua dari Algoritma hybrid atau dengan kata lain penanganan ini akan dilakukan oleh Algoritma BC yang merupakan bagian dari Algoritma hybrid. Tabel 2.3 Node order : X 1 X 2 Case X 1 X 2 1 1 1 2 1 NULL 3 2 2 4 NULL 1 5 2 1 6 NULL 2 7 1 2 8 2 NULL 9 NULL 2 10 1 NULL Untuk memeriksa apakah X 2 adalah parent X 1, harus dicari nilai-nilai berikut (tahap Bound) : (X 1=1 X 2=1) hitung jumlah kasus (X 1=NULL X 2=1) cari nilai min dan max (interval estimasi) (X 1=2 X 2=1) (X 1=1 X 2=2) (X 1=2 X 2=2) 2.4 Kajian ustaka 2.4.1. Bayesian Network Bayesian Network merupakan salah satu metode yang dapat di pakai untuk membangun model klasifikasi. metode ini adalah efektif dalam hal merepresentasikan model klasifikasi dengan beberapa alasan, antara lain : 1. Dapat merepresentasikan hubungan sebab akibat diantara variabel-variabel yang terdapat pada framework Bayesian Networks[HEC96]. 2. Mengeksploitasi conditional independence dalam membangun struktur jaringan sehingga dapat membangun model klasfikasi yang lebih tepat [NEA04]. Hal tersebut mengakibat berkurangnya kompleksitas perhitungan dalam melakukan inferensi (mengambil keputusan). 3.Metode Bayesian yang digunakan pada model klassifikasi yang dibangun benar-benar sangat cocok/dekat dengan training data yang digunakan, Ini menyebabkan ketika model digunakan untuk memprediksi data dengan menggunakan testing data menghasilkan

performansi yang jelek. Hal bisa diakibatkan antara lainnya karena : terlalu banyak attribut/ node yang digunakan dalam melakukan prediksi atau karena noise yang terdapat pada data. 2.4.2 Desain Conditional Independency Test Salah satu jenis CI test yang bisa digunakan untuk menghitung kebebasan kondisional pada variabel acak diskret adalah conditional mutual information test. CI test ini akan digunakan pada tahap pertama dari Agoritma Hybrid. ada saat I(X i,x j) memiliki nilai lebih kecil dari sebuah threshlod (ambang batas) tertentu yang dinotasikan dengan, maka dapat dikatakan bahwa X i dan X j adalah marginally independent. ada saat I(X i,x j) C) memiliki nilai lebih kecil dari, maka dapat dikatakan bahwa X i dan X j adalah conditionally independent. Nilai threshold yang dianjurkan adalah 0.01, sehingga algoritma ini akan mengatakan bahwa X dan Y akan independent jika I(x,y) <, di mana =0.01 atau 0.05. Semakin tinggi nilai mutual information antara dua node/variabel, semakin tinggi kemungkinan untuk membuat arc yang menghubungkan node-node tersebut.. Disini penulis menentukan = 0.005. 2.4.3 Deskripsi Analisa Algoritma Hybrid Algoritma Hybrid merupakan pengembangan dari Algoritma CB dan BC. Algoritma CB dikembangkan oleh Singh & Voltorta adalah sebagai suatu algoritma yang mengkombinasikan metode analisis dependensi dan metode search and scoring merupakan salah satu algoritma yang tidak terlalu bergantung pada CI test dan tidak membutuhkan node ordering tetapi membangkitkan sendiri node ordering [SIN95]. Algoritma ini bertujuan untuk memperoleh metode pencarian struktur yang secara komputasi mudah dikerjakan. Namun, Algoritma CB hanya mampu membangun Bayesian Network dari basis data yang lengkap. Hal ini disebabkan beberapa hal yaitu : [SIM06] 1. Test kebebasan yang dilakukan oleh Algoritma CB dalam menghasilkan node ordering hanya dapat dilakukan dengan asumsi data pada kondisi lengkap. Adanya data yang bernilai null akan mempengaruhi derajat kebebasan, frekuensi amatan dan frekuensi harapan yang digunakan dalam test kebebasan, sehingga CI test tidak dapat dilakukan. 2. Bayesian Scoring Function yang digunakan oleh Algoritma CB dalam pemberian orientasi arah edge yang masih undirected maupun bidirected hanya dapat dilakukan dengan mensyaratkan data lengkap. 3. Algoritma K2 pada Algoritma CB tidak menangani estimasi maupun penanganan unknown value. Untuk memimalisasi masalah missing value, Algoritma BC (Bound and Collapse) diusulkan oleh Ramoni dan Sebastiani. Metode ini diawali dengan membatasi kumpulan dari possible estimate (interval estimate) berdasarkan observasi yang ada pada basis data. Kemudian hasil estimasi interval dipersempit menjadi satu point estimasi yang unik dengan menyatukan value yang ekstrim dari estimasi interval. 2.4.4 Rancangan erhitungan probabilitas kondisional dari kejadian : (h1)*(b1 h1)*(l1 h1)*(f1 b1,l1)*(c1 l1) = 0.2*0.25*0.03*0.75*0.6 = 0.0000675. JD untuk Struktur bayesiannya : (U) = (H,B,L,F,C)= (H) (B/H) (L/H) (F/B,L) (C/L) Causal Inference : b1 h 1 h b1 p h 1 b1 p h 1 h 1 b 1 b 1 1 b 1 b 1 h 1 b 2 b 2 robabilitas Bronchitis akibat merokok : b1 h 1 b1 p h 1 b1 p h 1 h 1 b 1 b 1 h 1 b 1 b 1 h 1 b 2 b 2 0. 2 5 0. 2 0.076 0. 2 5 0. 2 0. 7 5 0. 8 robabilitas tidak Bronchitis akibat merokok : (b2/h1)= 1-076 = 0.924 Diagostic Inference : h1 h 1 p b 1 h1 b 1 p b 1 b 1 h 1 h 1 b 1 h 1 h 1 b 1 h 2 h 2 robabilitas merokok dengan indikasi penyakit Bronchitis: h 1 p b 1 h1 h1 b 1 p b 1 b 1 h 1 h 1 b 1 h 1 h 1 b 1 h 2 h 2 0. 2 5 0. 2 0. 5 5 0.25 0.2 0.05 0.8 robabilitas tidak merokok dengan indikasi penyakit Bronchitis: h 2 p b 1 h2 h2 b 1 p b 1 b 1 h 2 h 2 1 h 2 h 2 b 1 h 1 h 1 = b 1-0.55 = 0.45 robabilitas tidak Bronchitis akibat merokok : (b2/h1)= 1-076 = 0.924

3. embahasan Hasil Setelah menyelesaikan tahap implementasi, maka selanjutnya tahapan yang akan dilakukan adalah pengujian terhadap perangkat lunak yang telah dihasilkan. Struktur yang dihasilkan untuk kasus uji pertama ini akan dibandingkan dengan struktur asal Bayesian Network gambar 3.2. dari Dysponea. erubahan dalam pembentukan parent dapat disebabkan nilai peluang untuk Bronchitis yang menjadi parent dari Dysponea lebih besar yaitu, peluang terbesar untuk himpunan Dyspnoea = 0.5648 sedangkan nilai peluang Dysponea diberikan adalah parent Bronchitis([Dyspnoea,Bronchitis]) adalah 0.87198 sehingga Bronchitis adalah sebagai parent dari Dyspnoea. 3.2 Evaluasi Algoritma Hybrid Untuk melakukan evaluasi hasil fungsi Algoritma Hybrid yg di bahas yaitu : 1.Algoritma Hybrid dapat mengkonstruksi struktur Bayesian Network dari database yang tidak lengkap. Berapapun data yang hilang pada basis data, Algoritma CB tetap dapat mengkonstruksi struktur Bayesian Network, disamping dapat mengkonstruksi struktur dari basis data yang lengkap tentunya. Hal ini dibuktikan setelah dilakukan implementasi dan uji coba menggunakan data Visit to Asia. Meskipun data yang hilang cukup besar, yaitu 50%, Algoritma Hybrid tetap dapat mengkonstruksi struktur Bayesian 2. Algoritma Hybrid dapat membangkitkan node ordering yang menghasilkan struktur yang markov ekivalen ke struktur original. Node ordering dapat dibangkitkan pada fase pertama dari Algoritma Hybrid, Gambar 3.2 Hasil Kasus Uji ertama (Data Lengkap VisitToAsia) Tabel 3.1 Data Uji Hasil VisitToAsia Hasil perbandingan antara struktur asal dengan struktur yang dihasilkan oleh Algoritma Hybrid adalah pengurangan arc, yaitu hilangnya arc Dysonea-TubOrLung. Sedangkan untuk arah arc tidak terdapat perubahan. Secara lebih umum, perbedaan hasil konstruksi struktur dengan Algoritma Hybrid terhadap struktur asal Bayesian Network terletak pada himpunan parent 3. Data dengan jumlah missing value yang besar dapat menghasilkan struktur Bayesian Network yang sama dengan struktur Bayesian Network dari data yang lengkap. Hal ini dapat dilihat pada kasus Fire yang memiliki 10000 record. Meskipun jumlah missing value yang dimiliki basis data adalah 50%, struktur yang dihasilkan masih sama dengan struktur data yang lengkap. Namun untuk kasus Chest Clinic, jumlah missing value yang kecil (15%), menghasilkan struktur Bayesian Network yang berbeda dengan struktur Bayesian Network dari data lengkap. Jadi jumlah data yang besar atau kecil dapat menghasilkan struktur Bayesian Network yang sama atau berbeda dengan struktur Bayesian Network dari data lengkap. 4. Kesimpulan 1. Dari hasil uji pada kasus Visit to Asia, kemudian Chest Clinic terdapat perubahan pada struktur yang dihasilkan. erubahan struktur ini dapat terjadi akibat pengaruh data yang digunakan. Data yang digunakan dalam pengujian ini jumlahnya sangat terbatas dan tidak ada jaminan bahwa data tersebut sudah mencukupi sebagai data uji untuk menghasilkan struktur yang baik. Namun hasil uji pada kasus Fire, perubahan struktur tidak ditemukan walaupun data yang hilang adalah sebanyak 50%, hal ini disebabkan karena sampel data yang dimiliki oleh Fire berjumlah lebih besar dari dua kasus yang lain. Sehingga meskipun data yang hilang adalah 50% namun sudah cukup mewakili data yang lengkap.

2. Algoritma Hybrid adalah Algoritma yang dibangun berdasarkan dua pendekatan yaitu analisis dependensi ( constraint based) dan search and scoring (scoring based ) mampu menghasilkan struktur Bayesian Network dari data yang tidak lengkap (terdapat missing value), dengan syarat data diskret dan atribut yang bernilai biner. 5. ustaka [SIT06] Sitohang, B., & Saptawati,. (2006). Improvement of CB & BC Algorithm (CB* Algorithm) for Learning Structure of Bayesian Networks as Classifier in Data Mining. Sekolah Teknik Elektro dan Informatika, ITB.J.ICT Vol.1,No.1,2007,29-41 [US05] Sandhyaduhita,., I. (2005). Algoritma CB: Algoritma yang Dibangun dengan Dua endekatan untuk Konstruksi Struktur Bayesian Network dalam Data Mining. rogram Studi Teknik Informatika, STEI, ITB. [Sel08] Selvia Lorena Br Ginting(2008). Studi algoritma CB Dalam Data Mining untuk Konstruksi Struktur Bayesian Network dari Basis Data Incomplete, Konferensi Nasional Sistem dan Informatika 2008; Bali, November 15, 2008,KNS,108-038 [CHE97[a]] Cheng, J., Bell, D., & Liu, W. (1997). An Algorithm for Bayesian Belief Networks Construction from Data. roceeding of Ai & STAT 97 (pp.83-90). Ft. Lauderdale, Florida. [CHE97[b]] Cheng, J., Bell, D., & Liu, W. (1998). Learning Bayesian Networks from Data : An Efficient Approach Based on Information Theory. Faculty of Informatics, University of Ulster, U.K. [SEB97] Sebastiani,., & Ramona, M. (1997). Bayesian Inference with Missing Data Using Bound and Collapse. Report KMi-TR-58, Knowledge Media Institute, The Open University. [SIN95] Singh, M., & Valtorta, M. (1995). Construction of Bayesian Network Structures from Data: a Brief Survey and an Efficient Algorithm. Dept. of Computer Science, University of South Carolina,Columbia, USA. [SIM06] Simanjuntak, H. (2006). engembangan Algoritma CB untuk Konstruksi Struktur Bayesian Network dari Data Tidak Lengkap. rogram Studi Teknik Informatika, STEI, ITB. [MAH05] Maharani, H. (2005). Konstruksi Struktur Bayesian Network dalam Data Mining untuk Basis Data Incomplete dengan Metode Bound and Collapse. rogram Studi Teknik Informatika, STEI, ITB. [NEA04] Neapolitan, R., E. (2004). Learning Bayesian Networks. USA : earson entice Hall. [CHE01] Cheng, Jie, et al. (2001). Learning Bayesian Network from data : An Information-Theory Based Approach. Department of Computing Science, University of Alberta., Faculty of Informatics, University of Ulster, Toronto,Canada.