BAB 3 ANALISIS HIPOTESIS

dokumen-dokumen yang mirip
BAB 2 DASAR TEORI Bayesian Network

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK

ALGORITMA TPDA DAN TPDA Π SEBAGAI ALTERNATIF STRUKTUR BAYESIAN NETWORK

PUSTAKA. Agrawal, Rakesh and Srikant, Ramakrishnan (2000), Mining Sequential Pattern, IBM Almaden Research Center, 650 Harry Road, San Jose, CA 95120

ASSOCIATION RULES PADA TEXT MINING

Assocation Rule. Data Mining

Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} {susu} (support = 40%, confidence = 50%)

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB I PENDAHULUAN. 1.1 Latar Belakang

Mining Association Rules dalam Basis Data yang Besar

BAB 2 TINJAUAN PUSTAKA

ASSOCIATION RULES PADA TEXT MINING

RANCANG BANGUN APLIKASI DATA MINING ANALISIS TINGKAT KELULUSAN MENGGUNAKAN ALGORITMA FP-GROWTH (Studi Kasus Di Politeknik Negeri Malang)

BAB II LANDASAN TEORI. Anindita Dwi Respita,2015. a. Penelitian ini menjelaskan tentang tujuan : menggunakan metode market basket analysis.

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

2.2 Data Mining. Universitas Sumatera Utara

Penerapan Stuktur FP-Tree dan Algoritma FP-Growth dalam Optimasi Penentuan Frequent Itemset

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI ALGORITMA FP- GROWTH MENGGUNAKAN ASSOCIATION RULE PADA MARKET BASKET ANALYSIS

BAB III METODOLOGI PENELITIAN

PENDAHULUAN TINJAUAN PUSTAKA

Gambar Tahap-Tahap Penelitian

PENDAHULUAN. Latar Belakang

BAB I PENDAHULUAN Latar Belakang

PENDAHULUAN TINJAUAN PUSTAKA


BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA. Turban mendefinisikan Decision Support System sebagai sekumpulan

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISA KONSISTENSI POLA PEMINJAMAN BUKU MENGGUNAKAN ALGORITMA FP-GROWTH (Studi Kasus: UPT Perpustakaan Universitas Sebelas Maret)

Cross-Selling: Perangkat Utama Customer Relationship Managem. Meningkatkan Loyalitas Pelanggan

BAB I PENDAHULUAN. Data mining memungkinkan penemuan pola-pola yang menarik, informasi yang

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI DATA MINING DENGAN ALGORITMA APRIORI PADA TOKO BANGUNAN UD. RUFI SENTOSA JAYA SAMBIREJO - PARE

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB. III. ANALISA PERMASALAHAN

BAB IV METEDOLOGI PENELITIAN

Association Rule. Ali Ridho Barakbah

Latar Belakang Masalah Masing-masing algoritma hanya dapat bekerja pada pada data lengkap (algoritma CB) dan data tidak lengkap (algortima BC) untuk m

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

TEKNIK PENGUJIAN PERANGKAT LUNAK (Software Testing Techniques)

PENERAPAN METODE APRIORI ASOSIASI TERHADAP PENJUALAN PRODUCT COSMETIC UNTUK MENDUKUNG STRATEGI PENJUALAN

BAB I PENDAHULUAN. Teknologi Informasi sekarang ini telah digunakan hampir di semua aspek

ANALISA DATA PENJUALAN OBAT DENGAN MENGGUNAKAN ALGORITMA APRIORI PADA RUMAH SAKIT UMUM DAERAH H. ABDUL MANAN SIMATUPANG KISARAN

PENGGUNAAN MARKET BASKET ANALYSIS DALAM DATA MINING

Penggunaan Struktur FP-Tree dan Algoritma FP- Growth dalam Rekomendasi Promosi Produk pada Situs Belanja Online

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah Identifikasi Masalah Masalah Umum

METODE PENELITIAN. Proses Dasar Sistem

Pengembangan Aplikasi Market Basket Analysis Menggunakan Algoritma Generalized Sequential Pattern pada Supermarket

Belajar Mudah Algoritma Data Mining : Apriori

PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING

Analisa Keterkaitan (Link Analysis) Dengan Menggunakan Sequential Pattern Discovery Untuk Prediksi Cuaca

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS. Mekanisme Penyimpanan dan Pengambilan Sequence

BAB II TINJAUAN PUSTAKA

PENGGALIAN POLA CLOSED SEQUENTIAL PADA BASIS DATA YANG BERTAMBAH SECARA BERTAHAP

ABSTRACT Market basket analysis is a way to know the shopping habits of people in one place on goods purchased. Market basket analysis to produce an a

PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA

ANALISA PENCARIAN FREQUENT ITEMSETS MENGGUNAKAN ALGORITMA FP-MAX

1 BAB I 2 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PENERAPAN ASSOCIATION RULE MINING PADA DATA NOMOR UNIK PENDIDIK DAN TENAGA KEPENDIDIKAN

PENGGUNAAN ALGORITMA APRIORI UNTUK MENENTUKAN REKOMENDASI STRATEGI PENJUALAN PADA TOSERBA DIVA SKRIPSI

ANALISIS KETERKAITAN DATA TRANSAKSI PENJUALAN BUKU MENGGUNAKAN ALGORITMA APRIORI DAN ALGORITMA CENTROID LINKAGE HIERARCHICAL METHOD (CLHM)

UKDW BAB I PENDAHULUAN

PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA FP-TREE DAN FP-GROWTH PADA DATA TRANSAKSI PENJUALAN OBAT

Analisa Data Mining Menggunakan Algoritma Frequent Pattern Growth Pada Data Transaksi Penjualan Restoran Joglo Kampoeng Doeloe Semarang

Link Analysis (Superset) 3 Kategori Link Analysis (#1) 3 Kategori Link Analysis (#2) Association Rule Mining. 3 Kategori Link Analysis (#3)

Data Mining - Asosiasi. Market basket analysis Tool untuk menemukan pengetahuan. Istilah-istilah

PENCARIAN ATURAN ASOSIASI MENGGUNAKAN ALGORITMA APRIORI SEBAGAI BAHAN REKOMENDASI STRATEGI PEMASARAN PADA TOKO ACIICA

BAB I PENDAHULUAN. yang cepat dan besar di Asia (Kartiwi, 2006). Pertumbuhan e-commerce yang

ABSTRAKSI Analisis keranjang pasar merupakan suatu cara untuk mengetahui kebiasaan berbelanja masyarakat disuatau tempat terhadap barang yang dibeli.

Implementasi Data Mining Algoritme Apriori Pada Sistem Penjualan Kusuma Shop

PENERAPAN ALGORITMA APRIORI DALAM MENENTUKAN STRATEGI PENJUALAN MAKANAN RINGAN (Studi Kasus: Toko Pak Herry Templek - Gadungan)

BAB III METODE PENELITIAN. desaign dan coding program. Dibutuhkan waktu selama kurang lebih 8 bulan

ALGORITMA PARALEL FP-GROWTH UNTUK PENGGALIAN KAIDAH ASOSIASI PADA JARINGAN KOMPUTER

BAB IV HASIL DAN UJICOBA. Penerapan Data Mining Market Basket Analysis Terhadap Data Penjualan Produk

IMPLEMENTASI ALGORITMA APRIORI UNTUK MENGANALISA POLA PEMBELIAN PRODUK PADA DATA TRANSAKSI PENJUALAN

Data Mining III Asosiasi

BAB II LANDASAN TEORI

DATA MINING ANALISA POLA PEMBELIAN PRODUK DENGAN MENGGUNAKAN METODE ALGORITMA APRIORI

PENGEMBANGAN APLIKASI PENGGALIAN TOP-K FREQUENT CLOSED CONSTRAINED GRADIENT ITEMSETS PADA BASIS DATA RETAIL

BAB I PENDAHULUAN 1.1 Latar Belakang

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

PREDIKSI KEBUTUHAN PENOMORAN PADA JARINGAN TELEKOMUNIKASI MENGGUNAKAN METODE APRIORI

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan

PENERAPAN METODE ASOSIASI GSP DAN APRIORI UNTUK STOK DAN REKOMENDASI PRODUK

ANALISA ALGORITMA APRIORI UNTUK MENENTUKAN MEREK PAKAIAN YANG PALING DIMINATI PADA MODE FASHION GROUP MEDAN

Harmonisasi Algoritma Hybrid Untuk Membangun Struktur Bayesian Network Pada Basisdata

ANALISA DAN PERANCANGAN APLIKASI ALGORITMA APRIORI UNTUK KORELASI PENJUALAN PRODUK (STUDI KASUS : APOTIK DIORY FARMA)

SKRIPSI TI S1 FIK UDINUS 1

Data Mining. Tidak. Mulai. Data transaksi. Pembersihan data. Seleksi data. Transformasi data. Pemberian nilai minimum support

Pola Kompetensi Mahasiswa Program Studi Informatika Menggunakan FP-Growth

Abstrak. Data Mining, Algoritma Apriori, Algoritma FP-Growth, Mata Pelajaran, Pemrograman, Web Programming, Matematika, Bahasa Inggris.

II. TINJAUAN PUSTAKA

Transkripsi:

BAB 3 ANALISIS HIPOTESIS Pada bagian ini dibahas mengenai analisis hipotesis sequential pattern dapat dimanfaatkan sebagai node ordering dalam mengkonstruksi struktur BN. Analisis dimulai dengan melakukan kajian terhadap karakteristik dan manfaat dari node ordering dan sequence pattern untuk menemukan prinsip yang ada pada keduanya. Hasil yang diperoleh akan digunakan sebagai acuan dasar untuk menganalisis hipotesis, kemudian dari hasil analisis tersebut akan dapat disimpulkan kebenaran hipotesis yang diajukan. Pada bagian akhir dilakukan analisis lebih lanjut adanya kemungkinan pemanfaatan sequential pattern sebagai informasi node ordering yang digunakan oleh algoritma apapun dalam mengkonstruksi struktur BN. Bab ini ditutup dengan pemaparan hubungan sequential pattern dan node ordering dalam konteks konstruksi struktur BN. 3.1. Node Ordering Sesuai dengan definisi II.16, bahwa stuktur causal Bayesian network adalah struktur yang dibangun dari model DAG. Jika model DAG dikonstruksi dengan memanfaatkan informasi node ordering, maka model DAG tersebut menyatakan bukan hanya kebebasan (independency) saja, tetapi juga kebebasan bersyarat (conditional independency) [PEA01]. Hal ini terjadi karena node ordering yang dimanfaatkan merepresentasikan kausalitas. Pernyataan tersebut diperkuat oleh definisi II.17, bahwa node ordering adalah urutan simpul-sumpul pada graf yang merepresentasikan hubungan sebab-akibat (causal) yang artinya adalah simpul yang muncul lebih awal adalah simpul yang merupakan penyebab dari simpul yang muncul berikutnya [CHE01[a]]. Sebagai contoh, seorang yang telah menderita penyakit paruparu akan mengakibatkan orang tersebut sering mengalami keletihan (penyakit paruparu sebagai sebab, dan keletihan sebagai akibat). Dengan demikian, node ordering itu menyatakan suatu hubungan kausalitas yang kuat yang akan dimanfaatkan oleh algoritma konstruksi struktur BN pada saat melakukan CI test, karena node ordering 34

tersebut membantu untuk menemukan bukan hanya kebebasan saja, tetapi juga kebebasan bersyarat. Informasi node ordering biasanya didefinisikan oleh pakar berdasarkan pengalamannya dengan tetap menjamin hubungan kausalitas pada seluruh simpul. Informasi node ordering dapat juga merupakan hasil uji statistik yang dilakukan pada penelitian. Pada algoritma TPDA node ordering merupakan sebuah masukan yang menjadi prasyarat mutlak ada yang harus dipenuhi. Pada saat mengkonstruksi struktur BN, algoritma TPDA memanfaatkan informasi mengenai node ordering untuk meminimalkan jumlah CI test. Jumlah CI test dapat direduksi karena dengan diketahuinya informasi node ordering tersebut maka pemeriksaan terhadap aliran informasi yang terdapat pada pasangan simpul tidak harus berulang kali. Sebagai akibatnya, algoritma TPDA yang memanfaatkan informasi node ordering akan memiliki kompleksitas yang relatif lebih baik jika dibanding dengan algoritma lain dengan tanpa diketahui informasi node ordering. Untuk memberi penjelasan yang lebih detil, berikut diberikan sebuah contoh yang diambil dari sub bab 2.2.1 yaitu contoh yang digunakan pada algoritma TPDA. Pada saat pembahasan contoh tersebut, manfaat dari node ordering pada setiap fase konstruksi stuktur BN juga akan diidentifikasi. Diasumsikan bahwa diberikan informasi node ordering adalah (A,B,C,D,E). Pada fase 1, dilakukan penghitungan nilai mutual information pasangan simpul yang lebih besar dari ε, dan dihasilkan urutan pasangan simpul adalah I(B,D) I(C,E) I(B,E) I(A,B) I(B,C) I(C,D) I(D,E) I(A,D) I(A,E) I(A,C). Selanjutnya pasangan simpul diambil satu demi satu untuk diperiksa, dimulai pada pasangan yang memiliki nilai mutual information terbesar. Jika hasil pemeriksaan memberikan hasil bahwa pasangan simpul yang diambil tersebut tidak memiliki lintasan terbuka (open path) pada graf terkini, maka sebuah busur dibuat untuk menghubungkan pasangan simpul tersebut. Proses pemeriksaan tersebut terus dilakukan hingga seluruh pasangan simpul telah selesai diperiksa. 35

Ada atau tidak ada lintasan terbuka pada graf dapat diperiksa dengan memanfaatkan informasi node ordering yang diberikan. Menurut definisi II.1, lintasan terbuka hanya dapat terjadi pada dua jenis chain yang non collider, yaitu head-to-tail dan tail-to-tail. Kedua jenis chain ini sangat mudah diidentifikasi dengan memanfaatkan node ordering. Pada gambar II.6.b simpul C dan D tidak dihubungkan oleh sebuah busur karena hasil pemeriksaan menunjukkan bahwa pasangan simpul (C,D) telah memiliki lintasan terbuka yaitu C B D (tail-to-tail). Pada fase 2, graf terkini kembali diperiksa untuk menghubungkan simpul-simpul yang seharusnya terhubung, namun pada graf tersebut masih belum terhubung. Caranya adalah dengan menemukan cut set yang dapat membuat dua buah simpul d-separated pada graf. Berdasarkan definisi II.2, d-separation dapat terjadi jika setiap chain antara dua simpul diblok oleh cut set. Selanjutnya cut-set yang ditemukan akan digunakan dalam CI test untuk memeriksa apakah dua simpul tersebut adalah bebas kondisional jika diketahui cut set. Jika ternyata bebas kondisional maka pasangan simpul tersebut dihubungan dengan sebuah busur. Tanpa informasi node ordering pengujian CI test harus dilakukan berulang kali antar simpul (untuk menemukan menentukan cut-set yang minimal), sehingga dapat ditemukan arah panah dari busur yang menghubungan kedua simpul tersebut. Dengan memanfaatkan node ordering, CI test yang dilakukan tidak perlu bolak-balik antara simpul, namun cukup sekali saja sehingga kompleksitas algoritma bisa berkurang. Pada gambar II. 6.c simpul C dan D tidak dihubungkan oleh sebuah busur karena hasil CI test menunjukkan bahwa I(C,D {B}) < ε yang artinya bebas kondisional. Pada fase 3, graf terkini kembali diperiksa untuk membuang busur yang berlebih. Prinsip yang sama seperti pada fase 2 digunakan yaitu menemukan cut set dan melakukan CI test untuk memeriksa kebebasan kondisionalnya. Informasi node ordering juga dimanfaatkan untuk menemukan minimum cut set. Dengan contoh yang telah diberikan, terlihat jelas bahwa informasi node ordering yang digunakan pada algoritma TPDA bermanfaat untuk mengurangi jumlah CI test yang harus dilakukan. Dengan diketahuinya node ordering, maka CI test tidak perlu lagi dilakukan berulang kali pada pasangan simpul, karena sebelum CI test 36

dilakukan, sumber (penyebab) dan tujuan (akibat) dari aliran informasi sudah diketahui secara pasti. Melalui pemaparan yang telah diberikan tersebut, terlihat jelas bahwa node ordering yang digunakan oleh algoritma TPDA sangat bermanfaat untuk mengurangi banyaknya pemeriksaan lintasan dan arah yang terdapat pada pasangan simpul saat melakukan CI test. Pada satu pasang simpul, pemeriksaan dilakukan cukup satu kali saja, karena prinsip kausalitas yang melekat pada informasi node ordering menjadi sebuah syarat cukup untuk menetapkan cut set yang tepat, sehingga CI test dapat dilakukan satu kali saja dengan mengkondisikan cut set sebagai himpunan simpul yang diketahui nilainya (memiliki evident). Sebagai contoh, jika diketahui informasi node ordering adalah (A,B,C), maka pemeriksaan yang perlu dilakukan pada pasangan simpul (A,C) adalah I(A,C B) karena {B} adalah cut set yang tepat. 3.2. Sequential Pattern Sequential pattern adalah pola yang merepresentasikan urutan waktu terjadinya peristiwa-peristiwa (sesuai definisi II.18), yang merupakan hasil proses mining terhadap suatu himpunan data transaksi berukuran relatif besar. Sequential pattern pada dasarnya disusun oleh himpunan frequent itemset yang memenuhi min_sup, yaitu himpunan itemset yang memiliki frekuensi kemunculan melebihi threshold (sesuai definisi II.20). Berikut diberikan sebuah contoh, yang diambil dari gambar III.1. Seluruh data transaksi telah dikelompokkan ke dalam id_pelanggan dan diurutkan menaik berdasarkan waktu_transaksi pada gambar III.1(a) dan sequence pelanggan yang terbentuk terdapat pada gambar III.1(b) 37

id_pelanggan waktu_transaksi item 1 1 2 2 2 29 Juni 93 30 Juni 93 10 Juni 93 15 Juni 93 20 Juni 93 30 90 10,20 30 40,60,70 3 25 Juni 93 30,50,70 4 4 4 25 Juni 93 30 Juni 93 25 Juli 93 30 40,70 90 5 12 Juni 93 90 id_pelanggan sequence pelanggan 1 (30), (90) 2 (10,20), (30), (70,60,40) 3 (30, 70, 50) 4 (30), (70, 40), (90) 5 (90) (b) (a) Gambar III.1. Cuplikan proses pembentukan sequential pattern: (a) Data seluruh transaksi dikelompokkan dan diurutkan (b) Sequence pelanggan Sequence pelanggan yang terdapat pada gambar III.1(b) berisikan himpunan itemset. Untuk pelanggan pertama, sequence yang terbentuk adalah (30), (90) dengan itemset pertama berisikan sebuah item dengan nomor 30, dan itemset kedua berisikan sebuah item dengan nomor 90. Kedua itemset tersebut dituliskan terurut sesuai tanggal transaksi, yang dalam hal ini item 30 lebih dahulu dibeli kemudian item 90. Hal yang sama juga berlaku untuk pelanggan lainnya. Dari seluruh sequence pelanggan yang terbentuk, akan ditentukan frequent itemset dengan menggunakan aturan support yang ada pada association rule. Sebagai contoh, jika didefinisikan min_sup adalah 25% maka akan dihasilkan dua buah maksimal sequence yaitu (30), (90) dan (30), (40, 70). (definisi maksimal sequence ada pada definisi II.21). Kedua sequence yang terbentuk akan menjadi sequential pattern. Terlihat bahwa sequential pattern tetap merepresentasikan adanya informasi temporal. Pada sequential pattern (30), (40, 70) itemset pertama yang berisi sebuah item dengan nomor 30, dan pada itemset kedua berisi dua buah item bernomor 40 dan 70. Hal ini menunjukkan pola transaksi yang dilakukan oleh pelanggan adalah: pertama sekali membeli item 30, dan suatu saat nanti akan membeli item 40 saja atau 70 saja atau keduanya. Pola sequence yang dihasilkan adalah akibat dari proses pengurutan 38

seluruh transaksi berdasarkan atribut waktu_transaksi yang dilakukan oleh masing-masing pelanggan. Proses yang dilalui hingga dapat menemukan sequential pattern disebut sequential pattern mining, dan telah diaplikasikan dalam algoritma yang dikembangkan dengan konsep dasar sequential pattern. Sebagai catatan, dalam tulisan ini tidak dibahas tentang algoritmanya, namun sebuah algoritma AprioriAll telah diberikan pada bagian lampiran C. Pada proses tersebut, aturan support digunakan berulang kali dalam melakukan seleksi untuk menemukan seluruh frequent itemset. Aturan support tersebut adalah alat bantu uji statistik untuk menemukan seluruh sequence yang memenuhi syarat minimum support. Dengan melihat karakteristik sequential pattern tersebut, maka dapat disimpulkan bahwa sequential pattern adalah mengandung informasi urutan waktu kejadian atau disebut dengan informasi temporal. 3.3. Analisis Hipotesis Untuk menyegarkan ingatan, kembali dituliskan hipotesis pada penelitian ini yaitu: sequential pattern dapat dimanfaatkan sebagai informasi node ordering dalam mengkonstruksi struktur BN. Hipotesis ini berdasar pada adanya kesamaan yang terdapat pada node ordering dan sequential pattern. Yang pertama, kesamaan dalam notasi penulisan, yaitu notasi (n 1,n 2,n 3,n 4,...n i ) pada node ordering dan notasi s 1,s 2,s 3,s 4,...s j pada sequential pattern. Yang kedua, kesamaan dalam urutan kemunculan simpul pada node ordering dan urutan kemunculan himpunan itemset pada sequential pattern (dalam hal urutan simpul n 1 muncul mendahului n 2, dan dalam hal urutan himpunan elemen s 1 muncul mendahului s 2 ). Berdasarkan kesamaan tersebut, timbul suatu dugaan bahwa pada dasarnya informasi node ordering dapat disediakan oleh sequential pattern, sehingga sequential pattern dapat dimanfaatkan sebagai node ordering dan selanjutnya digunakan sebagai paramater masukan pada algoritma konstruksi struktur BN. Seperti telah dijelaskan terlebih dahulu, pada sequential pattern, pola sequence yang dihasilkan menyatakan urutan kejadian peristiwa-peristiwa. Dalam suatu kumpulan 39

data transaksi belanja atau yang lebih dikenal dengan market basket data, sequence tersebut menyatakan urutan waktu pembelian himpunan item yang dilakukan oleh pelanggan, berdasarkan waktu kunjungan belanja yang terjadi. Suatu sequential pattern dinotasikan dengan is 1, is 2,..., is k yang dalam hal ini i k adalah itemset dan k merepresentasikan waktu terjadinya transaksi dengan nilai k yang lebih kecil menyatakan waktu terjadinya transaksi lebih dahulu dibandingkan dengan nilai k yang lebih besar (sesuai definisi II.21). Jadi penulisan sebuah sequential pettern (30), (40, 70) yang dapat juga ditulis dengan (30), (70, 40) (urutan item pada suatu itemset tidak diperhatikan sesuai definisi II.20), menunjukkan bahwa peristiwa terjadinya transaksi terhadap itemset (30) mendahului terjadinya transaksi terhadap itemset (40, 70). Melaui notasi penulisan tersebut ditarik kesimpulan bahwa dari seluruh transaksi yang dianalisis, peristiwa transaksi belanja terhadap item dengan nomor 30 mendahului transaksi belanja item dengan nomor 40 saja, atau 70 saja, atau 40 dan 70 bersamaan, telah memenuhi syarat tertentu untuk dapat dijadikan sebagai sebuah informasi pola belanja yang umum dilakukan oleh pelanggan. Sebagai akibatnya, jika kemudian hari seorang pelanggan melakukan transaksi pembelian terhadap item dengan nomor 30, maka probabilitas pelanggan yang sama akan membeli item dengan nomor 40 saja, atau 70 saja, atau keduanya bersamaan, lebih besar dibanding probabilitas membeli item lainnya. Pada proses menemukan pola sequence tersebut, seluruh transaksi yang terjadi dibentuk menjadi customer sequence yang disusun terurut menaik berdasarkan waktu transaksi (sesuai definisi II.20), kemudian digunakan aturan support untuk menemukan seluruh frequent itemset. Sebagai akibatnya pola sequence yang dihasilkan secara implisit menyatakan hubungan kemunculan itemset dalam urutan waktu (temporal). Untuk lebih jelas, berikut diberikan sebuah contoh. Andaikan seorang pelanggan pada transaksi pertama melakukan pembelian terhadap sebuah item, misalkan item tersebut adalah komputer, maka biasanya pelanggan tersebut juga pada suatu saat nanti akan melakukan pembelian terhadap printer. Suatu saat di sini artinya bisa saja pada transaksi yang sama atau pada transaksi berikutnya. Namun secara intuisi, hampir dapat dipastikan bahwa seseorang tidak akan membeli printer terlebih dahulu pada suatu transaksi, lalu kemudian membeli komputer pada transaksi berikutnya. Hal ini adalah wajar, karena printer tidak dapat digunakan tanpa ada komputer, namun 40

sebaliknya komputer dapat digunakan meskipun tidak ada printer. Dalam contoh tersebut, printer adalah item pelengkap, sehingga printer dibeli setelah komputer. Lalu jika diasumsikan pelanggan tersebut melakukan pembelian terhadap komputer pada suatu transaksi, maka data transaksi pembelian komputer oleh pelanggan tersebut akan disimpan, dengan atribut id_pelanggan, item, dan waktu_transaksi. Seiring berjalannya waktu, pelanggan tersebut memiliki kebutuhan untuk mencetak hasil pekerjaannya dengan menggunakan printer. Kemudian pelanggan tersebut kembali ke toko yang sama untuk membeli printer. Data transaksi pembelian printer oleh pelanggan tersebut akan disimpan dengan atribut transaksi yang sama dengan transaksi sebelumnya. Sebagi akibatnya akan tercatat bahwa pelanggan tersebut telah melakukan dua transaksi terhadap item yang berbeda, yaitu transaksi pertama terhadap komputer dan kemudian transaksi kedua terhadap printer, dan kedua transaksi memiliki waktu_transaksi yang berbeda. Seluruh data transaksi yang terjadi termasuk data transaksi yang dilakukan oleh pelanggan lainnya, akan membentuk sebuah market basket data. Untuk mempersingkat penjelasan, setelah melalui prosesproses yang mengaplikasikan min_sup untuk menemukan frequent itemset, diasumsikan bahwa sequential pattern yang dihasilkan adalah (komputer), (printer). Sequential pattern ini merepresentasikan suatu urutan transaksi, yaitu transaksi komputer dilakukan mendahului transaksi printer. Dari contoh tersebut terlihat bahwa pada dunia nyata sesungguhnya sudah ada hubungan kausalitas antara komputer dan printer. Hubungan kausalitas ini juga yang membentuk suatu pola sequence yang ditemukan dari basis data. Namun pola sequence yang dihasilkan dari basis data, tidak merepresentasikan adanya hubungan kausalitas antara komputer dan printer. Hal ini dapat disimpulkan karena hasil uji statistik dengan aturan support hanya akan memberikan hasil perhitungan kemunculan bersama himpunan item yang memenuhi threshold. Dengan mengambil contoh yang diberikan pada kasus pembelian komputer dan printer, sequential pattern yang ditemukan pada market basket data akan menghasilkan pola sequence yang memenuhi minimum support. Pola sequence yang dihasilkan menyatakan urutan terjadinya transaksi pembelian itemset. Pengujian statistik yang dilakukan secara ilmiah dalam menghasilkan sequential pattern yang hanya merepresentasikan informasi temporal (urutan waktu terjadinya peristiwa). 41

Pada node ordering, penulisan notasi dinyatakan dengan (n 1,n 2,n 3,n 4,...,n i ) yang merepresentasikan hubungan kausalitas yang ada pada seluruh simpul tersebut. Sebuah informasi node ordering berupa (A,B,C,D,E) merepresentasikan bahwa simpul A adalah penyebab dari simpul B, C, D, dan E sehingga pasangan simpul yang dihubungkan oleh busur berarah yang mungkin dibentuk adalah: A B, A C, A D, A E, B C, B D, B E, C D, C E, dan D E (sesuai definisi II.7). Dalam proses membangun struktur BN, algoritma TPDA memanfaatkan informasi node ordering tersebut dalam melakukan pengujian statistik yang disebut dengan CI test untuk memeriksa apakah dua buah simpul bebas kondisional atau tidak, sehingga jumlah CI test dapat dikurangi. Pemeriksaan dengan mudah dilakukan pada saat menemukan cut-set yang tepat yang dapat membuat simpul A dan simpul B menjadi d-seperated. Sebagai contoh, untuk melakukan d-seperation terhadap simpul A dan simpul B, dengan informasi node ordering adalah (A,B,C,D,E) yang menunjukkan bahwa A mendahului B, maka sebuat cut set dapat ditentukan sebagai orangtua dari B. Berdasarkan definisi II.11, sesuai konteks berpikir manusia, informasi node ordering akan diterjemahkan ke dalam dua aspek yaitu temporal dan statistik. Secara temporal, jika diberikan informasi node ordering adalah (A,B,C) maka dapat dinyatakan bahwa simpul A adalah penyebab dari simpul B, atau simpul C, atau kedua simpul B dan C, yang berarti A terjadi lebih dahulu kemudian B dan kemudian C. Tetapi aspek temporal saja tidak cukup, sehingga seharusnya perlu penjelasan ilmiah secara statistik untuk menterjemahkan node ordering. Namun karena informasi node ordering didefinisikan secara langsung oleh pakar dan merupakan hasil penelitian atau pengalamannya, maka penjelasan statistik tidak diperlukan lagi, karena hubungan kausalitas pada node ordering sudah dijamin. Pada lain pihak, sequential pattern merepresentasikan informasi temporal. Informasi temporal yang ada pada sequential pattern cocok dengan informasi node ordering namun terbatas hanya pada aspek temporal saja. Jika seandainya sequential pattern merepresentasikan hubungan kausalitas maka sudah pasti sequential pattern cocok dengan node ordering. Namun karena penjelasan ilmiah secara statistik pada 42

sequential pattern yang dilakukan dengan mengaplikasikan hanya prinsip frequent itemset, maka sequential pattern sama sekali tidak merepresentasikan hubungan kausalitas, namun hanya merepresentasikan informasi temporal. Pada lain pihak, node ordering yang dihasilkan oleh pakar, didefinisikan berdasarkan suatu uji statistik atau pengalamannya dan telah dijamin hubungan kausalitas simpul penyusunnya (dituliskan pada bab 3). Pengujian statistik yang dilakukan pada node ordering semata-mata hanya menentukan hubungan kausalitas yang terkandung pada kumpulan data, dan tidak ada hubungannya dengan informasi temporal (sesuai definisi II.13) Secara notasi penulisan, memang sequential pattern dengan notasi is 1, is 2,..., is k dan node ordering dengan notasi (n 1,n 2,n 3,n 4,...,n i ) memiliki persamaan ditinjau dari struktur penulisannya. Namun meskipun dari sisi notasi keduanya dituliskan relatif sama, namun kedua notasi penulisan tersebut tidak merepresentasikan satu prinsip yang sama, masing-masing merepresentasikan prinsip yang berbeda, yaitu prinsip informasi temporal pada sequential pattern dan prinsip hubungan kausalitas pada node ordering. Demikian juga urutan kemunculan simpul yang ada pada node ordering, meskipun pada sequential pattern notasi is 1, is 2,..., is k menyatakan bahwa is dengan indeks k yang lebih kecil lebih dahulu terjadi dibanding is dengan indeks k yang lebih besar, sama seperti pada node ordering notasi (n 1,n 2,n 3,n 4,...,n i ) yang menyatakan bahwa simpul n dengan indeks i yang lebih kecil lebih dahulu terjadi dibanding n dengan indeks i yang lebih besar, namun pada node ordering urutan simpul tidak semata-mata hanya merepresentasikan urutan kejadian. Pada node ordering, selain merepresentasikan urutan kejadian, juga merepresentasikan hubungan kausalitas. Lebih lanjut lagi, pada algoritma konstruksi struktur BN, informasi node ordering yang dimanfaatkan adalah informasi node ordering yang merepresentasikan adanya hubungan kausalitas. 3.1.1. Kesimpulan Analisis Hipotesis Sesuai dengan pembahasan yang diberikan, maka meskipun aspek temporal memberi peluang kepada sequential pattern untuk dapat dimanfaatkan sebagai informasi node ordering, namun karena informasi node ordering yang dibutuhkan oleh algoritma konstruksi struktur BN adalah informasi yang merepresentasikan adanya hubungan kausalitas, akibatnya hipotesis dipatahkan. Sesuai dengan definisi II.13 bahwa hanya 43

hubungan kausalitas yang dapat ditemukan lewat pengujian statistik, dan tidak ada hubungannya dengan informasi temporal. Untuk dapat menyimpulkan keterkaitan antara sequential pattern dan node ordering, maka kembali digunakan definisi II.11. Menurut definisi II.11 dalam konteks berpikir manusia, hubungan kausalitas harus memenuhi dua aspek yaitu: temporal dan statistik. Aspek temporal menyatakan bahwa sebab harus mendahului akibat. Sedangkan aspek statistik adalah untuk menyatakan suatu penjelasan ilmiah akan kausalitas untuk memastikan bahwa hanya hal yang bersifat ilmiah yang akan dihasilkan [PEA01]. Artinya adalah bahwa dengan melakukan pengujian statistik, hubungan kausalitas dapat dinyatakan secara ilmiah, dan pada setiap hubungan kausalitas tentu mengandung informasi temporal. Pada sub bab sebelumnya, node ordering secara ilmiah berdasarkan pemeriksaan statistik sudah terbukti merepresentasikan hubungan kausalitas. Berdasarkan definisi tersebut, maka node ordering juga pasti merepresentasikan informasi temporal. Pada lain pihak, sequential pattern secara ilmiah berdasarkan pemeriksaan statistik hanya merepresentasikan informasi temporal. Maka disimpulkan bahwa secara matematis, sequential pattern adalah himpunan bagian dari node ordering. Sudah jelas bahwa sequential pattern tidak memiliki unsur kausalitas untuk dijadikan sebagai node ordering. Pertanyaan yang kemudian muncul adalah: apakah dengan menambahkan uji statistik kausalitas pada sequential pattern yang sudah ditemukan tersebut (atau diformulasikan dengan SP + uji statistik kausalitas), akan membuat hasil baru tersebut dapat dimanfaatkan sebagai node ordering sehingga dapat dimanfaatkan oleh algoritma konstruksi struktur BN? Sesungguhnya hasil baru tersebut (SP + uji statistik kausalitas) dapat dimanfaatkan sebagai node ordering. Namun jika hal ini dilakukan, akan terjadi tumpang tindih (over lap) antara SP + uji kausalitas dan algoritma konstruksi struktur BN itu sendiri. Hasil analisis pada peran node ordering pada sub bab III.1 menunjukan bahwa pemeriksaan kebebasan kondisional (CI test) pada pasangan simpul dapat dikurangi bila informasi node ordering sudah diketahui, dan dalam hal ini pengujian CI test tersebut adalah pengujian statistik kausalitas. Dari kenyataan ini jelas terlihat bahwa 44

pada saat mengkonstruksi struktur BN, algoritma melakukan sejumlah uji statistik untuk memeriksa kebergantungan dan kebebasan kondisional pada pasangan simpul, dan uji statistik tersebut sesungguhnya telah menemukan kausalitas yang ada pada simpul-simpul yang diperiksanya (definisi konsep CI test dan d-separation). Sebagai akibatnya, jika uji statistik kausalitas dilakukan juga pada SP, maka uji statistik kualitas akan dilakukan dua kali sehingga tidak efektif dan tidak efisien. Jadi disimpulkan bahwa uji statistik kausalitas yang dilakukan pada SP (SP + uji statistik kausalitas) dianggap tidak efektif dan tidak efisien. Sebenarnya SP yang dihasilkan dapat dimanfaatkan untuk mempersempit ruang pencarian terhadap NO. Penjelasannya adalah sebagai berikut. Pada saat menentukan NO, tersedia sejumlah variabel yang menjadi atribut data. Pada awalnya, seluruh variabel ini akan dijadikan sebagai NO. Namun pada pembentukan NO tersebut, SP yang sudah dihasilkan dapat dimanfaatkan sehingga jumlah variabel yang membentuk NO dapat direduksi, karena informasi temporal yang direpresentasikan oleh SP dapat dimanfaatkan untuk mempersempit ruang pencarian pada saat menentukan NO. Karena informasi SP tidak memadai untuk dapat menjadi NO, maka hipotesis yang menyatakan bahwa: sequential pattern dapat dimanfaatkan sebagai informasi node ordering dalam mengkonstruksi struktur Bayesian network secara ilmiah dinyatakan tidak sepenuhnya benar. Sequential pattern masih dapat dimanfaatkan sebagai informasi node ordering namun tidak secara langsung, karena pada sequential pattern yang telah dihasilkan perlu ditambahkan uji statistik kausalitas sehingga sequential pattern tersebut akan merepresentasikan informasi kausalitas, dan selanjutnya dapat dimanfaatkan sebagai node ordering. 45