FREQUENT ITEMSET MINING MENGGUNAKAN ALGORITMA DF-APRIORI

REQUENT ITEMSET MINING MENGGUNAKAN ALGORITMA D-APRIORI Suhatati Tjandra Dosen Teknik Informatika Sekolah Tinggi Teknik Surabaya e-mail : tati@stts.edu ABSTRAK requent itemset mining adalah algoritma yang digunakan untuk mencari frequent itemset. requent itemset mining dapat diklasikasifikan menjadi tiga kelompok yaitu : algoritma mining requent Itemset (I), algoritma mining requent Closed Itemset (CI), dan algoritma mining Maximal requent Itemset (MI). Algoritma D-Apriori adalah implementasi secara depth-first dari algoritma Apriori, salah satu algoritma frequent itemset mining (IM) tercepat untuk menemukan semua frequent itemset pada sebuah database. Secara garis besar proses mining dengan menggunakan algoritma D-Apriori terdiri dari tiga tahap yaitu tahap preprocessing dimana algoritma mencari frequent -itemset dari database input, tahap pembuatan trie dan tahap pembacaan hasil dari trie. Semua hasil frequent itemset dapat dibaca langsung dari trie ketika trie telah selesai dibentuk. Kata kunci : Data Mining, D-Apriori, Maximal requent Itemset, Itemset, trie. ABSTRACT requent itemset mining is algorithm which is used to find frequent itemset. requent itemset mining can be classify to requent Itemset (I), requent Closed Itemset (CI) and Maximal requent Itemset (MI). D-Apriori algorithm is one of frequent itemset mining algorithms which works in dept first and can work fast to find frequent itemset on database. Mining process use D-Apriori algorithm concist of three phases. irst, find frequent -itemset from input database. Second, build trie data structure and last, read the formed trie. Keywords : Data Mining, D-Apriori, Maximal requent Itemset, Itemset, trie. PENDAHULUAN Data mining adalah proses pencarian terhadap pengetahuan (yang sebelumnya tidak diketahui, valid, dan dapat digunakan) dari database yang besar dan kemudian menggunakan pengetahuan tersebut untuk membuat keputusan bisnis yang penting. Istilah data mining yang sangat terkenal saat ini sebenarnya kurang tepat seharusnya istilah yang lebih tepat adalah knowledge mining from data. Akan tetapi istilah tersebut terlalu panjang dan oleh karena itu disingkat menjadi knowledge mining. Istilah knowledge mining tidak dapat memberikan tekanan pada sumbernya yaitu data dalam jumlah besar. Banyak orang yang menganggap data mining sama dengan Knowledge Discovery in Database (KDD). Sebenarnya kedua istilah itu berbeda karena data mining adalah salah satu bagian atau proses dari KDD. Komponen-komponen utama dalam arsitektur sistem data mining adalah sebagai berikut : Database, data warehouse, atau media penyimpanan informasi yang lain. Bagian ini merupakan satu atau kumpulan database, data warehouse, spreadsheet, atau jenis media penyimpanan informasi yang lain. Database atau data warehouse server. Database dan data warehouse server bertanggungjawab memberikan data yang relevan berdasarkan permintaan user yang melakukan mining. Knowledge base Bagian ini merupakan pengetahuan utama yang digunakan sebagai penuntun untuk melakukan 0

Analisa SSVM (Smooth Support Vector Machines) Dan RSVM (Reduced Support Vector Machines) (Yosi Kristian et al) proses pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan yang dapat disertakan adalah konsep hierarki yang digunakan untuk mengatur atribut atau nilai atribut ke dalam tingkatan abstraksi yang berbeda. Pengetahuan seperti kepercayaan user dapat digunakan untuk mengakses ketertarikan pattern yang tidak terduga dapat juga dimasukkan ke dalam knowledge base. Contoh pengetahuan lain yang dapat dimasukkan adalah interestingness constraint atau threshold tambahan, dan metadata. Data mining engine Bagian ini adalah bagian penting pada sistem data mining dan idealnya terdiri dari sekumpulan modul fungsional untuk suatu tugas seperti characterization (pengkarakteran), association, classification (pengklasifikasian), cluster analysis (analisa cluster), dan evolution and deviation analysis (analisa evolusi dan deviasi). Pattern evaluation module Komponen ini menggunakan pengukuran ketertarikan dan berinteraksi dengan modul data mining untuk memfokuskan pencarian interesting pattern (pola-pola yang menarik). Selain itu, untuk mendapatkan pattern mungkin dapat menggunakan interestingness threshold. Modul untuk mengevaluasi pattern dapat diintegrasikan dengan modul untuk mining, tergantung dari metode implementasi data mining yang digunakan. Agar proses data mining lebih efisien, maka direkomendasikan untuk menekan proses evaluasi pola-pola yang menarik sedalam mungkin pada proses mining. Graphical user interface Modul ini menghubungkan user dengan sistem data mining. Modul ini memungkinkan user berinteraksi dengan sistem dengan cara mendeskripsikan query atau tugas yang harus dikerjakan sistem, menyediakan informasi untuk membantu pencarian agar lebih fokus, dan melakukan penelitian data mining berdasarkan hasil yang didapat dari proses mining. Selain itu, modul ini memungkinkan user untuk melakukan browse terhadap database dan skema atau struktur data dari data warehouse, mengevaluasi pattern yang dimining, dan dapat melihat pattern secara visual dalam bentuk yang berbeda-beda. Association Rule Mining Motivasi awal pencarian association rule berasal dari keinginan untuk menganalisa sebuah data transaksi supermarket, yaitu ditinjau dari perilaku customer dalam membeli produk. Association rule menjelaskan seberapa sering suatu produk dibeli secara bersamaan dengan produk lain. Sebagai contoh, association rule shampo sabun (80%) menunjukkan bahwa empat dari lima pelanggan yang membeli shampo juga membeli sabun. Dalam suatu association rule X Y; X disebut dengan antecedent dan Y disebut dengan consequent. Rule seperti ini berguna untuk mengambil keputusan yang berhubungan dengan promosi, penetapan harga suatu produk atau penataan produk dalam rak. Contoh manfaat association rule : Rule yang mengandung Y sebagai consequent dapat membantu merencanakan apa yang harus dilakukan oleh suatu toko untuk meningkatkan penjualan Y. Rule yang mengandung X sebagai antecedent dapat digunakan untuk membantu menentukan barang-barang apa saja yang terpengaruh apabila toko tersebut memutuskan untuk berhenti menjual X. Rule yang mengandung X sebagai antecedent dan Y sebagai consequent dapat digunakan untuk menentukan produk lainnya yang harus dijual bersama dengan X untuk meningkatkan penjualan Y. Rule yang berhubungan dengan barang yang terdapat pada rak A dan rak B pada suatu toko dapat membantu merencanakan pengaturan barang pada rak dengan menentukan bahwa penjualan barang di rak A berhubungan dengan penjualan barang di rak B. Rule support dan rule confidence adalah dua ukuran ketertarikan pemakai association rule mining. Contoh : komputer aplikasi akuntansi [support = 2%, confidence = 60%]. Rule di atas berarti : 2% dari semua transaksi, komputer dan aplikasi akuntansi dibeli secara bersamaan. 60% dari pelanggan yang membeli komputer juga aplikasi akuntansi. Jenis Association Rules Ada banyak jenis association rule yang dapat diklasifikasikan dalam beberapa kelompok berdasarkan kriteria-kriteria sebagai berikut : Berdasarkan tipe nilai yang dapat ditangani rule Jika suatu rule menangani asosiasi diantara ada atau tidaknya suatu item, maka rule tersebut disebut boolean association rule. Contoh dari boolean association rule adalah: komputer aplikasi akuntansi. Jika suatu rule menunjukan asosiasi antara itemitem kuantitatif atau atribut-atribut, maka rule tersebut disebut quantitative association rule. Pada

DINAMIKA TEKNOLOGI Vol., No. ; Oktober 2006: 0-8 rule ini, nilai kuantitatif dari item-item atau atributatribut dibagi ke dalam interval-interval. Contoh dari quantitative association rule: umur( X, 30..39 ) ^ pendapatan(x, 2K..8K ) beli(x, high resolution TV). Berdasarkan dimensi dari data yang ada pada rule Jika item atau atribut dalam association rule hanya melibatkan satu dimensi saja, maka rule tersebut adalah single-dimensional association rule. Contoh single-dimensional association rule: beli(x, komputer ) beli (X, aplikasi akuntansi ) Rule di atas merupakan bentuk lain dari contoh rule pada boolean association rule. Rule di atas disebut single-dimensional association rule karena rule tersebut hanya melibatkan satu dimensi yaitu beli. Jika rule melibatkan dua atau lebih dimensi seperti dimensi beli, waktu, dan kategori pelanggan, maka rule tersebut disebut multidimensional association rule. Contoh rule pada quantitative association rule juga termasuk rule jenis ini karena rule tersebut melibatkan tiga dimensi yaitu: umur, pendapatan dan beli. Berdasarkan level abstraksi yang ada pada rule Misalkan rule-rule yang terdapat pada sebuah set dari association rule adalah sebagai berikut: umur(x, 30..39 ) beli(x, laptop ) umur(x, 30..39 ) beli(x, komputer ) Pada rule-rule diatas, item yang dibeli direferensikan pada level abstraksi yang berbeda ( komputer adalah abstraksi pada level yang lebih tinggi daripada laptop ). Rule yang demikian disebut multilevel association rule. Tetapi apabila rule-rule pada sebuah set tidak mereferensikan item-item atau atribut-atribut pada level yang berbeda-beda, maka kumpulan rule tersebut dinamakan single-level association rule. Berdasarkan berbagai perluasan ekstensi pada association mining Dibedakan menjadi maximal frequent itemset mining dan closed association rule mining. Sebuah maximal frequent itemset adalah sebuah frequent pattern p, dimana semua superpattern dari p adalah tidak frequent. Sebuah frequent pattern c disebut sebagai frequent closed itemset apabila tidak ada superset dari c, c, sehingga semua transaksi yang mengandung c juga mengandung c. Proses untuk menemukan seluruh association rule yang ada pada suatu database dapat dibagi menjadi dua fase utama yaitu sebagai berikut : ase Pencarian Large Itemset ase ini adalah fase untuk menemukan seluruh item dari transaksi yang memenuhi minimum support threshold. Support untuk suatu itemset adalah jumlah transaksi dalam database yang mengandung itemset tersebut. Itemset yang memenuhi persyaratan ini disebut frequent itemset (large itemset). Sedangkan itemset yang tidak memenuhi disebut infrequent itemset (small itemset). ase Generate Strong Association Rule Dengan menggunakan frequent itemset yang terbentuk maka dapat diperoleh association rule yang memenuhi minimum confidence threshold yang telah ditentukan. requent Itemset Mining requent itemset mining adalah algoritma yang digunakan untuk mencari frequent itemset. Support sebuah itemset X adalah jumlah transaksi dimana terdapat item X didefinisikan sebagai (X). Sebuah itemset X disebut frequent itemset apabila support X lebih besar atau sama dengan nilai minimum support yang dispesifikasikan ( (X) min_supp). Minimum support adalah suatu nilai yang menentukan sebuah itemset termasuk frequent atau tidak. Misalkan nilai minimum support adalah 0% dan jumlah transaksi dalam database ada lima transaksi. Maka suatu itemset dikatakan frequent bila itemset tersebut minimal terdapat pada dua transaksi ( 0% * 5 = 2 ). Setelah mengetahui frequent itemset, maka langkah selanjutnya adalah menghasilkan rule yang confident. Sebuah rule disebut confident rule apabila nilai confident dari rule tersebut lebih besar atau sama dengan nilai minimum confidence yang dispesifikasikan (p min_conf). Nilai confidence(p) dihitung dengan rumus p = (X) / (X ) atau dapat dikatakan nilai confidence(p) adalah nilai support X dibagi nilai support X. Input : requent itemset Output : Strong association rule dari frequent itemset. [Memanggil procedure genrule untuk semua frequent itemset yang jumlah itemnya lebih atau sama dengan 2]. forall large itemset l k, k 2 do.. call genrules(l k,l k ); Algoritma : Algoritma Association Rule Input: requent itemset Output: Strong association rule dari frequent itemset 2

Analisa SSVM (Smooth Support Vector Machines) Dan RSVM (Reduced Support Vector Machines) (Yosi Kristian et al).[memanggil procedure genrule untuk semua frequent itemset yang jumlah itemnya lebih atau sama dengan 2]. forall large itemset l k, k 2 do.. call genrules(l k,l k ); Algoritma merupakan algoritma untuk menghasilkan rule-rule. Masukan yang diminta untuk algoritma ini adalah frequent itemset yang diperoleh dari algoritma pencarian frequent itemset. Sedangkan hasilnya adalah strong association rule. Algoritma 2 : Procedure Genrules(l k : large k-itemset, a m : large m-itemset)algoritma Association Rule Input: requent itemset Output: Strong association rule dari frequent itemset. [Cari subset]. A={(m-)-itemset a m- a m- a m }; 2. [Cek nilai confidence dari masingmasing subset] 2. for all a m- A do begin 2.. conf=support count(l k )/support count(a m- ); 2..2 if (conf minconf) then begin 2..2. output rule a m- (l k -a m- ), 2..2.2 if (m- > ) then 2..2.2. call genrules(l k, a m- ); 2..3 end 3. end Pada algoritma diatas terdapat pemanggilan pada sebuah procedure genrules dengan parameter dua frequent itemset yang sama. Procedure ini digunakan untuk menghasilkan strong association rule yang meminta masukan berupa himpunan frequent k-itemset, Lk dan himpunan frequent m-itemset, am dimana frequent k- itemset sama dengan frequent m-itemset. Trie Pada computer science, trie atau prefix trie adalah sebuah struktur data tree yang tersusun yang digunakan untuk menyimpan sebuah associative array dimana key-nya adalah string. Sebuah node diberi label sebuah item, dan sebuah path dari root menuju sebuah node menunjukkan sebuah itemset. Semua descendant dari sebuah node manapun dari trie mempunyai common prefix yang sama dengan parent-nya. Root dari trie itu sendiri adalah sebuah empty itemset. Algoritma D-Apriori Algoritma D-Apriori adalah implementasi secara depth-first dari algoritma Apriori, salah satu algoritma frequent itemset mining (IM) tercepat untuk menemukan semua frequent itemset pada sebuah database. requent itemset adalah kumpulan dari satu atau beberapa item dengan kemunculan yang sama atau lebih banyak dari minimum support threshold pada sebuah database. Perbedaan utama algoritma D-Apriori dengan algoritma Apriori biasa adalah apabila pada algoritma Apriori biasa trie dapat diasumsikan dibangun dengan metode layer by layer atau breadth first, maka pada algoritma D-Apriori ini trie dibangun secara depth first. Pembangunan trie dimulai dari kanan dan berkembang ke kiri. Prepared Dataset Pembentukan trie Trie Gambar Blok Diagram Algoritma D-Apriori Secara garis besar proses mining dengan menggunakan algoritma D-Apriori terdiri dari tiga tahap yaitu tahap preprocessing dimana algoritma mencari frequent -itemset dari database input, tahap pembuatan trie dan tahap pembacaan hasil dari trie. Semua hasil frequent itemset dapat dibaca langsung dari trie ketika trie telah selesai dibentuk. Struktur data yang digunakan pada algoritma D- Apriori adalah trie. Untuk lebih jelasnya dapat dilihat pada contoh dibawah ini. Tabel Contoh Dataset Tid Items B C D 2 A B E 3 A B E A B C 5 A B C E 6 C D E Pembacaan Trie requent Itemsets Walter A. Kosters dan Wim Pijls, Apriori, A Depth irst Implementation, hal 2 3

DINAMIKA TEKNOLOGI Vol., No. ; Oktober 2006: 0-8 Tabel 2 requent Itemset (Minimum Support = 3 Transaksi) Support requent Itemset 5 B, A, AB, A, AB, B, C, E, E 3 AE, ABE, ABE, AE, BC, BE, BE, C Tabel menunjukkan sebuah contoh dataset dimana terdapat 6 transaksi yang telah tersorting secara ascending. Tid adalah nomor transaksi, sementara items adalah item-item yang terdapat pada transaksi itu sendiri. Tabel 2 menunjukkan semua frequent itemset apabila minimum support threshold = 3. Hasil trie lengkap untuk dataset ini berdasarkan algoritma D-Apriori dapat dilihat pada Gambar 2. E A B C E B E C E Gambar 2 Trie Hasil Algoritma D-Apriori Algoritma 3 Algoritma D-Apriori Input : D (Database Transaksi); σ (Minimum Support Threshold) Output : Semua requent Itemset. [Baca dataset untuk preprocessing]. Scan D to find the set of frequent -itemsets 2. [Bentuk trie dan cari frequent itemset] 2. Insert into trie and scan D to count their frequencies 3. [Tampilkan hasil frequent itemset] 3. Output reqitems Algoritma 3 merupakan algoritma utama pada algoritma D-Apriori ini. Pertama-tama dataset yang telah dipersiapkan formatnya dibaca untuk mencari semua frequent -itemset (baris.). Kemudian semua frequent -itemset tersebut dimasukkan kedalam trie dan dataset dibaca lagi untuk menghitung frekuensi sebenarnya dari masing-masing item pada trie (baris 2.). Setelah trie selesai dibentuk, hasil semua frequent itemset yang support-nya memenuhi minimum support threshold dapat langsung dibaca dari trie (baris 3.). Algoritma Algoritma Preprocessing Input: D (Database Transaksi); σ (Minimum Support Threshold) Output: min_item, max_item, jumlah frequent items dan jumlah relevant transaction. [Cari min_item dan max_item]. first = true.2 for every transaction t in D.2. for every item i in t.2.. if (first).2... max_item = i.2...2 min_item = i.2...3 first = false.2..2 end if.2..3 if i < min_item.2..3. min_item = i.2.. else.2... if i > max_item.2... max_item = i.2...2 end if.2..5 end if.2.2 end for.3 end for 2. [Cari frekuensi dari semua item dan jumlah frequent items] 2. item_range = max_item min_item 2.2 init_items_frequency = array[item_range] 2.3 for every transaction t in D 2.3. for every item i in t 2.3.. insert i into init_items_frequency 2.3.2 end for 2.3.3 for every frequent item f in init_items_frequency 2.3.3. increment number_freq_items 2.3. end for 2.. end for 3. [Cari jumlah relevant transaction] 3. number_transactions = 0 3.2 for every transaction t in D 3.2. items_in_trans = 0 3.2.2 for every item i in t 3.2.2. if i is frequent 3.2.2.. increment items_in_trans 3.2.2.2 end if 3.2.3 end for 3.2. if items_in_trans >= 2 3.2.. increment number_transactions 3.2.5 end if 3.3 end for

Analisa SSVM (Smooth Support Vector Machines) Dan RSVM (Reduced Support Vector Machines) (Yosi Kristian et al). [Sorting frequent -itemset]. sort items with respect to support and renumber 5. [Bentuk data_array] 5. arraywidth = (number_freq_items -)/8 + 5.2 rowcounter = 0 5.3 for every transaction t in D 5.3. next_transaction = array[rowcounter][arraywidth] 5.3.2 for every item i in t 5.3.2. if i is frequent 5.3.2.. insert i into next_transaction[r owcounter] with respect to its rank in the frequency order 5.3.2.2 end if 5.3.3 end for 5.3. increment rowcounter 5. end for Algoritma merupakan algoritma untuk melakukan proses preprocessing pada algoritma D- Apriori. Pada proses ini, database dibaca empat kali : Pembacaan pertama untuk menentukan item terkecil dan item terbesar. Hal ini diperlukan untuk menentukan range item. Pembacaan kedua untuk mencari frekuensi dari semua item pada database dan mencari jumlah frequent item. Hal ini diperlukan karena urutan frekuensi juga menentukan urutan pada trie. requent item yang telah ter-sorting disimpan dalam sebuah array. Pembacaan ketiga untuk menentukan jumlah relevant transaction. Relevant transaction adalah transaksi yang didalamnya terdapat dua atau lebih frequent item. Untuk transaksi yang hanya mempunyai satu atau nol frequent item telah diidentifikasi pada saat pembacaan kedua. Pembacaan keempat untuk menyimpan database kedalam sebuah array dua dimensi. Setiap frequent item akan diberikan nomor baru berdasarkan ranking yang dilihat dari besarnya frekuensi tiap-tiap item tersebut. Panjang setiap baris array ditentukan oleh banyaknya frequent item, sedangkan jumlah array ditentukan oleh jumlah relevant transaction dari pembacaan ketiga. Algoritma 5 Algoritma Build_Up Input: semua hasil dari proses preprocessing Output: trie. [Bentuk trie]. T = the trie including only bucket i n.2 for m = n- downto.2. T = T.2.2 T = T with i m added to the left and a copy of T is appended to i m.2.3 S = T\T (= the subtrie rooted in i m ).2. count(s, i m ).2.5 delete the infrequent itemset from S.3 end for 2. [Procedure count] 2. for every transaction t including item i m 2.. for every itemset I in S 2... if t supports I 2... increment I.support 2...2 end if 2..2 end for 2.2 end for Algoritma 5 merupakan algoritma untuk membentuk trie pada algoritma D-Apriori. Pada proses preprocessing, support dari setiap single item telah dihitung dan semua item yang tidak frequent telah dibuang. Misalkan n frequent item tersebut diberi nama i, i 2,, i n. Kemudian algoritma 5 dijalankan. Procedure count(s, i m ) berguna untuk menentukan support dari setiap itemset pada subtrie S. Hal ini dilakukan dengan membaca database sebanyak satu kali dan hanya transaksi yang mengandung item i m diproses. Proses ini dilakukan sekaligus dengan meng-update count dari setiap bucket pada subtrie S. Pada akhir dari algoritma ini, T tepat hanya mengandung semua frequent itemset Tracing Algoritma Misalkan akan dilakukan proses mining semua frequent itemset dari sebuah database transaksi seperti yang ditunjukkan pada Tabel 3a dengan minimum support threshold dua transaksi. Database diasumsikan telah dalam format seperti pada Tabel 3a dan setiap item pada setiap transaksinya ter-sorting secara ascending. Pertama-tama database akan dibaca sekali secara keseluruhan untuk mencari semua frequent - itemset. Karena minimum support threshold-nya adalah 2, maka semua item dengan kemunculan lebih kecil dari 2 tidak termasuk frequent item. Pada contoh database ini frequent item-nya adalah, 3,, 5 dan 7. Kemudian semua frequent item 5

DINAMIKA TEKNOLOGI Vol., No. ; Oktober 2006: 0-8 tersebut akan dimasukkan secara ascending berdasarkan frekuensi kedalam tabel frequent item seperti ditunjukkan pada Tabel 3b. pada root hanya ada bucket, maka bucket tersebut menjadi child dari bucket. Keadaan trie setelah iterasi pertama ini dapat dilihat pada Gambar 3. Tabel 3 Contoh Database Transaksi Beserta requent Itemnya Untuk Minimum Support Threshold = 2 I = (a) Contoh Database Transaksi (b) requent Item Tid Items Item Count 3 5 6 7 9 7 2 2 3 5 3 5 3 3 2 5 7 3 3 8 5 3 0 5 Setelah proses preprocessing selesai dilakukan, maka langkah selanjutnya adalah pembentukan trie. Setiap entry pada trie pada algoritma D- Apriori dinamakan bucket, seperti yang juga dipakai pada hash-tree. 2 Sebuah bucket dapat dikenali melalui path-nya menuju root yang merepresentasikan sebuah itemset yang unik. Jumlah iterasi pada pembentukan trie pada algoritma D-Apriori adalah n- kali, dimana n adalah jumlah frequent -itemset. Hal ini berarti jumlah passing yang dilakukan terhadap database adalah sebanyak n- kali jumlah frequent - itemset. Pada contoh database diatas, jumlah frequent -itemset adalah 5, maka trie akan selesai dibentuk dalam kali iterasi. Pembentukan trie diawali dengan pembentukan bucket-bucket dari root. Bucket-bucket tersebut adalah semua frequent -itemset dari Tabel 3b. Item yang paling frekuensinya paling besar dibangun pertama kali dan diletakkan pada bucket root yang paling kanan. Hal ini dikarenakan waktu eksekusi algoritma ini akan lebih cepat apabila item-item dengan support tinggi diletakkan pada bagian root yang dangkal (kanan atas) dan itemitem dengan support rendah pada bagian root yang dalam (kiri bawah). Pembentukan trie berjalan dari kanan ke kiri. Iterasi pertama dimulai dari bucket yang ke n- dari root, yang dalam contoh diatas adalah bucket. Untuk child dari bucket akan disalin dari semua bucket lain di sebelah kanannya pada root beserta semua child-nya. Karena setelah bucket 2 Walter A. Kosters dan Wim Pijls, Apriori, A Depth irst Implementation, hal Gambar 3 Hasil Iterasi Pertama Pada Pembentukan Trie Kemudian database akan ditelusuri untuk menghitung frekuensi sebenarnya dari bucket dan beserta semua child-nya. Dimulai dari root yaitu itemset {} yang menghasilkan count =. Kemudian proses bergeser ke kiri dan menghitung itemset {} yang menghasilkan count = dan itemset {, } yang menghasilkan count =. Karena semua hasil perhitungan pada iterasi pertama ini memenuhi minimum support threshold maka semua itemset pada trie termasuk frequent itemset. requent itemset yang didapat dari iterasi pertama ini adalah : {} = 5. {} =. {, } =. Iterasi kedua akan melakukan proses pada bucket selanjutnya yaitu bucket 3. Untuk child dari bucket ini akan disalin dari semua bucket lain di sebelah kanannya pada root beserta semua child-nya. Jadi bucket dan bucket beserta semua child-nya akan menjadi child dari bucket 3. Keadaan trie setelah iterasi kedua ini dapat dilihat pada Gambar. I 3 = 3 Gambar Hasil Iterasi Kedua Pada Pembentukan Trie Kemudian database akan ditelusuri untuk menghitung frekuensi sebenarnya dari bucket 3 beserta child-nya. Dimulai dari root yaitu itemset {3} yang menghasilkan count =. Setelah itu 3 6

Analisa SSVM (Smooth Support Vector Machines) Dan RSVM (Reduced Support Vector Machines) (Yosi Kristian et al) itemset {3, } menghasilkan count = 3, itemset {3,, } menghasilkan count = 3 dan itemset {3, } menghasilkan count =. Karena semua hasil perhitungan pada iterasi kedua ini memenuhi minimum support threshold maka semua itemset pada trie termasuk frequent itemset. requent itemset yang didapat dari iterasi kedua ini adalah : {3} =. {3, } = 3. {3,, } = 3. {3, } =. Iterasi ketiga akan melakukan proses pada bucket selanjutnya yaitu bucket 5. Untuk child dari bucket ini akan disalin dari semua bucket lain di sebelah kanannya pada root beserta semua child-nya. Jadi bucket 3, dan beserta semua child-nya akan menjadi child dari bucket 5. Keadaan trie setelah iterasi kedua ini dapat dilihat pada Gambar 5. {5, 3} = 2. {5, 3, } = 2. {5, } = 2. {5,, } = 2. {5, } = 2. Iterasi keempat akan melakukan proses pada bucket selanjutnya yaitu bucket 7. Untuk child dari bucket ini akan disalin dari semua bucket lain di sebelah kanannya pada root beserta semua childnya. Jadi bucket 5, 3, dan beserta semua childnya akan menjadi child dari bucket 7. Keadaan trie setelah iterasi kedua ini dapat dilihat pada Gambar 6. 5 I = 7 3 7 5 3 3 I 3 = 5 5 3 3 3 Gambar 6 Hasil Iterasi Keempat Pada Pembentukan Trie Gambar 5 Hasil Iterasi Ketiga Pada Pembentukan Trie Kemudian database akan ditelusuri untuk menghitung frekuensi sebenarnya dari bucket 5 beserta child-nya. Dimulai dari root yaitu itemset {5} yang menghasilkan count = 3. Setelah itu itemset {5, 3} menghasilkan count = 2. Kemudian proses berlanjut ke itemset {5, 3, } menghasilkan count =. Karena tidak memenuhi minimum support threshold maka itemset {5, 3, } dicoret dari trie dan tidak termasuk frequent itemset. Apabila sebuah bucket telah dicoret pada trie, maka otomatis semua child-nya juga akan dicoret. Dalam contoh diatas bucket di pojok kiri bawah dicoret dan itemset {5, 3,, } tidak termasuk frequent itemset. Kemudian proses berlanjut ke itemset {5, 3, } menghasilkan count = 2, itemset {5, } menghasilkan count = 2, itemset {5,, } menghasilkan count = 2 dan itemset {5, } menghasilkan count = 2. requent itemset yang didapat dari iterasi ketiga ini adalah : {5} = 3. Kemudian database akan ditelusuri untuk menghitung frekuensi sebenarnya dari bucket 7 beserta child-nya. Dimulai dari root yaitu itemset {7} yang menghasilkan count = 2. Kemudian itemset {7, 5} menghasilkan count = 2, itemset {7, 5, 3} menghasilkan count = (dicoret), itemset {7, 5, } menghasilkan count = (dicoret), itemset {7, 5, } menghasilkan count = 2, itemset {7, 3} menghasilkan count = (dicoret), itemset {7, } menghasilkan count = (dicoret) dan itemset {7, } menghasilkan count = 2. Tabel requent Itemset Yang Dihasilkan Itemset Count Itemset Count Itemset Count {7} 2 {5, 3, } 2 {3,, } 3 {7, 5} 2 {5, } 2 {3, } {7, 5, } 2 {5,, } 2 {} {7, } 2 {5, } 2 {, } {5} 3 {3} {} 5 {5, 3} 2 {3, } 3 requent itemset yang didapat dari iterasi keempat ini adalah : {7} = 2. {7, 5} = 2. 7

DINAMIKA TEKNOLOGI Vol., No. ; Oktober 2006: 0-8 {7, 5, } = 2. {7, } = 2. Dengan berakhirnya iterasi keempat diatas, maka trie telah dibentuk secara lengkap. Total didapat 7 frequent itemset seperti yang ditunjukkan pada Tabel. Untuk proses generate rule dapat dilakukan dengan algoritma strong association rule. Misal untuk itemset {7, 5, } dengan confidence = 0, rule yang dihasilkan dapat dilihat pada Tabel 5. Tabel 5 Association Rule Untuk Itemset {7, 5, } (Confidence = 0) Kaufmann Publishers. 30 Pine Street, Sixth loor, San ransisco, USA, 200. 2. R. Agrawal dan R. Srikant, ast Algorithms for Mining Association Rules, Proceedings of the 20th International Conference on Very Large Databases, Santiago, Chile, 99. 3. Walter A. Kosters dan Wim Pijls, APRIORI : A Depth irst Implementation, Leiden Institute of Advanced Computer Science, Universiteit Leiden, Netherlands. Rule Support Confidence {7} {5, } 2/5 2/2 {5} {7, } 2/5 2/3 {} {7, 5} 2/5 2/5 {7, 5} {} 2/5 2/2 {7, } {5} 2/5 2/2 {5, } {7} 2/5 2/3 PENUTUP Semakin tinggi nilai minimum support, semakin sedikit waktu yang diperlukan untuk melakukan mining dan semakin sedikit pula frequent itemset yang dihasilkan. Hal ini dikarenakan apabila nilai support tinggi, maka jumlah frequent item pada database yang memenuhi nilai tersebut akan semakin sedikit, sehingga trie yang terbentuk juga kecil. Sebaliknya, semakin rendah nilai minimum support, semakin banyak waktu yang diperlukan untuk melakukan mining dan semakin banyak pula frequent itemset yang dihasilkan. Untuk dataset dense, nilai minimum support yang diberikan harus tinggi dan sebaliknya untuk dataset sparse, nilai minimum support yang diberikan harus rendah. Hal ini dikarenakan pada dataset dense transaksi satu dengan lainnya banyak yang mirip. Oleh karena itu besar kemungkinan sebuah item untuk menjadi frequent. Sebaliknya untuk dataset sparse, transaksi satu dengan lainnya jarang yang mirip. Oleh karena itu kecil kemungkinan sebuah item untuk menjadi frequent. DATAR PUSTAKA. Jiawei Han dan Micheline Kamber, Data Mining, Concepts and Techniques, Morgan 8