FREQUENT ITEMSET MINING MENGGUNAKAN ALGORITMA DF-APRIORI

dokumen-dokumen yang mirip
FREQUENT ITEMSET MINING MENGGUNAKAN ALGORITMA PIE

ANALISA PENCARIAN FREQUENT ITEMSETS MENGGUNAKAN ALGORITMA FP-MAX

2.2 Data Mining. Universitas Sumatera Utara

Link Analysis (Superset) 3 Kategori Link Analysis (#1) 3 Kategori Link Analysis (#2) Association Rule Mining. 3 Kategori Link Analysis (#3)

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB 2 TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA

PENERAPAN ASSOCIATION RULE MINING PADA DATA NOMOR UNIK PENDIDIK DAN TENAGA KEPENDIDIKAN

ANALISIS DAN IMPLEMENTASI DATA MINING DENGAN CONTINUOUS ASSOCIATION RULE MINING ALGORITHM (CARMA) UNTUK REKOMENDASI MATA KULIAH PADA PERWALIAN

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

PENERAPAN ALGORITMA APRIORI ASSOCIATION RULE UNTUK ANALISA NILAI MAHASISWA DI UNIVERSITAS GUNADARMA

PENDAHULUAN. Latar Belakang

IMPLEMENTASI ALGORITMA APRIORI UNTUK MENEMUKAN FREQUENT ITEMSET DALAM KERANJANG BELANJA

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

Pengembangan Aplikasi Market Basket Analysis Menggunakan Algoritma Generalized Sequential Pattern pada Supermarket

ALGORITMA GENERALIZED SEQUENTIAL PATTERN UNTUK MENGGALI DATA SEKUENSIAL SIRKULASI BUKU PADA PERPUSTAKAAN UK PETRA

ANALISIS KETERKAITAN DATA TRANSAKSI PENJUALAN BUKU MENGGUNAKAN ALGORITMA APRIORI DAN ALGORITMA CENTROID LINKAGE HIERARCHICAL METHOD (CLHM)

PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA FP-TREE DAN FP-GROWTH PADA DATA TRANSAKSI PENJUALAN OBAT

ANALISA POLA DATA HASIL PEMBANGUNAN KABUPATEN MALANG MENGGUNAKAN METODE ASSOCIATION RULE

IMPLEMENTASI ALGORITMA-ALGORITMA ASSOCIATION RULES SEBAGAI BAGIAN DARI PENGEMBANGAN DATA MINING ALGORITHMS COLLECTION

ALGORITMA GENERALIZED SEQUENTIAL PATTERN UNTUK MENGGALI DATA SEKUENSIAL SIRKULASI BUKU PADA PERPUSTAKAAN UK PETRA

PENGENALAN POLA TRANSAKSI SIRKULASI BUKU PADA DATABASE PERPUSTAKAAN MENGGUNAKAN ALGORITMA GENERALIZED SEQUENTIAL PATTERN

IMPLEMENTASI ALGORITMA FP- GROWTH MENGGUNAKAN ASSOCIATION RULE PADA MARKET BASKET ANALYSIS

BAB II TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

ALGORITMA PARALEL FP-GROWTH UNTUK PENGGALIAN KAIDAH ASOSIASI PADA JARINGAN KOMPUTER

Mining Association Rules dalam Basis Data yang Besar

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

ASSOCIATION RULES PADA TEXT MINING

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

Journal of Informatics and Telecommunication Engineering. Analisa Algoritma Data Mining Eclat Dan Hui Miner

BAB I PENDAHULUAN 1.1 Latar Belakang

PREDIKSI KEBUTUHAN PENOMORAN PADA JARINGAN TELEKOMUNIKASI MENGGUNAKAN METODE APRIORI

Model Rule: Multilevel And Multidimension Association Rule untuk Analisa Market Basket Pada PT. Maha Agung

BAB II LANDASAN TEORI

PENGGALIAN KAIDAH MULTILEVEL ASSOCIATION RULE DARI DATA MART SWALAYAN ASGAP

II. TINJAUAN PUSTAKA

BAB I PENDAHULUAN. Data mining memungkinkan penemuan pola-pola yang menarik, informasi yang

Aplikasi Data Mining untuk meneliti Asosiasi Pembelian Item Barang di Supermaket dengan Metode Market Basket Analysis

BAB 2 LANDASAN TEORI

APLIKASI DATA MINING UNTUK POLA PERMINTAAN DARAH DI UDD ( UNIT DONOR DARAH ) PMI KOTA SURABAYA MENGGUNAKAN METODE APRIORI

Aplikasi Data Mining dengan Menggunakan Teknik ARM untuk Pengolahan Informasi Rendemen Obat

PENGGALIAN TOP-K CLOSED FREQUENT ITEMSETS BERBASIS ALGORITMA PEMETAAN TRANSAKSI

Cust. 1 : milk, bread, cereal. Cust. 2 : milk, bread, Sugar, eggs. Cust. 3 : milk, bread, butter

APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA

Gambar Tahap-Tahap Penelitian

PENGGALIAN FREQUENT CLOSED ITEMSETS DENGAN MULTIPLE MINIMUM SUPPORT PADA BASISDATA RETAIL

PEMBANGKITAN KAIDAH ASOSIASI DARI TOP-K FREQUENT CLOSED ITEMSET YANG DIDASARKAN PADA STRUKTUR DATA BERBASIS LATTICE

1 st Seminar on Application and Research in Industrial Technology, SMART Yogyakarta, 27 April 2006

SISTEM REKOMENDASI PEMESANAN SPAREPART DENGAN ALGORITMA FP-GROWTH (STUDI KASUS PT. ROSALIA SURAKARTA)

PEMODELAN POLA HUBUNGAN KEMAMPUAN LULUSAN UNIVERSITAS LANCANG KUNING DENGAN KEBUTUHAN DUNIA USAHA DAN INDUSTRI

BAB II TINJAUAN PUSTAKA. mewakilkan objek dan peristiwa yang memiliki arti dan sangat penting bagi

BAB II LANDASAN TEORI. Anindita Dwi Respita,2015. a. Penelitian ini menjelaskan tentang tujuan : menggunakan metode market basket analysis.

Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer

BAB I PENDAHULUAN. 1.1 Latar Belakang

DATA MINING ANALISA POLA PEMBELIAN PRODUK DENGAN MENGGUNAKAN METODE ALGORITMA APRIORI

SISTEM SISTEM REKOMENDASI BIDANG MINAT MAHASISWA MENGGUNAKAN METODE ASSOCIATION RULE DAN ALGORITMA APRIORI

PERANCANGAN POLA PEMBELIAN SAHAM BERDASARKAN PEKERJAAN NASABAH DENGAN METODE ASSOCIATION RULE PT XYZ

Assocation Rule. Data Mining

Pola Kompetensi Mahasiswa Program Studi Informatika Menggunakan FP-Growth

Implementasi Algoritme Modified-Apriori Untuk Menentukan Pola Penjualan Sebagai Strategi Penempatan Barang Dan Promo

PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA

BAB III ANALISIS DAN DESAIN SISTEM

ASSOCIATION RULES PADA TEXT MINING

ANALISIS DAN IMPLEMENTASI ALGORITMA FP-GROWTH PADA APLIKASI SMART UNTUK MENENTUKAN MARKET BASKET ANALYSIS PADA USAHA RETAIL (STUDI KASUS : PT.

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENGGUNAAN MARKET BASKET ANALYSIS DALAM DATA MINING

Analisis asosiasi Penguasaan ICT Mahasiswa Baru dan Pencapaian Prestasi Akademik Mahasiswa dengan Algoritma Apriori.

1 BAB I 2 PENDAHULUAN

BAB III METODE PENELITIAN. Metode penelitian merupakan suatu prosedur beserta tahapan-tahapan yang

PERBANDINGAN ALGORITMA APRIORI DAN ALGORITMA FP-GROWTH UNTUK PEREKOMENDASI PADA TRANSAKSI PEMINJAMAN BUKU DI PERPUSTAKAAN UNIVERSITAS DIAN NUSWANTORO

ALGORITMA ATURAN ASOSIASI APRIORI-TID DENGAN METODE KLASTERISASI HIERARKI AGLOMERATIF. Tri Khairul I.A 1 ABSTRAK

ANALISA DAN PERANCANGAN APLIKASI ALGORITMA APRIORI UNTUK KORELASI PENJUALAN PRODUK (STUDI KASUS : APOTIK DIORY FARMA)

DAFTAR ISI. BAB I PENDAHULUAN Latar Belakang Masalah Rumusan Masalah Batasan Masalah Tujuan Penelitian...

Journal of Informatics and Technology, Vol 2, No 2, Tahun 2013, p

Penerapan Data Mining Association Rule Menggunakan Algoritma Apriori Untuk Meningkatkan Penjualan dan Memberikan Rekomendasi Pemasaran Produk Speedy

ASSOCIATION RULE. Rachmat Selamet. Sekolah Tinggi Manajemen Informatika dan Komputer LIKMI Jl. Ir. H. Juanda 96 Bandung 40132

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA APRIORI

BAB II TINJAUAN PUSTAKA. Bab ini menguraikan tentang teori-teori penunjang yang dipakai dalam

Penerapan Stuktur FP-Tree dan Algoritma FP-Growth dalam Optimasi Penentuan Frequent Itemset

IMPLEMENTASI ALGORITMA APRIORI UNTUK MENGANALISA POLA PEMBELIAN PRODUK PADA DATA TRANSAKSI PENJUALAN

PENGEMBANGAN APLIKASI PENGGALIAN TOP-K FREQUENT CLOSED CONSTRAINED GRADIENT ITEMSETS PADA BASIS DATA RETAIL

PERBANDINGAN ALGORITMA APRIORI DAN ALGORITMA CT-Pro PADA KOMODITAS EKSPOR DAN IMPOR SKRIPSI ELISA SEMPA ARIHTA KABAN

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

IMPLEMENTASI DATA MINING DENGAN ALGORITMA APRIORI PADA TOKO BANGUNAN UD. RUFI SENTOSA JAYA SAMBIREJO - PARE

ANALISIS DAN IMPLEMENTASI ALGORITMA CT-APRIORI UNTUK ASOSIASI TRANSAKSI BARANG

DATA MINING DENGAN ALGORITMA APRIORI PADA RDBMS ORACLE

Aplikasi Data Mining untuk Mengukur Tingkat Kelulusan Mahasiswa dengan Metode Apriori

PENERAPAN METODE ASOSIASI MENGGUNAKAN ALGORITMA APRIORI PADA APLIKASI ANALISA POLA BELANJA KONSUMEN (Studi Kasus Toko Buku Gramedia Bintaro)

PENGGALIAN POLA CLOSED SEQUENTIAL PADA BASIS DATA YANG BERTAMBAH SECARA BERTAHAP

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI ALGORITMA FOLD-GROWTH PADA PEMODELAN POLA PEMBELIAN BARANG SEBAGAI PENDUKUNG PENENTUAN LETAK BARANG

Nusantara of Engginering (NoE)/Vol. 1/No. 2/ISSN:

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA ECLAT

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

PEMANFAATAN DATA MINING UNTUK MENGETAHUI POLA PEMBELIAN MASYARAKAT PADA SALAH SATU MINIMARKET DI KOTA MAKASSAR

Transkripsi:

REQUENT ITEMSET MINING MENGGUNAKAN ALGORITMA D-APRIORI Suhatati Tjandra Dosen Teknik Informatika Sekolah Tinggi Teknik Surabaya e-mail : tati@stts.edu ABSTRAK requent itemset mining adalah algoritma yang digunakan untuk mencari frequent itemset. requent itemset mining dapat diklasikasifikan menjadi tiga kelompok yaitu : algoritma mining requent Itemset (I), algoritma mining requent Closed Itemset (CI), dan algoritma mining Maximal requent Itemset (MI). Algoritma D-Apriori adalah implementasi secara depth-first dari algoritma Apriori, salah satu algoritma frequent itemset mining (IM) tercepat untuk menemukan semua frequent itemset pada sebuah database. Secara garis besar proses mining dengan menggunakan algoritma D-Apriori terdiri dari tiga tahap yaitu tahap preprocessing dimana algoritma mencari frequent -itemset dari database input, tahap pembuatan trie dan tahap pembacaan hasil dari trie. Semua hasil frequent itemset dapat dibaca langsung dari trie ketika trie telah selesai dibentuk. Kata kunci : Data Mining, D-Apriori, Maximal requent Itemset, Itemset, trie. ABSTRACT requent itemset mining is algorithm which is used to find frequent itemset. requent itemset mining can be classify to requent Itemset (I), requent Closed Itemset (CI) and Maximal requent Itemset (MI). D-Apriori algorithm is one of frequent itemset mining algorithms which works in dept first and can work fast to find frequent itemset on database. Mining process use D-Apriori algorithm concist of three phases. irst, find frequent -itemset from input database. Second, build trie data structure and last, read the formed trie. Keywords : Data Mining, D-Apriori, Maximal requent Itemset, Itemset, trie. PENDAHULUAN Data mining adalah proses pencarian terhadap pengetahuan (yang sebelumnya tidak diketahui, valid, dan dapat digunakan) dari database yang besar dan kemudian menggunakan pengetahuan tersebut untuk membuat keputusan bisnis yang penting. Istilah data mining yang sangat terkenal saat ini sebenarnya kurang tepat seharusnya istilah yang lebih tepat adalah knowledge mining from data. Akan tetapi istilah tersebut terlalu panjang dan oleh karena itu disingkat menjadi knowledge mining. Istilah knowledge mining tidak dapat memberikan tekanan pada sumbernya yaitu data dalam jumlah besar. Banyak orang yang menganggap data mining sama dengan Knowledge Discovery in Database (KDD). Sebenarnya kedua istilah itu berbeda karena data mining adalah salah satu bagian atau proses dari KDD. Komponen-komponen utama dalam arsitektur sistem data mining adalah sebagai berikut : Database, data warehouse, atau media penyimpanan informasi yang lain. Bagian ini merupakan satu atau kumpulan database, data warehouse, spreadsheet, atau jenis media penyimpanan informasi yang lain. Database atau data warehouse server. Database dan data warehouse server bertanggungjawab memberikan data yang relevan berdasarkan permintaan user yang melakukan mining. Knowledge base Bagian ini merupakan pengetahuan utama yang digunakan sebagai penuntun untuk melakukan 0

Analisa SSVM (Smooth Support Vector Machines) Dan RSVM (Reduced Support Vector Machines) (Yosi Kristian et al) proses pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan yang dapat disertakan adalah konsep hierarki yang digunakan untuk mengatur atribut atau nilai atribut ke dalam tingkatan abstraksi yang berbeda. Pengetahuan seperti kepercayaan user dapat digunakan untuk mengakses ketertarikan pattern yang tidak terduga dapat juga dimasukkan ke dalam knowledge base. Contoh pengetahuan lain yang dapat dimasukkan adalah interestingness constraint atau threshold tambahan, dan metadata. Data mining engine Bagian ini adalah bagian penting pada sistem data mining dan idealnya terdiri dari sekumpulan modul fungsional untuk suatu tugas seperti characterization (pengkarakteran), association, classification (pengklasifikasian), cluster analysis (analisa cluster), dan evolution and deviation analysis (analisa evolusi dan deviasi). Pattern evaluation module Komponen ini menggunakan pengukuran ketertarikan dan berinteraksi dengan modul data mining untuk memfokuskan pencarian interesting pattern (pola-pola yang menarik). Selain itu, untuk mendapatkan pattern mungkin dapat menggunakan interestingness threshold. Modul untuk mengevaluasi pattern dapat diintegrasikan dengan modul untuk mining, tergantung dari metode implementasi data mining yang digunakan. Agar proses data mining lebih efisien, maka direkomendasikan untuk menekan proses evaluasi pola-pola yang menarik sedalam mungkin pada proses mining. Graphical user interface Modul ini menghubungkan user dengan sistem data mining. Modul ini memungkinkan user berinteraksi dengan sistem dengan cara mendeskripsikan query atau tugas yang harus dikerjakan sistem, menyediakan informasi untuk membantu pencarian agar lebih fokus, dan melakukan penelitian data mining berdasarkan hasil yang didapat dari proses mining. Selain itu, modul ini memungkinkan user untuk melakukan browse terhadap database dan skema atau struktur data dari data warehouse, mengevaluasi pattern yang dimining, dan dapat melihat pattern secara visual dalam bentuk yang berbeda-beda. Association Rule Mining Motivasi awal pencarian association rule berasal dari keinginan untuk menganalisa sebuah data transaksi supermarket, yaitu ditinjau dari perilaku customer dalam membeli produk. Association rule menjelaskan seberapa sering suatu produk dibeli secara bersamaan dengan produk lain. Sebagai contoh, association rule shampo sabun (80%) menunjukkan bahwa empat dari lima pelanggan yang membeli shampo juga membeli sabun. Dalam suatu association rule X Y; X disebut dengan antecedent dan Y disebut dengan consequent. Rule seperti ini berguna untuk mengambil keputusan yang berhubungan dengan promosi, penetapan harga suatu produk atau penataan produk dalam rak. Contoh manfaat association rule : Rule yang mengandung Y sebagai consequent dapat membantu merencanakan apa yang harus dilakukan oleh suatu toko untuk meningkatkan penjualan Y. Rule yang mengandung X sebagai antecedent dapat digunakan untuk membantu menentukan barang-barang apa saja yang terpengaruh apabila toko tersebut memutuskan untuk berhenti menjual X. Rule yang mengandung X sebagai antecedent dan Y sebagai consequent dapat digunakan untuk menentukan produk lainnya yang harus dijual bersama dengan X untuk meningkatkan penjualan Y. Rule yang berhubungan dengan barang yang terdapat pada rak A dan rak B pada suatu toko dapat membantu merencanakan pengaturan barang pada rak dengan menentukan bahwa penjualan barang di rak A berhubungan dengan penjualan barang di rak B. Rule support dan rule confidence adalah dua ukuran ketertarikan pemakai association rule mining. Contoh : komputer aplikasi akuntansi [support = 2%, confidence = 60%]. Rule di atas berarti : 2% dari semua transaksi, komputer dan aplikasi akuntansi dibeli secara bersamaan. 60% dari pelanggan yang membeli komputer juga aplikasi akuntansi. Jenis Association Rules Ada banyak jenis association rule yang dapat diklasifikasikan dalam beberapa kelompok berdasarkan kriteria-kriteria sebagai berikut : Berdasarkan tipe nilai yang dapat ditangani rule Jika suatu rule menangani asosiasi diantara ada atau tidaknya suatu item, maka rule tersebut disebut boolean association rule. Contoh dari boolean association rule adalah: komputer aplikasi akuntansi. Jika suatu rule menunjukan asosiasi antara itemitem kuantitatif atau atribut-atribut, maka rule tersebut disebut quantitative association rule. Pada

DINAMIKA TEKNOLOGI Vol., No. ; Oktober 2006: 0-8 rule ini, nilai kuantitatif dari item-item atau atributatribut dibagi ke dalam interval-interval. Contoh dari quantitative association rule: umur( X, 30..39 ) ^ pendapatan(x, 2K..8K ) beli(x, high resolution TV). Berdasarkan dimensi dari data yang ada pada rule Jika item atau atribut dalam association rule hanya melibatkan satu dimensi saja, maka rule tersebut adalah single-dimensional association rule. Contoh single-dimensional association rule: beli(x, komputer ) beli (X, aplikasi akuntansi ) Rule di atas merupakan bentuk lain dari contoh rule pada boolean association rule. Rule di atas disebut single-dimensional association rule karena rule tersebut hanya melibatkan satu dimensi yaitu beli. Jika rule melibatkan dua atau lebih dimensi seperti dimensi beli, waktu, dan kategori pelanggan, maka rule tersebut disebut multidimensional association rule. Contoh rule pada quantitative association rule juga termasuk rule jenis ini karena rule tersebut melibatkan tiga dimensi yaitu: umur, pendapatan dan beli. Berdasarkan level abstraksi yang ada pada rule Misalkan rule-rule yang terdapat pada sebuah set dari association rule adalah sebagai berikut: umur(x, 30..39 ) beli(x, laptop ) umur(x, 30..39 ) beli(x, komputer ) Pada rule-rule diatas, item yang dibeli direferensikan pada level abstraksi yang berbeda ( komputer adalah abstraksi pada level yang lebih tinggi daripada laptop ). Rule yang demikian disebut multilevel association rule. Tetapi apabila rule-rule pada sebuah set tidak mereferensikan item-item atau atribut-atribut pada level yang berbeda-beda, maka kumpulan rule tersebut dinamakan single-level association rule. Berdasarkan berbagai perluasan ekstensi pada association mining Dibedakan menjadi maximal frequent itemset mining dan closed association rule mining. Sebuah maximal frequent itemset adalah sebuah frequent pattern p, dimana semua superpattern dari p adalah tidak frequent. Sebuah frequent pattern c disebut sebagai frequent closed itemset apabila tidak ada superset dari c, c, sehingga semua transaksi yang mengandung c juga mengandung c. Proses untuk menemukan seluruh association rule yang ada pada suatu database dapat dibagi menjadi dua fase utama yaitu sebagai berikut : ase Pencarian Large Itemset ase ini adalah fase untuk menemukan seluruh item dari transaksi yang memenuhi minimum support threshold. Support untuk suatu itemset adalah jumlah transaksi dalam database yang mengandung itemset tersebut. Itemset yang memenuhi persyaratan ini disebut frequent itemset (large itemset). Sedangkan itemset yang tidak memenuhi disebut infrequent itemset (small itemset). ase Generate Strong Association Rule Dengan menggunakan frequent itemset yang terbentuk maka dapat diperoleh association rule yang memenuhi minimum confidence threshold yang telah ditentukan. requent Itemset Mining requent itemset mining adalah algoritma yang digunakan untuk mencari frequent itemset. Support sebuah itemset X adalah jumlah transaksi dimana terdapat item X didefinisikan sebagai (X). Sebuah itemset X disebut frequent itemset apabila support X lebih besar atau sama dengan nilai minimum support yang dispesifikasikan ( (X) min_supp). Minimum support adalah suatu nilai yang menentukan sebuah itemset termasuk frequent atau tidak. Misalkan nilai minimum support adalah 0% dan jumlah transaksi dalam database ada lima transaksi. Maka suatu itemset dikatakan frequent bila itemset tersebut minimal terdapat pada dua transaksi ( 0% * 5 = 2 ). Setelah mengetahui frequent itemset, maka langkah selanjutnya adalah menghasilkan rule yang confident. Sebuah rule disebut confident rule apabila nilai confident dari rule tersebut lebih besar atau sama dengan nilai minimum confidence yang dispesifikasikan (p min_conf). Nilai confidence(p) dihitung dengan rumus p = (X) / (X ) atau dapat dikatakan nilai confidence(p) adalah nilai support X dibagi nilai support X. Input : requent itemset Output : Strong association rule dari frequent itemset. [Memanggil procedure genrule untuk semua frequent itemset yang jumlah itemnya lebih atau sama dengan 2]. forall large itemset l k, k 2 do.. call genrules(l k,l k ); Algoritma : Algoritma Association Rule Input: requent itemset Output: Strong association rule dari frequent itemset 2

Analisa SSVM (Smooth Support Vector Machines) Dan RSVM (Reduced Support Vector Machines) (Yosi Kristian et al).[memanggil procedure genrule untuk semua frequent itemset yang jumlah itemnya lebih atau sama dengan 2]. forall large itemset l k, k 2 do.. call genrules(l k,l k ); Algoritma merupakan algoritma untuk menghasilkan rule-rule. Masukan yang diminta untuk algoritma ini adalah frequent itemset yang diperoleh dari algoritma pencarian frequent itemset. Sedangkan hasilnya adalah strong association rule. Algoritma 2 : Procedure Genrules(l k : large k-itemset, a m : large m-itemset)algoritma Association Rule Input: requent itemset Output: Strong association rule dari frequent itemset. [Cari subset]. A={(m-)-itemset a m- a m- a m }; 2. [Cek nilai confidence dari masingmasing subset] 2. for all a m- A do begin 2.. conf=support count(l k )/support count(a m- ); 2..2 if (conf minconf) then begin 2..2. output rule a m- (l k -a m- ), 2..2.2 if (m- > ) then 2..2.2. call genrules(l k, a m- ); 2..3 end 3. end Pada algoritma diatas terdapat pemanggilan pada sebuah procedure genrules dengan parameter dua frequent itemset yang sama. Procedure ini digunakan untuk menghasilkan strong association rule yang meminta masukan berupa himpunan frequent k-itemset, Lk dan himpunan frequent m-itemset, am dimana frequent k- itemset sama dengan frequent m-itemset. Trie Pada computer science, trie atau prefix trie adalah sebuah struktur data tree yang tersusun yang digunakan untuk menyimpan sebuah associative array dimana key-nya adalah string. Sebuah node diberi label sebuah item, dan sebuah path dari root menuju sebuah node menunjukkan sebuah itemset. Semua descendant dari sebuah node manapun dari trie mempunyai common prefix yang sama dengan parent-nya. Root dari trie itu sendiri adalah sebuah empty itemset. Algoritma D-Apriori Algoritma D-Apriori adalah implementasi secara depth-first dari algoritma Apriori, salah satu algoritma frequent itemset mining (IM) tercepat untuk menemukan semua frequent itemset pada sebuah database. requent itemset adalah kumpulan dari satu atau beberapa item dengan kemunculan yang sama atau lebih banyak dari minimum support threshold pada sebuah database. Perbedaan utama algoritma D-Apriori dengan algoritma Apriori biasa adalah apabila pada algoritma Apriori biasa trie dapat diasumsikan dibangun dengan metode layer by layer atau breadth first, maka pada algoritma D-Apriori ini trie dibangun secara depth first. Pembangunan trie dimulai dari kanan dan berkembang ke kiri. Prepared Dataset Pembentukan trie Trie Gambar Blok Diagram Algoritma D-Apriori Secara garis besar proses mining dengan menggunakan algoritma D-Apriori terdiri dari tiga tahap yaitu tahap preprocessing dimana algoritma mencari frequent -itemset dari database input, tahap pembuatan trie dan tahap pembacaan hasil dari trie. Semua hasil frequent itemset dapat dibaca langsung dari trie ketika trie telah selesai dibentuk. Struktur data yang digunakan pada algoritma D- Apriori adalah trie. Untuk lebih jelasnya dapat dilihat pada contoh dibawah ini. Tabel Contoh Dataset Tid Items B C D 2 A B E 3 A B E A B C 5 A B C E 6 C D E Pembacaan Trie requent Itemsets Walter A. Kosters dan Wim Pijls, Apriori, A Depth irst Implementation, hal 2 3

DINAMIKA TEKNOLOGI Vol., No. ; Oktober 2006: 0-8 Tabel 2 requent Itemset (Minimum Support = 3 Transaksi) Support requent Itemset 5 B, A, AB, A, AB, B, C, E, E 3 AE, ABE, ABE, AE, BC, BE, BE, C Tabel menunjukkan sebuah contoh dataset dimana terdapat 6 transaksi yang telah tersorting secara ascending. Tid adalah nomor transaksi, sementara items adalah item-item yang terdapat pada transaksi itu sendiri. Tabel 2 menunjukkan semua frequent itemset apabila minimum support threshold = 3. Hasil trie lengkap untuk dataset ini berdasarkan algoritma D-Apriori dapat dilihat pada Gambar 2. E A B C E B E C E Gambar 2 Trie Hasil Algoritma D-Apriori Algoritma 3 Algoritma D-Apriori Input : D (Database Transaksi); σ (Minimum Support Threshold) Output : Semua requent Itemset. [Baca dataset untuk preprocessing]. Scan D to find the set of frequent -itemsets 2. [Bentuk trie dan cari frequent itemset] 2. Insert into trie and scan D to count their frequencies 3. [Tampilkan hasil frequent itemset] 3. Output reqitems Algoritma 3 merupakan algoritma utama pada algoritma D-Apriori ini. Pertama-tama dataset yang telah dipersiapkan formatnya dibaca untuk mencari semua frequent -itemset (baris.). Kemudian semua frequent -itemset tersebut dimasukkan kedalam trie dan dataset dibaca lagi untuk menghitung frekuensi sebenarnya dari masing-masing item pada trie (baris 2.). Setelah trie selesai dibentuk, hasil semua frequent itemset yang support-nya memenuhi minimum support threshold dapat langsung dibaca dari trie (baris 3.). Algoritma Algoritma Preprocessing Input: D (Database Transaksi); σ (Minimum Support Threshold) Output: min_item, max_item, jumlah frequent items dan jumlah relevant transaction. [Cari min_item dan max_item]. first = true.2 for every transaction t in D.2. for every item i in t.2.. if (first).2... max_item = i.2...2 min_item = i.2...3 first = false.2..2 end if.2..3 if i < min_item.2..3. min_item = i.2.. else.2... if i > max_item.2... max_item = i.2...2 end if.2..5 end if.2.2 end for.3 end for 2. [Cari frekuensi dari semua item dan jumlah frequent items] 2. item_range = max_item min_item 2.2 init_items_frequency = array[item_range] 2.3 for every transaction t in D 2.3. for every item i in t 2.3.. insert i into init_items_frequency 2.3.2 end for 2.3.3 for every frequent item f in init_items_frequency 2.3.3. increment number_freq_items 2.3. end for 2.. end for 3. [Cari jumlah relevant transaction] 3. number_transactions = 0 3.2 for every transaction t in D 3.2. items_in_trans = 0 3.2.2 for every item i in t 3.2.2. if i is frequent 3.2.2.. increment items_in_trans 3.2.2.2 end if 3.2.3 end for 3.2. if items_in_trans >= 2 3.2.. increment number_transactions 3.2.5 end if 3.3 end for

Analisa SSVM (Smooth Support Vector Machines) Dan RSVM (Reduced Support Vector Machines) (Yosi Kristian et al). [Sorting frequent -itemset]. sort items with respect to support and renumber 5. [Bentuk data_array] 5. arraywidth = (number_freq_items -)/8 + 5.2 rowcounter = 0 5.3 for every transaction t in D 5.3. next_transaction = array[rowcounter][arraywidth] 5.3.2 for every item i in t 5.3.2. if i is frequent 5.3.2.. insert i into next_transaction[r owcounter] with respect to its rank in the frequency order 5.3.2.2 end if 5.3.3 end for 5.3. increment rowcounter 5. end for Algoritma merupakan algoritma untuk melakukan proses preprocessing pada algoritma D- Apriori. Pada proses ini, database dibaca empat kali : Pembacaan pertama untuk menentukan item terkecil dan item terbesar. Hal ini diperlukan untuk menentukan range item. Pembacaan kedua untuk mencari frekuensi dari semua item pada database dan mencari jumlah frequent item. Hal ini diperlukan karena urutan frekuensi juga menentukan urutan pada trie. requent item yang telah ter-sorting disimpan dalam sebuah array. Pembacaan ketiga untuk menentukan jumlah relevant transaction. Relevant transaction adalah transaksi yang didalamnya terdapat dua atau lebih frequent item. Untuk transaksi yang hanya mempunyai satu atau nol frequent item telah diidentifikasi pada saat pembacaan kedua. Pembacaan keempat untuk menyimpan database kedalam sebuah array dua dimensi. Setiap frequent item akan diberikan nomor baru berdasarkan ranking yang dilihat dari besarnya frekuensi tiap-tiap item tersebut. Panjang setiap baris array ditentukan oleh banyaknya frequent item, sedangkan jumlah array ditentukan oleh jumlah relevant transaction dari pembacaan ketiga. Algoritma 5 Algoritma Build_Up Input: semua hasil dari proses preprocessing Output: trie. [Bentuk trie]. T = the trie including only bucket i n.2 for m = n- downto.2. T = T.2.2 T = T with i m added to the left and a copy of T is appended to i m.2.3 S = T\T (= the subtrie rooted in i m ).2. count(s, i m ).2.5 delete the infrequent itemset from S.3 end for 2. [Procedure count] 2. for every transaction t including item i m 2.. for every itemset I in S 2... if t supports I 2... increment I.support 2...2 end if 2..2 end for 2.2 end for Algoritma 5 merupakan algoritma untuk membentuk trie pada algoritma D-Apriori. Pada proses preprocessing, support dari setiap single item telah dihitung dan semua item yang tidak frequent telah dibuang. Misalkan n frequent item tersebut diberi nama i, i 2,, i n. Kemudian algoritma 5 dijalankan. Procedure count(s, i m ) berguna untuk menentukan support dari setiap itemset pada subtrie S. Hal ini dilakukan dengan membaca database sebanyak satu kali dan hanya transaksi yang mengandung item i m diproses. Proses ini dilakukan sekaligus dengan meng-update count dari setiap bucket pada subtrie S. Pada akhir dari algoritma ini, T tepat hanya mengandung semua frequent itemset Tracing Algoritma Misalkan akan dilakukan proses mining semua frequent itemset dari sebuah database transaksi seperti yang ditunjukkan pada Tabel 3a dengan minimum support threshold dua transaksi. Database diasumsikan telah dalam format seperti pada Tabel 3a dan setiap item pada setiap transaksinya ter-sorting secara ascending. Pertama-tama database akan dibaca sekali secara keseluruhan untuk mencari semua frequent - itemset. Karena minimum support threshold-nya adalah 2, maka semua item dengan kemunculan lebih kecil dari 2 tidak termasuk frequent item. Pada contoh database ini frequent item-nya adalah, 3,, 5 dan 7. Kemudian semua frequent item 5

DINAMIKA TEKNOLOGI Vol., No. ; Oktober 2006: 0-8 tersebut akan dimasukkan secara ascending berdasarkan frekuensi kedalam tabel frequent item seperti ditunjukkan pada Tabel 3b. pada root hanya ada bucket, maka bucket tersebut menjadi child dari bucket. Keadaan trie setelah iterasi pertama ini dapat dilihat pada Gambar 3. Tabel 3 Contoh Database Transaksi Beserta requent Itemnya Untuk Minimum Support Threshold = 2 I = (a) Contoh Database Transaksi (b) requent Item Tid Items Item Count 3 5 6 7 9 7 2 2 3 5 3 5 3 3 2 5 7 3 3 8 5 3 0 5 Setelah proses preprocessing selesai dilakukan, maka langkah selanjutnya adalah pembentukan trie. Setiap entry pada trie pada algoritma D- Apriori dinamakan bucket, seperti yang juga dipakai pada hash-tree. 2 Sebuah bucket dapat dikenali melalui path-nya menuju root yang merepresentasikan sebuah itemset yang unik. Jumlah iterasi pada pembentukan trie pada algoritma D-Apriori adalah n- kali, dimana n adalah jumlah frequent -itemset. Hal ini berarti jumlah passing yang dilakukan terhadap database adalah sebanyak n- kali jumlah frequent - itemset. Pada contoh database diatas, jumlah frequent -itemset adalah 5, maka trie akan selesai dibentuk dalam kali iterasi. Pembentukan trie diawali dengan pembentukan bucket-bucket dari root. Bucket-bucket tersebut adalah semua frequent -itemset dari Tabel 3b. Item yang paling frekuensinya paling besar dibangun pertama kali dan diletakkan pada bucket root yang paling kanan. Hal ini dikarenakan waktu eksekusi algoritma ini akan lebih cepat apabila item-item dengan support tinggi diletakkan pada bagian root yang dangkal (kanan atas) dan itemitem dengan support rendah pada bagian root yang dalam (kiri bawah). Pembentukan trie berjalan dari kanan ke kiri. Iterasi pertama dimulai dari bucket yang ke n- dari root, yang dalam contoh diatas adalah bucket. Untuk child dari bucket akan disalin dari semua bucket lain di sebelah kanannya pada root beserta semua child-nya. Karena setelah bucket 2 Walter A. Kosters dan Wim Pijls, Apriori, A Depth irst Implementation, hal Gambar 3 Hasil Iterasi Pertama Pada Pembentukan Trie Kemudian database akan ditelusuri untuk menghitung frekuensi sebenarnya dari bucket dan beserta semua child-nya. Dimulai dari root yaitu itemset {} yang menghasilkan count =. Kemudian proses bergeser ke kiri dan menghitung itemset {} yang menghasilkan count = dan itemset {, } yang menghasilkan count =. Karena semua hasil perhitungan pada iterasi pertama ini memenuhi minimum support threshold maka semua itemset pada trie termasuk frequent itemset. requent itemset yang didapat dari iterasi pertama ini adalah : {} = 5. {} =. {, } =. Iterasi kedua akan melakukan proses pada bucket selanjutnya yaitu bucket 3. Untuk child dari bucket ini akan disalin dari semua bucket lain di sebelah kanannya pada root beserta semua child-nya. Jadi bucket dan bucket beserta semua child-nya akan menjadi child dari bucket 3. Keadaan trie setelah iterasi kedua ini dapat dilihat pada Gambar. I 3 = 3 Gambar Hasil Iterasi Kedua Pada Pembentukan Trie Kemudian database akan ditelusuri untuk menghitung frekuensi sebenarnya dari bucket 3 beserta child-nya. Dimulai dari root yaitu itemset {3} yang menghasilkan count =. Setelah itu 3 6

Analisa SSVM (Smooth Support Vector Machines) Dan RSVM (Reduced Support Vector Machines) (Yosi Kristian et al) itemset {3, } menghasilkan count = 3, itemset {3,, } menghasilkan count = 3 dan itemset {3, } menghasilkan count =. Karena semua hasil perhitungan pada iterasi kedua ini memenuhi minimum support threshold maka semua itemset pada trie termasuk frequent itemset. requent itemset yang didapat dari iterasi kedua ini adalah : {3} =. {3, } = 3. {3,, } = 3. {3, } =. Iterasi ketiga akan melakukan proses pada bucket selanjutnya yaitu bucket 5. Untuk child dari bucket ini akan disalin dari semua bucket lain di sebelah kanannya pada root beserta semua child-nya. Jadi bucket 3, dan beserta semua child-nya akan menjadi child dari bucket 5. Keadaan trie setelah iterasi kedua ini dapat dilihat pada Gambar 5. {5, 3} = 2. {5, 3, } = 2. {5, } = 2. {5,, } = 2. {5, } = 2. Iterasi keempat akan melakukan proses pada bucket selanjutnya yaitu bucket 7. Untuk child dari bucket ini akan disalin dari semua bucket lain di sebelah kanannya pada root beserta semua childnya. Jadi bucket 5, 3, dan beserta semua childnya akan menjadi child dari bucket 7. Keadaan trie setelah iterasi kedua ini dapat dilihat pada Gambar 6. 5 I = 7 3 7 5 3 3 I 3 = 5 5 3 3 3 Gambar 6 Hasil Iterasi Keempat Pada Pembentukan Trie Gambar 5 Hasil Iterasi Ketiga Pada Pembentukan Trie Kemudian database akan ditelusuri untuk menghitung frekuensi sebenarnya dari bucket 5 beserta child-nya. Dimulai dari root yaitu itemset {5} yang menghasilkan count = 3. Setelah itu itemset {5, 3} menghasilkan count = 2. Kemudian proses berlanjut ke itemset {5, 3, } menghasilkan count =. Karena tidak memenuhi minimum support threshold maka itemset {5, 3, } dicoret dari trie dan tidak termasuk frequent itemset. Apabila sebuah bucket telah dicoret pada trie, maka otomatis semua child-nya juga akan dicoret. Dalam contoh diatas bucket di pojok kiri bawah dicoret dan itemset {5, 3,, } tidak termasuk frequent itemset. Kemudian proses berlanjut ke itemset {5, 3, } menghasilkan count = 2, itemset {5, } menghasilkan count = 2, itemset {5,, } menghasilkan count = 2 dan itemset {5, } menghasilkan count = 2. requent itemset yang didapat dari iterasi ketiga ini adalah : {5} = 3. Kemudian database akan ditelusuri untuk menghitung frekuensi sebenarnya dari bucket 7 beserta child-nya. Dimulai dari root yaitu itemset {7} yang menghasilkan count = 2. Kemudian itemset {7, 5} menghasilkan count = 2, itemset {7, 5, 3} menghasilkan count = (dicoret), itemset {7, 5, } menghasilkan count = (dicoret), itemset {7, 5, } menghasilkan count = 2, itemset {7, 3} menghasilkan count = (dicoret), itemset {7, } menghasilkan count = (dicoret) dan itemset {7, } menghasilkan count = 2. Tabel requent Itemset Yang Dihasilkan Itemset Count Itemset Count Itemset Count {7} 2 {5, 3, } 2 {3,, } 3 {7, 5} 2 {5, } 2 {3, } {7, 5, } 2 {5,, } 2 {} {7, } 2 {5, } 2 {, } {5} 3 {3} {} 5 {5, 3} 2 {3, } 3 requent itemset yang didapat dari iterasi keempat ini adalah : {7} = 2. {7, 5} = 2. 7

DINAMIKA TEKNOLOGI Vol., No. ; Oktober 2006: 0-8 {7, 5, } = 2. {7, } = 2. Dengan berakhirnya iterasi keempat diatas, maka trie telah dibentuk secara lengkap. Total didapat 7 frequent itemset seperti yang ditunjukkan pada Tabel. Untuk proses generate rule dapat dilakukan dengan algoritma strong association rule. Misal untuk itemset {7, 5, } dengan confidence = 0, rule yang dihasilkan dapat dilihat pada Tabel 5. Tabel 5 Association Rule Untuk Itemset {7, 5, } (Confidence = 0) Kaufmann Publishers. 30 Pine Street, Sixth loor, San ransisco, USA, 200. 2. R. Agrawal dan R. Srikant, ast Algorithms for Mining Association Rules, Proceedings of the 20th International Conference on Very Large Databases, Santiago, Chile, 99. 3. Walter A. Kosters dan Wim Pijls, APRIORI : A Depth irst Implementation, Leiden Institute of Advanced Computer Science, Universiteit Leiden, Netherlands. Rule Support Confidence {7} {5, } 2/5 2/2 {5} {7, } 2/5 2/3 {} {7, 5} 2/5 2/5 {7, 5} {} 2/5 2/2 {7, } {5} 2/5 2/2 {5, } {7} 2/5 2/3 PENUTUP Semakin tinggi nilai minimum support, semakin sedikit waktu yang diperlukan untuk melakukan mining dan semakin sedikit pula frequent itemset yang dihasilkan. Hal ini dikarenakan apabila nilai support tinggi, maka jumlah frequent item pada database yang memenuhi nilai tersebut akan semakin sedikit, sehingga trie yang terbentuk juga kecil. Sebaliknya, semakin rendah nilai minimum support, semakin banyak waktu yang diperlukan untuk melakukan mining dan semakin banyak pula frequent itemset yang dihasilkan. Untuk dataset dense, nilai minimum support yang diberikan harus tinggi dan sebaliknya untuk dataset sparse, nilai minimum support yang diberikan harus rendah. Hal ini dikarenakan pada dataset dense transaksi satu dengan lainnya banyak yang mirip. Oleh karena itu besar kemungkinan sebuah item untuk menjadi frequent. Sebaliknya untuk dataset sparse, transaksi satu dengan lainnya jarang yang mirip. Oleh karena itu kecil kemungkinan sebuah item untuk menjadi frequent. DATAR PUSTAKA. Jiawei Han dan Micheline Kamber, Data Mining, Concepts and Techniques, Morgan 8