PENGGALIAN TOP-K FREQUENT CLOSED CONSTRAINED GRADIENT ITEMSETS TANPA BATASAN MINIMUM SUPPORT PADA BASIS DATA RETAIL

dokumen-dokumen yang mirip
PENGEMBANGAN APLIKASI PENGGALIAN TOP-K FREQUENT CLOSED CONSTRAINED GRADIENT ITEMSETS PADA BASIS DATA RETAIL

PENGGALIAN TOP-K CLOSED FREQUENT ITEMSETS BERBASIS ALGORITMA PEMETAAN TRANSAKSI

Perbaikan Struktur Weighted Tree dengan Metode Partisi Fuzzy dalam Pembangkitan Frequent Itemset

ALGORITMA PARALEL FP-GROWTH UNTUK PENGGALIAN KAIDAH ASOSIASI PADA JARINGAN KOMPUTER

2.2 Data Mining. Universitas Sumatera Utara

PENGGALIAN FREQUENT CLOSED ITEMSETS DENGAN MULTIPLE MINIMUM SUPPORT PADA BASISDATA RETAIL

BAB I PENDAHULUAN 1.1 Latar Belakang

PEMBANGKITAN KAIDAH ASOSIASI DARI TOP-K FREQUENT CLOSED ITEMSET YANG DIDASARKAN PADA STRUKTUR DATA BERBASIS LATTICE

Penerapan Stuktur FP-Tree dan Algoritma FP-Growth dalam Optimasi Penentuan Frequent Itemset

ANALISA PENCARIAN FREQUENT ITEMSETS MENGGUNAKAN ALGORITMA FP-MAX

BAB IV HASIL DAN UJICOBA. Penerapan Data Mining Market Basket Analysis Terhadap Data Penjualan Produk

BAB I PENDAHULUAN. Data mining memungkinkan penemuan pola-pola yang menarik, informasi yang

PERBAIKAN STRUKTUR WEIGHTED TREE DENGAN METODE PARTISI FUZZY DALAM PEMBANGKITAN FREQUENT ITEMSET

PENERAPAN ALGORITMA APRIORI DALAM PERANGKAT LUNAK DATA BASE Amroni, S.Kom, M.Kom

Penggunaan Struktur FP-Tree dan Algoritma FP- Growth dalam Rekomendasi Promosi Produk pada Situs Belanja Online

IMPLEMENTASI ALGORITMA-ALGORITMA ASSOCIATION RULES SEBAGAI BAGIAN DARI PENGEMBANGAN DATA MINING ALGORITHMS COLLECTION

SISTEM REKOMENDASI PAKET MAKANAN DENGAN ALGORITMA FP-GROWTH PADA RESTORAN SEAFOOD XYZ

PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA FP-TREE DAN FP-GROWTH PADA DATA TRANSAKSI PENJUALAN OBAT

Abstrak. Data Mining, Algoritma Apriori, Algoritma FP-Growth, Mata Pelajaran, Pemrograman, Web Programming, Matematika, Bahasa Inggris.

Rancang Bangun Fitur Rekomendasi Buku Menggunakan Algoritma PrefixSpan pada Sistem Peminjaman Buku Berbasis Web di Perpustakaan Universitas Ciputra

Penelitian ini melakukan pencarian

PENGGALIAN KAIDAH MULTILEVEL ASSOCIATION RULE DARI DATA MART SWALAYAN ASGAP

BAB 2 TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA

Analisa Data Mining Menggunakan Algoritma Frequent Pattern Growth Pada Data Transaksi Penjualan Restoran Joglo Kampoeng Doeloe Semarang

BAB II LANDASAN TEORI. Anindita Dwi Respita,2015. a. Penelitian ini menjelaskan tentang tujuan : menggunakan metode market basket analysis.

DAFTAR ISI Transformasi data... 47

Mining Association Rules dalam Basis Data yang Besar

Kata kunci: graph, graph database, GIndex, subgraph query, size-increasing support constraint, discriminative fragments, index, subgraph matching

BAB III METODE PENELITIAN. Metode penelitian merupakan suatu prosedur beserta tahapan-tahapan yang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Aplikasi Data Mining untuk meneliti Asosiasi Pembelian Item Barang di Supermaket dengan Metode Market Basket Analysis

Pembuatan Perangkat Lunak Data Mining Untuk Penggalian Kaidah Asosiasi Menggunakan Metode Apriori

ANALISIS DAN IMPLEMENTASI ALGORITMA CT-APRIORI UNTUK ASOSIASI TRANSAKSI BARANG

Data Mining. Tidak. Mulai. Data transaksi. Pembersihan data. Seleksi data. Transformasi data. Pemberian nilai minimum support

PENGEMBANGAN ALGORTIMA APRIORI UNTUK PENGAMBILAN KEPUTUSAN THE DEVELOPMENT APRIORI ALGORITHM FOR DECISION- MAKING

Journal of Informatics and Telecommunication Engineering. Analisa Algoritma Data Mining Eclat Dan Hui Miner

Pengembangan Aplikasi Market Basket Analysis Menggunakan Algoritma Generalized Sequential Pattern pada Supermarket

APLIKASI DATA MINING MENGGUNAKAN ATURAN ASOSIASI DENGAN METODE APRIORI UNTUK ANALISIS KERANJANG PASAR PADA DATA TRANSAKSI PENJUALAN APOTEK

ASSOCIATION RULES PADA TEXT MINING

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

SISTEM REKOMENDASI PEMESANAN SPAREPART DENGAN ALGORITMA FP-GROWTH (STUDI KASUS PT. ROSALIA SURAKARTA)

PEMBUATAN PERANGKAT LUNAK DATA MINING UNTUK PENGGALIAN KAIDAH ASOSIASI MENGGUNAKAN METODE APRIORI

IMPLEMENTASI ALGORITMA APRIORI UNTUK MENEMUKAN FREQUENT ITEMSET DALAM KERANJANG BELANJA

PENERAPAN ALGORITMA APRIORI ASSOCIATION RULE UNTUK ANALISA NILAI MAHASISWA DI UNIVERSITAS GUNADARMA

Cust. 1 : milk, bread, cereal. Cust. 2 : milk, bread, Sugar, eggs. Cust. 3 : milk, bread, butter

DATA MINING ANALISA POLA PEMBELIAN PRODUK DENGAN MENGGUNAKAN METODE ALGORITMA APRIORI

BAB I PENDAHULUAN 1.1. Latar Belakang

DATA MINING UNTUK MENGGALI POLA MAHASISWA BARU MENGGUNAKAN METODE FREQUENT PATTERN GROWTH (STUDI KASUS : INSTITUT TEKNOLOGI ADHI TAMA SURABAYA)

IMPLEMENTASI ALGORITMA FP- GROWTH MENGGUNAKAN ASSOCIATION RULE PADA MARKET BASKET ANALYSIS

PREDIKSI KEBUTUHAN PENOMORAN PADA JARINGAN TELEKOMUNIKASI MENGGUNAKAN METODE APRIORI

TINJAUAN PUSTAKA Data Mining

FREQUENT ITEMSET MINING MENGGUNAKAN ALGORITMA PIE

Pola Kompetensi Mahasiswa Program Studi Informatika Menggunakan FP-Growth

DATA MINING UNTUK MENGGALI POLA MAHASISWA BARU MENGGUNAKAN METODE FREQUENT PATTERN GROWTH (STUDI KASUS : INSTITUT TEKNOLOGI ADHI TAMA SURABAYA)

Association Rule Mining Data Peminjaman Perpustakaan Menggunakan Apriori dan Jaccard Similarity

1 BAB I 2 PENDAHULUAN

IMPLEMENTASI ALGORITMA FOLD-GROWTH PADA PEMODELAN POLA PEMBELIAN BARANG SEBAGAI PENDUKUNG PENENTUAN LETAK BARANG

Lili Tanti. STMIK Potensi Utama, Jl. K.L. Yos Sudarso Km. 6,5 No. 3A Tj. Mulia Medan ABSTRACT

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

PENERAPAN DATA MINING UNTUK MENGETAHUI POLA ASOSIASI ANTARA DATA MAHASISWA DAN TINGKAT KELULUSAN MENGGUNAKAN ALGORITMA FOLD-GROWTH

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

RANCANG BANGUN APLIKASI MARKET BASKET ANALYSIS (MBA) PADA MINIMARKET UD. DIANI DENGAN ALGORITMA CT-PRO

BAB I PENDAHULUAN. Permintaan sepeda motor pada PT. Bintang Utama Motor semakin

BAB 2 TINJAUAN PUSTAKA

Decision Support on Supply Chain Management System Using Apriori Data Mining Algorithm

PERBANDINGAN ALGORITMA APRIORI DAN ALGORITMA FP-GROWTH UNTUK PEREKOMENDASI PADA TRANSAKSI PEMINJAMAN BUKU DI PERPUSTAKAAN UNIVERSITAS DIAN NUSWANTORO

METODE PENELITIAN. Proses Dasar Sistem

Implementasi Algoritme Modified-Apriori Untuk Menentukan Pola Penjualan Sebagai Strategi Penempatan Barang Dan Promo

1. BAB I PENDAHULUAN 1.1. Latar Belakang ,

BAB 2 LANDASAN TEORI

Analisis Efisiensi Algoritma Data Mining

PREDIKSI OUTLIER MENGGUNAKAN DATA TEPI CLUSTER UNTUK MENINGKATKAN KUALITAS PENGETAHUAN HASIL DATA MINING

Penentuan Pola Sekuensial pada Data Transaksi Perpustakaan IPB Menggunakan Algoritma Graph Search Techniques

1 st Seminar on Application and Research in Industrial Technology, SMART Yogyakarta, 27 April 2006

PENGGALIAN POLA CLOSED SEQUENTIAL PADA BASIS DATA YANG BERTAMBAH SECARA BERTAHAP

REKOMENDASI SOLUSI PADA COMPUTER MAINTENANCE MANAGEMENT SYSTEM MENGGUNAKAN ASSOCIATION RULE, KOEFISEN KORELASI PHI DAN CHI-SQUARE

PEMODELAN POLA HUBUNGAN KEMAMPUAN LULUSAN UNIVERSITAS LANCANG KUNING DENGAN KEBUTUHAN DUNIA USAHA DAN INDUSTRI

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

ANALISA KONSISTENSI POLA PEMINJAMAN BUKU MENGGUNAKAN ALGORITMA FP-GROWTH (Studi Kasus: UPT Perpustakaan Universitas Sebelas Maret)

APLIKASI DATA MINING UNTUK POLA PERMINTAAN DARAH DI UDD ( UNIT DONOR DARAH ) PMI KOTA SURABAYA MENGGUNAKAN METODE APRIORI

ASSOCIATION RULES PADA TEXT MINING

RANCANG BANGUN APLIKASI DATA MINING ANALISIS TINGKAT KELULUSAN MENGGUNAKAN ALGORITMA FP-GROWTH (Studi Kasus Di Politeknik Negeri Malang)

Perancangan dan Pembuatan Modul Data Mining Market Basket Analysis pada Odoo dengan Studi Kasus Supermarket X

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN

BAB II TINJAUAN PUSTAKA

BAB III METODE PENELITIAN. desaign dan coding program. Dibutuhkan waktu selama kurang lebih 8 bulan

BAB I PENDAHULUAN. Teknologi Informasi sekarang ini telah digunakan hampir di semua aspek

PENCARIAN ATURAN ASOSIASI MENGGUNAKAN ALGORITMA APRIORI SEBAGAI BAHAN REKOMENDASI STRATEGI PEMASARAN PADA TOKO ACIICA

ASSOCIATION RULE MINING UNTUK PENENTUAN REKOMENDASI PROMOSI PRODUK

Kata kunci : Perpustakaan, Sistem Rekomendasi, Knowledge Discovery from Database (KDD), Association Rule Mining, Algoritma CT-PRO

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS DAN IMPLEMENTASI ALGORITMA FP-GROWTH PADA APLIKASI SMART UNTUK MENENTUKAN MARKET BASKET ANALYSIS PADA USAHA RETAIL (STUDI KASUS : PT.

BAB II TINJAUAN PUSTAKA. Turban mendefinisikan Decision Support System sebagai sekumpulan

Analisis Market Basket Dengan Algoritma Apriori dan FP-Growth

PENGEMBANGAN ALGORTIMA APRIORI UNTUK PENGAMBILAN KEPUTUSAN TEKNIK INFORMATIKA

BAB 2 TINJAUAN PUSTAKA

Association Rule Mining on Library Books Lending Data Using Combination of Apriori And Jaccard Similarity

Transkripsi:

PENGGALIAN TOP-K FREQUENT CLOSED CONSTRAINED GRADIENT ITEMSETS TANPA BATASAN MINIMUM SUPPORT PADA BASIS DATA RETAIL Dhiani Tresna Absari 1), Arif Djunaidy 2) Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya Email: 1 dhiani@cs.its.ac.id, 2 adjunaidy@its.ac.id ABSTRAK Penggalian top-k frequent closed itemsets dengan algoritma TFP tanpa menggunakan minimum support merupakan salah satu penelitian yang menarik untuk diaplikasikan dalam analisis asosiasi. Di sisi lain, dalam dunia retail, penggunaan parameter batasan gradient perlu dilibatkan dalam analisis asosiasi agar dapat melakukan penyaringan itemset dengan mengacu pada suatu batasan gradient tertentu, sebagaimana dilakukan dalam algoritma Frequent Closed Constrained Gradient Mining (FCCGM). Namun demikian, FCCGM masih mengharuskan pengguna untuk menentukan nilai minimum support. Sehingga, penggabungan algoritma TFP dan FCCGM menjadi menarik untuk dilakukan. Dalam penelitian ini, algoritma TFP dilakukan modifikasi agar dapat dibangkitkan top-k frequent closed itemset dengan batasan gradient tanpa penentuan nilai minimum support. Hasil modifikasi algoritma, yang disebut top-k frequent closed constrained gradient itemsets, melibatkan beberapa langkah tambahan terhadap algoritma TFP. Tambahan langkah tersebut antara lain berupa pembangkitan nilai minimum support secara dinamis untuk membebaskan pengguna dalam menginisialisasi nilai minimum support tersebut dan langkah perhitungan gradient untuk masing-masing item yang terdapat dalam basis data. Selain itu, modifikasi terhadap tabel global header dilakukan untuk menyimpan hasil perhitungan gradient untuk masing-masing itemnya. Langkah pemangkasan gradient pada FP-Tree yang terbentuk, yaitu pemangkasan item yang tidak memenuhi batasan gradient yang diinginkan, dilakukan tepat sebelum proses penggalian frequent closed itemset dijalankan. Terakhir, modifikasi terhadap langkah pembangkitan hasil penggalian frequent closed itemset dilakukan agar hasil akhir dari frequent closed itemsets dapat disimpan secara terurut berdasarkan nilai gradient dan support tertinggi. Hasil uji coba menunjukkan bahwa program yang dibuat mampu membangkitkan top-k frequent closed itemset dengan nilai gradient dan support tertinggi tanpa batasan minimum support pada basis data retail. Waktu komputasi yang diperlukan untuk membangkitkan top-k frequent closed itemset bergantung pada kedalaman FP-Tree yang terbentuk dari transaksi yang dianalisis. Semakin dalam FP- Tree terbentuk, maka semakin besar waktu komputasi yang diperlukan untuk melakukan proses penggalian. Kata Kunci: bisnis retail, analisis asosiasi, top-k frequent closed itemsets, batasan gradient. PENDAHULUAN Dunia retail selalu mengalami perkembangan yang sangat pesat. Untuk sebuah retail yang cukup besar, bisa terjadi ratusan transaksi dalam setiap harinya, sehingga

jumlah data yang disimpan sangat besar. Data transaksi ini kemudian disimpan dalam suatu basis data retail yang berupa basis data transaksional dan bersifat jarang (sparse). Pihak manajemen dapat memanfaatkan pengetahuan yang dapat dianalisis dari basis data retail untuk lebih memahami pola kebutuhan pelanggan sehingga dapat membantu dalam pembuatan keputusan bisnis. Salah satu cara analisis yang dapat digunakan adalah dengan menggunakan algoritma TFP. Algoritma yang diusulkan oleh Han dkk ini dapat melakukan penggalian top-k frequent closed itemsets tanpa batasan minimum support. Minimum support pada algoritma ini tidak dipakai dengan tujuan untuk menghindari ketidaktepatan dalam menentukan minimum support yang dapat berdampak pada dihasilkannya kandidat itemset yang kurang memuaskan (Han dkk, 2005). Dalam artikel tersebut, algoritma TFP juga dapat berjalan baik ketika diujicobakan pada basis data jarang yang merupakan sifat dari basis data retail. Dalam perkembangan analisis pada basis data retail, saat ini tidak hanya diperlukan sebuah metode untuk melakukan penggalian terhadap frequent closed itemsets saja tetapi diperlukan juga metode untuk melakukan formulasi query dengan batasan gradient. Gradient yang dimaksudkan disini adalah sebuah ukuran/measure yang ditetapkan seperti profit misalnya. Pada tahun 2006 dikembangkan sebuah algoritma Frequent Closed Constrained Gradient Mining (FCCGM) oleh Wang dkk (Wang, dkk, 2006). Algoritma ini dapat melakukan penggalian terhadap frequent closed itemsets dengan batasan gradient tertentu pada sebuah basis data retail. Hasil analisis terhadap algoritma FCCGM menunjukkan adanya kelemahan yang mendasar yaitu masih digunakannya minimum support sebagai batasan yang harus diinisialisasi. Kelemahan dari penggunaan minimum support sendiri telah disampaikan sebelumnya. Minimum support ditentukan dengan cara intuitif sehingga tingkat ketepatannya pun masih diragukan. Sementara sampai saat ini, belum ada satu penelitian pun yang dapat membantu untuk menentukan minimum support yang tepat bagi sebuah kasus. Pada penelitian ini dilakukan sebuah pengembangan terhadap algoritma TFP sehingga dapat dipakai untuk menggali top-k frequent closed itemsets dengan batasan gradient tanpa batasan minimum support. Selain itu, top-k frequent closed itemset yang dihasilkan juga tidak hanya diurutkan berdasarkan nilai support tertinggi saja seperti yang dihasilkan oleh algoritma TFP, tetapi juga berdasarkan nilai gradient. Hal ini diharapkan dapat membantu manajemen retail jika ingin lebih mengutamakan hasil berdasarkan besarnya profit dibandingkan dengan besar nilai support dari suatu itemset. METODE Algoritma ini dikembangkan dengan cara memodifikasi algoritma TFP sehingga dapat melakukan proses pemangkasan gradient dengan cara yang lebih kuat dan k frequent closed itemset tertinggi yang dihasilkan dapat urut berdasarkan nilai measure diikuti dengan support. Terdapat 2 konsep penting yang berhubungan dengan pengembangan algoritma, yaitu algoritma TFP dan algoritma FCCGM. Algoritma TFP Algoritma TFP menggunakan pendekatan FP-Tree dalam melakukan penggalian itemset dan mensyaratkan inisialisasi terhadap dua buah variabel yaitu k dan min_l. K adalah jumlah frequent closed itemset tertingi yang diinginkan pengguna untuk digali dan min_l adalah panjang transaksi minimal pada frequent closed itemset yang akan digali, dimana min_l >=0. Algoritma TFP tidak memerlukan inisialisasi minimum C-19-2

support. Berbeda dengan inisialisasi minimum support, kedua variabel tersebut mudah dipahami dan ditentukan oleh pengguna sesuai dengan kebutuhan. Konsep penting yang harus dipahami pada algoritma ini adalah pembangkitan minimum support. Ada 2 cara untuk membangkitkan minimum support yaitu dengan Close Node Count Array yang digunakan untuk membangkitkan minimum support pada saat penyisipan transaksi didalam FP-Tree serta Descendant Sum yang digunakan untuk membangkitkan minimum support ketika FP-Tree selesai dibangun [Wang, dkk, 2005]. Dengan cara ini, maka minimum support tidak perlu diinisialisasikan tapi dibangkitkan secara dinamis lewat program. Penggalian terhadap frequent closed itemset dilakukan secara rekursif lewat proses penggalian conditional FP-Tree yang terdapat pada algoritma Mine_ Cond_FPTree. Pembentukan conditional FP-Tree, dilakukan secara top-down terhadap global header table sementara proses penggalian lebih lanjut pada conditional FP-Tree yang terbentuk dilakukan dengan cara bottom-up. Selain itu digunakan beberapa metode pemangkasan daerah pencarian seperti item merging. Selanjutnya hasil penggalian frequent closed itemset akan disimpan dalam sebuah array hasil dan diurutkan berdasarkan count tertinggi. Langkah terakhir adalah menampilkan k itemset tertinggi dari array hasil tersebut. Kesimpulan yang dapat diambil dari hasil analisis terhadap algoritma TFP, adalah sebagai berikut : 1. Algoritma TFP dapat menghasilkan k frequent closed itemset tertinggi dan tidak memerlukan minimum support sebagai inputan. Minimum support akan dibangkitkan secara otomatis sesuai dengan keadaan sebuah basis data yaitu pada saat pembentukan FP-Tree dan pada saat setelah FP-Tree selesai terbentuk. 2. Dari hasil uji coba penelitian, algoritma TFP dapat berjalan dengan baik pada basis data yang bersifat sparse yang merupakan sifat dari basis data retail. 3. Algoritma TFP belum dapat digunakan untuk menggali frequent closed itemset yang memiliki batasan gradient. Algoritma FCCGM Sebuah query yang cukup kompleks yang biasa muncul dalam sebuah basis data retail adalah : barang-barang apakah yang sering dijual bersama sebuah produk TV tertentu yang akan memberikan keuntungan 20% lebih banyak dibandingkan keuntungan rata-rata dari semua jenis TV yang ada? Masalah tersebut dapat diselesaikan dengan mencari frequent closed itemset dengan batasan gradient lewat algoritma FCCGM. Pada algoritma FCCGM, terdapat 2 buah algoritma yang dijalankan secara berurutan, yaitu: a. Algoritma Top X-Average : algoritma ini digunakan untuk memangkas data yang tidak sesuai dengan batasan gradient yang telah ditetapkan. b. Algoritma LCLOSET : algoritma ini digunakan untuk menggali frequent closed itemset dari hasil yang didapatkan lewat lengkah sebelumnya. Algoritma Top X-Average dan LCLOSET yang keduanya merupakan pembentuk algoritma FCCGM berbasis pada FP-growth (Wang, dkk, 2005). Oleh karena itu, langkah-langkah dari algoritma ini adalah membentuk sebuah FP-Tree dari projected database, pemangkasan data yang tidak memenuhi batasan gradient dengan algoritma Top-X Average dan penggalian frequent closed constrain gradient itemset dengan algoritma LCLOSET. C-19-3

Berdasrkan hasil analisis terhadap algoritma dapat disimpulkan bahwa terdapat kelemahan yang mendasar pad algoritma ini, yaitu masih diperlukannnya batasan minimum support untuk diinisialisasikan oleh pengguna. Padahal seperti yang telah disampaikan pada bagian pendahuluan, penentuan minimum support yang tidak tepat oleh pengguna akan mengakibatkan kesalahan dalam menentukan itemset (Wang dkk, 2005). Aspek Kebaruan Penelitian Berdasarkan dari permasalahan yang telah diuraikan, maka diperlukan sebuah algoritma yang dapat melakukan penggalian terhadap top-k frequent closed constrained gradient itemset tanpa inisialisasi batasan minimum support. Untuk itu pada penelitian ini akan dilakukan pengembangan terhadap algoritma TFP sehingga dapat penggalian Top-K Closed Frequent Contrained Gradient Itemsets pada basis data retail yang memiliki karakteristik : a. Tabel global header yang dapat menyimpan perhitungan rata-rata measure. Untuk memenuhi hal ini, maka tabel global header perlu dimodifikasi. b. Tidak memerlukan inisialisasi minimum support. Untuk keperluan ini dapat menggunakan close node count array dan descendant sum pada algoritma TFP untuk melakukan pembangkitan minimum support secara dinamis seperti yang telah diuraikan pada sub bab 2.1. c. Hasil dari algoritma TFP perlu dimodifikasi agar dapat menyimpan hasil penggalian k frequent closed constrain gradient itemset dengan rata-rata measure dan count yang tertinggi. Dengan memperhatikan 3 hal tersebut diatas diharapkan hasil penggalian top-k frequent closed constrain gradient itemset pada basis data retail akan lebih baik karena tidak lagi memerlukan inisialisasi minimum support. Selain itu algoritma yang akan dikembangkan nanti juga menghasilkan k frequent closed itemset dengan nilai rata-rata measure dan count yang tertinggi. Dalam sub bab berikut ini dijelaskan konsep modifikasi tabel global header yang didalamnya terdapat perhitungan rata-rata measure, penjelasan singkat tentang perhitungan pembangkitan minimum support dan penjelasan modifikasi hasil dari algoritma TFP agar dapat menghasilkan top-k frequent closed constrain gradient itemset. Hal-hal ini merupakan kontribusi dari penelitian yang dilakukan. Pembentukan Modifikasi Tabel Global Header Pada algoritma yang dikembangkan, tabel global header perlu dimodifikasi agar dapat menyimpan perhitungan rata-rata measure. Pemangkasan gradient akan dilakukan berdasarkan rata-rata measure dari sebuah item yang dihitung dengan melibatkan seluruh transaksi yang mengandung item tersebut. Ide dasar dari perhitungan rata-rata measure pada saat pembentukan modifikasi tabel global header adalah sebagai berikut, untuk m buah node dengan label I, rata-rata measure dari I yang disimbolkan sebagai avg(i), merupakan jumlah dari seluruh perkalian antara measure dari sebuah transaksi yang mengadung I dengan jumlah item pada transaksi tersebut, dibagi dengan jumlah item yang terlibat dalam semua transaksi yang mengandung I dalam sebuah basis data retail. Secara matematis perhitungan ratarata mesaure ini dituliskan seperti pada persamaan 1. avg( I) j i 1 measure( I, t ) * length( t ) j i 1 i length( t ) i i...(1) C-19-4

Keterangan : I : sebuah item pada basis data retail i : penghitung transaksi yang mengandung item I j : jumlah transaksi yang mengandung I pada basis data retail measure(i,ti) : measure item I pada transaksi ke i length(ti) : panjang transaksi ke i Dengan mengacu pada batasan yang harus dipenuhi oleh algoritma TFP, maka transaksi yang terlibat disini adalah transaksi yang memiliki panjang min_l saja. Sementara I sendiri memiliki support >= minimum support yang berlaku pada saat perhitungan tersebut dilakukan. Tabel 1. Projected Database on e Sumber : Wang, 2006 Untuk lebih memperjelas pengembangan metode ini, diambil sebuah contoh kasus untuk dapat menentukan rata-rata measure dari itemset pada Tabel 1. Beberapa langkah yang harus dilakukan untuk keperluan ini adalah : a. Melakukan pembacaan satu kali terhadap basis data untuk mengetahui panjang transaksi pada sebuah id transaksi tertentu dan menambahkan kolom panjang transaksi pada basis data retail. Maka untuk contoh kasus dengan mengacu pada Tabel 1, setelah melakukan pembacaan, maka ada informasi baru yang muncul dalam bentuk kolom baru pada Tabel 1, sehingga tabelnya akan menjadi seperti Tabel 2. b. Membentuk modifikasi tabel global header. Berbeda dengan tabel global header pada algoritma FCCGM yang menyimpan informasi id item, support serta jumlah measure untuk id item tersebut sebagaimana dijelaskan pada artikel Wang, dkk (Wang, dkk,2006) dan tabel global header pada algoritma TFP yang terdiri dari Id Item, support dan l-count (Wang, dkk, 2005), maka tabel global header pada algoritma ini informasi yang disimpan untuk masing-masing itemnya adalah : id item, support, average measure per item (avg(i)). Id item adalah id dari sebuah item. Support adalah frekuensi kemunculan sebuah item pada basis data. Average measure item I (avg(i)) adalah average measure dari transaksi I..Berdasarkan basis data retail pada Tabel 2 maka dapat dibentuk tabel global header yang digambarkan dalam Tabel 3. Tabel 2. Projected Database One e dengan Kolom Panjang Transaksi TID Set of Items Ordered Set of Items Measure 10 a,c,f,m,p f,c,a,m,p 25 20 a,c,d,f,m,p f,c,a,m,p,d 39 30 a,b,c,f,g,m f,c,a,b,m,g 50 40 b,f,i f,b,i 26 50 b,c,n,p c,b,p,n 45 C-19-5

Tabel 3. Tabel Global Header f C a b m p 4 4 3 3 3 3 36.64 40.27 38.92 42.33 38.92 36.53 Jika diketahui batasan gradientnya adalah 40, maka hanya item c dan b saja yang dapat melewati batasan gradient. Item f,a,m,p yang kemudian disebut non gradient item dapat dipangkas dari tabel global header. FP-Tree kemudian dibentuk dari transaksi-transaksi yang terdiri dari item-item yang memenuhi batasan gradient. Menghilangkan Minimum Support Sebagai Batasan yang harus Diinisialisaikan Metode pembangkitan minimum support pada algoritma TFP dapat digunakan untuk keperluan ini, sebagaimana yang telah dijelaskan pada sub bab 2.1. Minimum support diinisialisasikan dengan nilai 0 untuk pertama kali dan akan dibangkitkan secara dinamis selama proses pembangunan FP-Tree, yaitu pada saat melakukan penyisipan transaksi pada FP-Tree dengan menggunakan perhitungan close node count. Minimum support kembali dilakukan setelah FP-Tree telah selesai terbentu dengan perhitungan descendant sum. Pemangkasan FP-Tree dilakukan tepat setelah sebuah minimum support dibangkitkan oleh masing-masing perhitungan dengan cara memangkas item pada tabel global header yang memiliki support<minimum support beserta simpulsimpul yang bersesuaian pada FP-Tree. Untuk lebih jelasnya, pembaca dapat mengacu pada artikel asli dari algoritma TFP ini. Modifikasi Hasil Akhir Dalam penjelasan sebelumnya, Algoritma TFP hanya dapat menghasilkan top-k frequent closed itemset. Top-k frequent closed itemset adalah k frequent closed itemset dengan nilai count tertinggi. Oleh karena itu, hasil dari algoritma ini perlu dimodifikasi agar dapat menghasilkan k frequent closed itemset yang memenuhi batasan gradient dengan nilai rata-rata measure dan count tertinggi atau disebut dengan top-k frequent closed constraint gradient itemset (top -k fccgi). Rata-rata measure dijadikan dasar penentuan top-k yang pertama sebelum kemudian diikuti nilai count dikarenakan dalam dunia bisnis, apapun dan berapapun kombinasi itemset bisa jadi tidak akan menjadi masalah, selama itemset tersebut dapat memberikan keuntungan sebesar mungkin bagi perusahaan. Hal ini dapat dijadikan salah satu pertimbangan dalam mengambil keputusan bisnis. Ide yang digunakan untuk memodifikasi hasil ini adalah, setelah melakukan pemangkasan gradient maka proses selanjutnya adalah melakukan penggalian frequent closed itemset. Hasil penggalian ini kemudian ditampung dalam sebuah array dan kemudian diurutkan berdasarkan rata-rata measure diikuti oleh count. Kemudian ditampilkan k pertama dari isi array tersebut, yaitu frequent closed constrain gradient itemset dengan panjang transaksi > min_l. Rancangan Algoritma Algoritma ini merupakan pengembangan algoritma TFP dan dijelaskan lewat diagram alir pada Gambar 1. Beberapa bagian dari algoritma TFP yang dimodifikasi adalah pada pembentukan tabel global header, penambahan langkah pemangkasan gradient sebelum proses penggalian dilakukan serta serta modifikasi pengurutan hasil akhir yang terdapat pada notasi diagram alir berwarna kuning. Karena tidak ada perubahan apapun yang dilakukan pada algoritma Mine_Cond_FPTree, maka penjelasan tentang hal ini dapat langsung merujuk pada referensi asal, yaitu pada artikel tentang algoritma TFP yang dituliskan oleh Wang, dkk pada tahun 2005. C-19-6

UJI COBA DAN ANALISIS HASIL Lingkungan perangkat lunak yang digunakan untuk uji coba dalam penelitian ini menggunakan Sistem Operasi Microsoft Windows Xpdengan bahasa pemrograman menggunakan Borland Delphi 5.0 Lingkungan perangkat keras yang digunakan adalah komputer dengan spesifikasi processor menggunakan Intel Core 2 Duo, kapasitas memori DDR2 1 GB dan Harddisk 80 GB. Pengukuran kinerja dari algoritma yang dikembangkan dilakukan dengan menggunakan sebuah skenario. Skenario ini bertujuan untuk melihat pengaruh nilai min_l dan k terhadap kinerja algoritma yang diukur lewat lama waktu penyelesaian masing-masing proses dan keseluruhan proses. Skenario ini diuji dengan menggunakan 3 buah dataset besar yang bersifat jarang dan dijelaskan pada Tabel 4 dibawah ini. Tabel 4. Karakteristik Dataset Nama Dataset Jumlah Item Jumlah Record Mushroom 120 8124 T10I4D100K 1000 100000 Gazelle 497 59601 Gambar 1. Diagram Alir Pengembangan Algoritma Top-K Frequent Closed Itemset dengan Batasan Gradient C-19-7

Berdasarkan hasil uji coba pada beberapa dataset, secara umum dapat disimpulkan beberapa hal. Tabel 5 dan Tabel 6 menunjukkan rekap dari ketiga hasil uji coba tersebut. Tanda panah keatas ( ) menunjukkan adanya kecenderungan hasil uji coba meningkat dan tanda panah kebawah ( ) menunjukkan adanya kecenderungan hasil uji coba menurun. Tabel 5. Rekap Hasil Uji Coba Min_L=10 Mushroom T10I4D100K Gazelle Kesimpulan K - MinSup Level pencarian Minimum support turun Waktu Penggalian Jumlah Transaksi Minimum support turun pemangkasan sedikit FPTree besar waktu penggalian naik Tetap Tetap Minimum support turun semakin banyak transaksi yang bisa disisipkan ke FP-Tree Tabel 6. Rekap Hasil Uji Coba K=10 Mushroom T10I4D100K Gazelle Kesimpulan Min_L - MinSup Anchor Node semakin rendah Minimum support semakin kecil Waktu Penggalian Jumlah Transaksi (a) (b) Minimum support turun pemangkasan sedikit FPTree besar waktu penggalian naik Tetap Tetap Min_L semakin besar semakin sedikit jumlah transaksi terlibat Dari Tabel 5 dan Tabel 6 dapat dilihat, untuk beberapa hal ada kesimpulan yang menyimpang atau terlalu drastis perubahannya. Hal ini dijelaskan sebagai berikut : a. Minimum support akan mengalami penurunan baik ketika nilai k ataupun min_l dinaikan. b. Waktu penggalian dataset T10I4D100K menyimpang dari kesimpulan dikarenakan jumlah transaksi yang terlibat turun cukup signifikan. Hal ini mengakibatkan waktu penggaliannya pun turun, bukan naik. c. Waktu penggalian dataset Gazelle tidak menyimpang dari kesimpulan tetapi kenaikan yang terjadi cukup drastis, hal ini dikarenakan kedalaman FP-Tree cukup dalam karena panjang transaksi yang terlibat cukup panjang. Hal ini mengakibatkan waktu penggaliannya naik cukup drastis. Berdasarkan kedua hal tersebut didapatkan sebuah kesimpulan baru, bahwa waktu proses penggalian juga akan bergantung pada dua hal, yaitu : 1. Jumlah transaksi yang terlibat. 2. Kedalaman FP-Tree. Pada Gambar 2 dan Gambar 3 berikut diperlihatkan grafik yang dapat menunjukkan perbandingan waktu proses dari ketiga dataset besar yang digunakan. C-19-8

Kesimpulan yang dapat ditarik dari grafik tersebut adalah lama waktu proses program yang dikembangkan akan stabil pada saat menggunakan dataset dengan FP-Tree yang memiliki panjang transaksi yang perbedaannya tidak besar, sesuai seperti karakteristik yang dimiliki dataset Mushroom maupun T10I4D100K. Perbandingan Lama Total Waktu Proses di Min_L=10 Total Waktu Proses (Detik) 4000 3500 3000 2500 2000 1500 1000 500 0 2 4 6 8 10 12 14 20 K Mushroom Gazelle T10I4D100K Gambar 2. Grafik Perbandingan Total Waktu Proses di Min_L = 10 Perbandingan Lama Total Waktu Proses di K=10 Total Waktu Proses (Detik) 4000 3500 3000 2500 2000 1500 1000 500 0 2 4 6 8 10 12 14 20 Min_L KESIMPULAN Mushroom Gazelle T10I4D100K Gambar 3. Grafik Perbandingan Total Waktu Proses di K = 10 Berdasarkan hasil uji coba yang dilakukan dapat disimpulkan beberapa hal sebagai berikut : 1. Dalam penelitian ini telah berhasil dikembangkan algoritma untuk melakukan penggalian k frequent closed itemset dengan nilai gradient dan support tertinggi tanpa batasan minimum support pada satu set transaksi dalam sebuah basis data retail. Algoritma yang menggunakan pendekatan pembentukan itemset dengan menggunakan struktur data frequent pattern tree (FP-Tree) dan telah berhasil diimplementasikan memungkinkan seorang pengguna, khususnya manajemen retail, untuk mendapatkan k frequent closed itemset tertinggi berdasarkan nilai gradient dan support. Itemset yang didapatkan dapat dimanfaatkan oleh manajemen retail untuk melihat pola kecenderungan kebutuhan pelanggan, yang pada gilirannya akan dapat membantu manajemen dalam proses pengambilan keputusan bisnis. 2. Agar algoritma yang dikembangkan dapat digunakan secara nyata, waktu proses untuk melakukan penggalian frequent closed itemset menjadi penting agar pengguna dapat melakukan analisis secara interaktif untuk mendapatkan k frequent closed itemset tertinggi berdasarkan nilai gradient dan support. Untuk ini, hasil uji coba C-19-9

menunjukkan bahwa total waktu komputasi dari proses untuk memperoleh itemset dimaksud bergantung pada kedalaman FP-Tree yang terbentuk dari transaksi yang dianalisis. Semakin dalam FP-Tree yang terbentuk, maka semakin besar waktu komputasi yang diperlukan untuk melakukan proses penggalian. DAFTAR PUSTAKA Han, J., Wang, J., Yiwen, Y. (2001), Mining Frequent Pattern without Candidate Generation: A Frequent Pattern-Tree Approach, Data Mining and Knowledge Discovery, Kluwer Academic Publisher, Netherland, hal. 53-87. Han, J., Wang, J., Yiwen, Y, Tzevetkov, P. (2002), Mining Top -K Frequent Closed Patterns Without Minimum Support, Proceedings of the 2002 IEEE International Conference on Data Mining (ICDM'02), Washington, D.C., USA, hal. 211-218 Hirate, Y., Iwahashi, E., Yamana, H. (2004), TF2P-growth: An Efficient Algorithm for Mining Frequent Patterns without any Thresholds, Proceeding of IEEE ICDM'04 Workshop on Alternative Techniques for Data Mining and Knowledge Discoverey, Brighton,UK Lam, J. (1997), Multi Dimensional Constraint Gradient Mining, Thesis, Simon Fraser University, Canada Pei, J., Han, J., Mao, R.(2000), CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets. Proceedings of the 2000 ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, Dallas, Texas. Tan, P., Steinbach, M., Kumar, V.(2006), Introduction to Data Mining, Pearson Education, Boston. Wang, J., Han, J., Pei J. (2003), CLOSET+: Searching for Best Strategies for Mining Frequent Closed Itemset, Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'03), Washington, D.C., USA, hal. 236-345. Wang, J., Han, J., Lu, Y, Tzevetkov, P. (2005), Mining Top-K Frequent Closed Patterns Without Minimum Support, IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No.5, hal. 652-664 Wang, J., Han, J., Pei. J. (2006), Closed Constraint Gradient Mining in Retail Database, IEEE Transaction on Knowledge and Data Engineering, Vol. 18, No. 6, hal. 764-769 C-19-10