PENGEMBANGAN ALGORTIMA APRIORI UNTUK PENGAMBILAN KEPUTUSAN TEKNIK INFORMATIKA TESIS LISMARDIANA SEMBIRING NIM: 137038025 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2015
Telah diuji pada Tanggal : 27 Agustus 2015 PANITIA PENGUJI TESIS Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Herman Mawengkang 2. Dr. Erna Budhiarti Nababan, M.IT 3. Prof Dr. Muhammad Zarlis 4. Dr. Syahril, M.IT
RIWAYAT HIDUP DATA PRIBADI Nama Lengkap : Lismardiana Sembiring Tempat dan Tanggal Lahir : Lau Timah, 03 Oktober 1978 Alamat Rumah : Jl. Budi Luhur No. 6 Medan - Helvetia Telepon /Fax/HP : 081265429392 E-mail : kade_kadenta@yahoo.com Instansi Bekerja : AMIKOM Medan Alamat : Jl. Iskandar Muda No. 43-49 Medan DATA PENDIDIKAN SD : Negeri Desa Gunung Tinggi TAMAT : 1991 SLTP : Negeri-1 Pancurbatu TAMAT : 1994 SLTA : Swasta Rakyat Sei-Glugur TAMAT : 1997 S1 : STT- Harapan Medan TAMAT : 2006 S2 : Teknik Informatika USU TAMAT : 2015
UCAPAN TERIMA KASIH Puji syukur kepada Tuhan Yang Maha Esa, atas segala limpahan berkat dan penyertaan-nya sehingga tesis ini dapat diselesaikan tepat pada waktunya. Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesarbesarnya kepada : 1. Pejabat Rektor Universitas Sumatera Utara, Prof. Subhilhar, Ph.D atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister. 2. Dekan Fasilkom-TI (Fakultas Ilmu Komputer dan Teknologi Informasi) Universitas Sumatera Utara Prof. Dr. Muhammad Zarlis, atas kesempatan yang diberikan kepada penulis menjadi mahasiswa Program Magister pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara. 3. Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr. Muhammad Zarlis dan Sekretaris Program Studi Magister (S2) Teknik Informatika M. Andri Budiman, S.T, M.Comp, M.E.M beserta seluruh staff pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara, yang telah bersedia membimbing penulis sehingga dapat menyelesaikan pendidikan tepat pada waktunya. 4. Prof. Dr. Herman Mawengkang selaku pembimbing utama dan kepada Dr. Erna Budhiarti Nababan, M.IT selaku pembimbing kedua yang dengan penuh kesabaran menuntun serta membimbing penulis hingga selesainya tesis ini dengan baik. 5. Prof. Dr. Muhammad Zarlis selaku Penguji pertama, Dr. Syahril Efendi selaku Penguji kedua, yang telah memberikan saran dan motivasi serta arahan yang baik demi penyelesaian tesis ini. 6. Universitas Sumatera Utara, Staf Pegawai dan Administrasi pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan terbaik kapada penulis selama mengikuti perkuliahan. 7. Keluarga penulis. Bapakku Alm. Daulat Sembiring, A.MA / mamaku Alm. Rasmi br Sitepu, Mertuaku Ir. Handel Bukit / Alm. Paulina Br Ginting, Suamiku
ABSTRAK Algoritma Apriori salah satu algoritma data mining dalam pembentukan asosiasi rule mining. Algoritma apriori adalah proses ekstraksi informasi dari suatu database, dilanjutkan dengan melakukan frequent item/itemset dan candidate generation dalam pembentukan asosiasi rule mining guna mendapatkan hasil nilai minimum support dan nilai minimum confidence. Pada database yang cukup besar, algoritma apriori banyak menghasilkan pattern frequent item/itemset (pola sering muncul suatu item/itemset) yang banyak, karena harus melakukan candidate generation serta merekam database secara berulang-ulang. Penelitian ini membahas tentang frequent item/itemset pada algoritma apriori dengan menghasilkan frequent yang sedikit, tanpa melakukan candidate generation dan meminimalkan tahapan penyelesaian yang dimulai pada k-1 item atau tahapan pertama pada algoritma apriori selanjutnya digunakan dengan metode FP-Growth. Dari hasil penelitian yang dilakukan dengan menggunakan FP- Growth sangat signifikan dengan algoritma apriori, efesien dari segi waktu, tahap penyelesaian lebih cepat, sedikit menghasilkan pattern frequent item/itemset dan lebih terperinci dalam memaparkan hasil frequent item karena hasil frequent yang bernilai < 1 masih diperlihatkan, tidak di hapus. Kata Kunci : Algoritama Apriori, FP-Growth, AsosiasiRuleMining, Frequent Item/itemset
THE DEVELOPMENT APRIORI ALGORITHM FOR DECISION-MAKING ABSTRACT Apriori algorithm is one of data mining algorithms in the formation of the association rule mining.priori algorithm is the process of extracting information from a database, followed by frequent item / itemset and candidate generation in the formation of the association rule mining in order to get the value of minimum support and minimum confidence value. In the database is large enough, the algorithm generates a priori many frequent pattern item / itemset (pattern often appears in an item / itemsets) that much, because they have to perform and record database generation candidate repeatedly. This study discusses the frequent item / itemset the a priori algorithm to produce a slightly frequent, without candidate generation and minimize the completion stages beginning on k-1 item or the first stage in the a priori algorithm is then used by the method FP- Growth. From the results of research conducted by using FP-Growth is very significant with a priori algorithm, efficient in terms of time, the stage of completion faster, produce less frequent pattern item / itemset and more detailed in describing the results of frequent item as a result of frequent-value <1 is shown, not in the clear. Keywords: Algoritama Apriori,FP-Growth,AssociationRuleMining,FrequentItem itemsets
DAFTAR ISI Hal. HALAMAN JUDUL PERSETUJUAN PERNYATAAN DAFTAR RIYAWAT HIDUP UCAPAN TERIMA KASIH ABSTRAK.... i ABSTRACT... ii DAFTAR ISI... iii DAFTAR TABEL... v DAFTAR GAMBAR... viii BAB I PENDAHULUAN... 1 1.1 Latar Belakang Masalah... 1 1.2 Rumusan Masalah... 4 1.3 Batasan Masalah... 4 1.4 Tujuan Penelitian... 4 1.5 Manfaat Penelitian... 4 BAB II TINJAUAN PUSTAKA... 5 2.1 Data Mining... 5 2.2 Algoritma Apriori... 7 2.2.1 Analisis Asosiasi Rule Mining... 7 2.3 FP-Growth... 8 2.4 Grafik Mining... 13 BAB III METODEOLOGI PENELITIAN... 15 3.1 Pendahuluan... 15 3.2 Data Yang Digunakan... 15 3.3 Rancangan Penelitian... 15 3.4 Uji Coba Training Dataset TransactionID_Sales... 16 3.5 Training Dataset TransactionID_Sales dengan FP_Growth... 25 3.6 Hasil Analisis Apriori dan FP_Growth... 27
BAB IV HASIL DAN PEMBAHASAN... 28 4.1 Pendahuluan... 28 4.2 Cleaning Database TransactionID_sales250 records... 28 4.3 Penelitian TransactionID_salesdataset500 records Menggunakan Apriori... 46 4.4 TransactionID_salesdataset1000 records Menggunakan Apriori... 49 4.5 Hasil Penelitian TransactionID_salesdataset500 records Menggunakan Apriori + FP-Growth... 68 4.6 Hasil Penelitian TransactionID_salesdataset1000 records Menggunakan Apriori + FP-Growth... 70 BAB V KESIMPULAN DAN SARAN... 75 5.1 Kesimpulan... 75 5.2 Saran... 75 DAFTAR PUSTAKA LAMPIRAN
DAFTAR TABEL Hal. TABEL 2.1 Conditional Pattern Base 13 TABEL 2.2 Algoritma Apriori dengan FP_Growth 14 TABEL 3.1 TransactionID_Sales 16 TABEL 3.2 K1-Item Set 17 TABEL 3.3 K2-Itemset 17 TABEL 3.4 K2-Itemset(lanjutan) 18 TABEL 3.5 K2-Ite mset(lanjutan) 19 TABEL 3.6 K3-Itemset 19 TABEL 3.7 K3-Itemset(lanjutan) 20 TABEL 3.8 K4-Itemset 21 TABEL 3.9 K4-Itemset(lanjutan) 22 TABEL 3.10 K5-Itemset 22 TABEL 3.11 K5-Itemset(lanjutan) 23 TABEL 3.12 Asosiasi Rule Mining 23 TABEL 3.13 Asosiasi Rule Mining(lanjutan) 24 TABEL 3.14 TID_Sales Ordered 25 TABEL 3.15 K1-Item 25 TABEL 3.16 Conditional Pattern Base FP-Tree 27 TABEL 3.17 Hasil Uji Cob 27 TABEL 4.1 Data Spesifikasi Untuk Penelitian 28 TABEL 4.2 Data Processing TID_sales City Dataset 250 records 28 TABEL 4.3 Data Processing TID_sales City Dataset 250 records(lanjutan) 29 TABEL 4.4 Data Processing TID_sales State Dataset 250 records 29 TABEL 4.5 Data Processing TID_sales State Dataset 500 records(lanjutan) 30 TABEL 4.6 Data Processing TID_sales Country Dataset 500 records 30 TABEL 4.7 Data Processing TID_sales City Dataset 500 records 31 TABEL 4.8 Data Processing TID_sales City Dataset 500 records(lanjutan) 32 TABEL 4.9 Data Processing TID_sales State Dataset 500 records 32
TABEL 4.10 Data Processing TID_sales State Dataset 500 records(lanjutan) 33 TABEL 4.11 Data Processing TID_sales Country Dataset 500 records 34 TABEL 4.12 Data Processing TID_sales City Dataset 750 records 35 TABEL 4.13 Data Processing TID_sales City Dataset 750 records(lanjutan) 36 TABEL 4.14 Data Processing TID_sales State Dataset 750 records 37 TABEL 4.15 Data Processing TID_sales State Dataset 750 records(lanjutan-1) 38 TABEL 4.16 Data Processing TID_sales State Dataset 750 records(lanjutan-2) 38 TABEL 4.17 Data Processing TID_sales Country Dataset 750 records 38 TABEL 4.18 Data Processing TID_sales Country Dataset 750 records(lanjutan) 39 TABEL 4.19 Data Processing TID_sales City Dataset 1000 records 40 TABEL 4.20 Data Processing TID_sales City Dataset 1000 records(lanjutan-1) 41 TABEL 4.21 Data Processing TID_sales City Dataset 1000 records(lanjutan-2) 42 TABEL 4.22 Data Processing TID_sales state Dataset 1000 records 42 TABEL 4.23 Data Processing TID_sales state Dataset 1000 records(lanjutan-1) 43 TABEL 4.24 Data Processing TID_sales state Dataset 1000 records(lanjutan-2) 44 TABEL 4.25 Data Processing TID_sales state Dataset 1000 records(lanjutan-3) 45 TABEL 4.26 Data Processing TID_sales Country Dataset 1000 records 45 TABEL 4.27 Data Processing TID_sales Country Dataset 1000 records(lanjutan) 46 TABEL 4.28 TransactionID_sales dataset500 records 46 TABEL 4.29 K1-Frequent Item dataset 500 records 47 TABEL 4.30 K2-Frequent Item dataset 500 records 47 TABEL 4.31 K2-Frequent Item dataset 500 records(lanjutan) 48 TABEL 4.32 K3-Frequent Item dataset 500 records 48 TABEL 4.33 K4-Frequent Item dataset 500 records 48 TABEL 4.34 Asosiasi Rule Mining 49 TABEL 4.35 TransactionID_sales dataset1000 records 49 TABEL 4.36 K1-Frequent Item dataset 1000 records 50 TABEL 4.37 K2-Frequent Itemset dataset 1000 records 50 TABEL 4.38 K2-Frequent Itemset dataset 1000 records(lanjutan-1) 51 TABEL 4.39 K2-Frequent Itemset dataset 1000 records(lanjutan-2) 52 TABEL 4.40 K2-Frequent Item dataset 500 records(lanjutan-3) 53 TABEL 4.41 K3-Frequent Item dataset 1000 records 53 TABEL 4.42 K3-Frequent Item dataset 1000 records(lanjutan-1) 54
TABEL 4.43 K3-Frequent Itemse dataset 1000 records(lanjutan-2) 54 TABEL 4.44 K4-Frequent Itemset dataset 1000 records 55 TABEL 4.45 K4-Frequent Item dataset 1000 records(lanjutan) 56 TABEL 4.46 K5-Frequent Itemset dataset 1000 records 57 TABEL 4.47 K5-Frequent Itemset dataset 1000 records(lanjutan) 58 TABEL 4.48 K6-Frequent Item dataset 1000 records 58 TABEL 4.49 K6-Frequent Item dataset 1000 records(lanjutan) 59 TABEL 4.50 Asosiasi Rule Mining dataset 1000 records 60 TABEL 4.51 Asosiasi Rule Mining dataset 1000 records(lanjutan) 61 TABEL 4.52 Keterangan City Simbol A 61 TABEL 4.53 Keterangan City Simbol A(lanjutan-1) 62 TABEL 4.54 Keterangan City Simbol A(lanjutan-2) 63 TABEL 4.55 Keterangan State Simbol B 63 TABEL 4.56 Keterangan State Simbol B(lanjutan-1) 64 TABEL 4.57 Keterangan State Simbol B(lanjutan-2) 65 TABEL 4.58 Keterangan State Simbol B(lanjutan-3) 66 TABEL 4.59 Keterangan Country Simbol C 66 TABEL 4.60 Keterangan Country Simbol C(lanjutan) 67 TABEL 4.61 TID_Ordered FP_Tree dataset 500 records 68 TABEL 4.62 K-1 Item dataset 500 records 68 TABEL 4.63 Conditional Pattern Base dataset 500 69 TABEL 4.64 TransactionID_sales dataset 1000 records 70 TABEL 4.65 TID.Ordered dataset 1000 records 70 TABEL 4.66 K1- Frequent Item 70 TABEL 4.67 K1- Frequent Item(lanjutan) 71 TABEL 4.68 Conditional Pattern Base FP_tree dataset 1000 records 73 TABEL 4.69 Penyelesaian Dataset 500 records 73 TABEL 4.70 Penyelesaian Dataset 500 records 74
DAFTAR GAMBAR Hal. GAMBAR 1.1 Proses Iterasi Asosiasi Rule pada algoritma Apriori 3 GAMBAR 2.1 Proses Algoritma Apriori 8 GAMBAR 2.2 Generasi Proses Frequent Item/Itemset 9 GAMBAR 2.3 Proses FP_Growth 11 GAMBAR 2.4 Deskripsi FP_Growth 12 GAMBAR 3.1 Rancangan Penelitian 16 GAMBAR 3.2 FP-Tree 26 GAMBAR 4.1 FP-Tree Dataset500 69 GAMBAR 4.2 FP-Tree Dataset1000 72 GAMBAR 4.3 Hasil Penelitian Dataset 500 records 73 GAMBAR 4.4 Hasil Penelitian Dataset 1000 records 74