Budi Susanto ASSOCIATION RULES PADA TEXT MINING SUSANTO 1
Tujuan Memahami algoritma Apriori dan FP- Growth Memahami penerapannya pada penambangan dokumen Memamahmi algoritma GSP Memahami penerapannya pada penambangan dokumen SUSANTO 2
Pendahuluan Analisis aturan asosiasi merupakan tugas dasar pada data mining. Tujuannya: Menemukan hubungan kemunculan bersamaan (asosiasi) diantara item-item data. Aplikasi klasik yang menggunakan metode ini adalah market basket data analysis. Tujuannya: menemukan bagaimana item-item barang yang dibeli oleh pelanggan diasosiasikan. SUSANTO 3
Pendahuluan Contoh: Sabun Mandi è Pasta Gigi [support: 40%, confidence = 80%] 40% pelanggan membeli Sabun Mandi dan Pasta Gigi bersamaan 80% pelanggan membeli Sabun Mandi juga membeli Pasta Gigi. Dalam text mining, association rules dapat digunakan untuk menemukan hubungan kemunculan kata. SUSANTO 4
Konsep Dasar Association Rules I = { i,i,...,i } 1 2 m Himpunan item T = { t,t,...,t } Himpunan transaksi 1 2 n T i adalah himpunan item dimana t i I Bentuk implikasi pada association rules: X è Y, dimana X I,Y I, X Y = 0 SUSANTO 5
Ukuran Support Seberapa sering aturan yang dihasilkan berlaku pada himpunan transaksi T. Confidence Dilihat sebagai probabilitas kondisional terhadap aturan. Aturan yang terpilih adalah aturan yang memenuhi minimum support dan minimum confidence SUSANTO 6
Contoh Terdapat himpunan transaksi I: Chicken, Clothes Milk [sup = 3/7, conf = 3/3] Clothes Milk, Chicken [sup = 3/7, conf = 3/3] SUSANTO 7
Algoritma Apriori Terdapat dua tahap utama: Hasilkan semua frequent itemsets (itemset yang memiliki support > minsupport) Hasilkan semua aturan asosiasi dari frequent itemsets (confident > minconfident) Jumat item dalam sebuah itemset ditentukan, k. SUSANTO 8
Apriori: pembentukan itemset Apriori menganut prinsip downward closure property Jika sebuah itemset memiliki support minimum, maka setiap subset non-empty dari itemset tersebut juga memiliki support minimum. Item-item dalam I, sudah dalam keadaan terurutkan secara lexicographic order. SUSANTO 9
Algoritma Apriori SUSANTO 10
Algoritma Apriori: pembentukan kandidat itemset SUSANTO 11
Contoh: Data TID Item-item 001 1,2,3,5 002 2,3,4 003 2,3,6 004 1,2,4 005 1,3,4,5 006 2,3,5 007 1,3 008 1,2,3,5 009 1,2,3 010 1,2,3,4,5 Min Support: 40%, dan Min Confident: 60% SUSANTO 12
Algoritma: pembentukan rule SUSANTO 13
Contoh Pembentukan Rule Candidate Rule 1: Rule1: {1,2} è {3} Support: 4/10 Confident: 4/5 Rule 2: {1,3} è {2} Support: 4/10 Confident: 4/6 Rule 3: {2,3} è {1} Support: 4/10 Confident: 4/7 H1 = {{2}, {3}}, sehingga H2 = {2,3} Rule 4: {1} è {2,3} Support: 4/10 Confident: 4/7 SUSANTO 14
FP-Tree Menghasilkan frequent items tanpa perlu membuat kandidat-kandidatnya. Kepadatan struktur tinggi Tidak perlu melakukan penelurusan database keseluruhan setiap saat SUSANTO 15
FP-Tree: Algoritma SUSANTO 16
Contoh SUSANTO 17
Contoh Item Support Count 3 9 2 8 1 7 5 5 4 4 6 1 SUSANTO 18
Asosiasi untuk Kategori Metode asosiasi, seperti Apriori dan FP- Tree, tidak memiliki sasaran pada klausa consequent. Klausa consequent ditentukan juga dari itemset dalam transaksi. Jika asosiasi dilakukan terhadap suatu consequent dengan target tertentu, Y, maka metode yang digunakan disebut sebagai class association rules. SUSANTO 19
Asosiasi untuk Kategori T adalah himpunan transaksi sebanyak n. Setiap transaksi diberi label y. I adalah himpunan semua item dalam T, dan Y adalah himpunan label class (target) dan I Y =θ. Sebuah Class Association rule (CAR) adalah bentuk implikasi dari X y, X I, y Y SUSANTO 20
Contoh I = {Student, Teach, School, City, Game, Baseball, Basketball, Team, Coach, Player, Spectator} Y = {Education, Sport}. SUSANTO 21
Contoh Misal minsup = 20% dan minconf = 60%, maka: Student, School Education [sup= 2/7, conf = 2/2] Game Sport [sup= 2/7, conf = 2/3] SUSANTO 22
Pembangkit Rule SUSANTO 23
Contoh CAR F 1 : {({School}, Education):(3, 3), ({Student}, Education):(2, 2), ({Teach}, Education):(2, 2), ({Baseball}, Sport):(2, 2), ({Basketball}, Sport):(3, 3), ({Game}, Sport):(3, 2), ({Team}, Sport):(2, 2)} CAR 1 : School Education [sup = 3/7, conf = 3/3] Student Education [sup = 2/7, conf = 2/2] Teach Education [sup = 2/7, conf = 2/2] Baseball Sport [sup = 2/7, conf = 2/2] Basketball Sport [sup = 3/7, conf = 3/3] Game Sport [sup = 2/7, conf = 2/3] Team Sport [sup = 2/7, conf = 2/2] SUSANTO 24
Contoh CAR C 2 : { ({School, Student}, Education), ({School, Teach}, Education), ({Student, Teach}, Education), ({Baseball, Basketball}, Sport), ({Baseball, Game}, Sport), ({Baseball, Team}, Sport), ({Basketball, Game}, Sport), ({Basketball, Team}, Sport), ({Game, Team}, Sport) } SUSANTO 25
Contoh CAR F 2 : { ({School, Student}, Education):(2, 2), ({School, Teach}, Education):(2, 2), ({Game, Team}, Sport):(2, 2) } CAR 2 : School, Student Education [sup = 2/7, conf = 2/2] School, Teach Education [sup = 2/7, conf = 2/2] Game, Team Sport [sup = 2/7, conf = 2/2] SUSANTO 26
Konsep Sequence Pattern Association Rule tidak memperhatikan urutan dari transaksi. I = {i 1, i 2,..., i m } adalah himpunan item Sebuah sequence adalah daftar urutan dari itemset. X I, dimana X adalah itemset. s = a 1 a 2...a r, a i adalah sebuah itemset. a i = {x 1, x 2,..., x k }, dimana x j I adalah item. Sebuah item hanya dapat muncul sekali dalam suatu sequence. Ukuran suatu sequence adalah jumlah itemset dalam sequence Panjang suatu sequence adalah jumlah item dalam suquence. k-sequence adalah sequence dengan panjang k. SUSANTO 27
Konsep Sequence Pattern s 1 = a 1 a 2...a r adalah sebuah subsequence s 2 = b 1 b 2...b v, atau s 2 adalah supersequence dari s 1, jika terdapat integer 1 j 1 <j 2 <...<j r- 1 <j r v sehinga a 1 b j, a 2 b j,..., a r b jr. Kita juga mengatakan s 2 berisi s 1. SUSANTO 28
Contoh I = {1, 2, 3, 4, 5, 6, 7, 8, 9} s 1 = {3}{4, 5}{8} Ukuran = 3 Panjang = 4 s 2 = {6} {3, 7}{9}{4, 5, 8}{3, 8} s 1 subsequence s 2 karena {3} {3, 7}, {4, 5} {4, 5, 8}, dan {8} {3, 8} Sedangkan {3}{8} bukan subsequence {3, 8}, demikian juga sebaliknya. SUSANTO 29
Contoh Transaksi SUSANTO 30
Contoh Sequence SUSANTO 31
Contoh Pola Sequence SUSANTO 32
Algoritma GSP SUSANTO 33
Pembangkit Kandidat SPM Join step: Kandidat sequence dihasilkan dari penggabungkan F k-1 dengan F k-1. s 1 digabungkan dengan s 2 jika subsequence yang didapat dari pembuangan item pertama dari s 1 adalah sama dengan pembuangan item terakhir dari s 2. Kandidat sequence yang dihasilkan dari penggabungan s 1 dan s 2 adalah sequence s 1 diperluas dengan item terakhir dalam s 2. Item yang ditambahkan membentuk elemen terpisah jika item tersebut merupakan elemen dalam s 2 dan ditambahkan sebagai elemen terakhir pada s 1. Item yang ditambahkan merupakan bagian dari elemen terakhir s 1. Ketika menggabungkan F 1 dan F 1, kita perlu menambahkan item pada s 2 baik sebagai bagian dari itemset atau elemen terpisah. <{x}> dengan <{y}> akan membentuk <{x, y}> dan <{x}{y}> SUSANTO 34
Pembangkit Kandidat SPM Prune step: Sebuah kandidat sequence dibuang jika ada sembarang (k-1) subsequence adalah infrequent. SUSANTO 35
Contoh kandidat SPM SUSANTO 36
Akhir pertemuan #4 TERIMA KASIH. SUSANTO 37