Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ASSOCIATION RULES PADA TEXT MINING Budi Susanto versi 1.2
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami algoritma Apriori dan FP-Growth Memahami penerapannya pada penambangan dokumen Memamahmi algoritma GSP Memahami penerapannya pada penambangan dokumen
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 3 Pendahuluan Analisis aturan asosiasi merupakan tugas dasar pada data mining. Tujuannya: Menemukan hubungan kemunculan bersamaan (asosiasi) diantara item-item data. Aplikasi klasik yang menggunakan metode ini adalah market basket data analysis. Tujuannya: menemukan bagaimana item-item barang yang dibeli oleh pelanggan diasosiasikan.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 4 Pendahuluan Contoh: Sabun Mandi è Pasta Gigi [support: 40%, confidence = 80%] 40% pelanggan membeli Sabun Mandi dan Pasta Gigi bersamaan 80% pelanggan membeli Sabun Mandi juga membeli Pasta Gigi. Dalam text mining, association rules dapat digunakan untuk menemukan hubungan kemunculan kata.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 5 Konsep Dasar Association Rules I = { i,i,...,i } 1 2 m Himpunan item T = { t,t,...,t } Himpunan transaksi 1 2 n T i adalah himpunan item dimana t i I Bentuk implikasi pada association rules: X è Y, dimana X I,Y I, X Y = 0
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 6 Ukuran Support Seberapa sering aturan yang dihasilkan berlaku pada himpunan transaksi T. Confidence Dilihat sebagai probabilitas kondisional terhadap aturan. Aturan yang terpilih adalah aturan yang memenuhi minimum support dan minimum confidence
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 7 Contoh Terdapat himpunan transaksi I: Chicken, Clothes Milk [sup = 3/7, conf = 3/3] Clothes Milk, Chicken [sup = 3/7, conf = 3/3]
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 8 Algoritma Apriori Terdapat dua tahap utama: Hasilkan semua frequent itemsets (itemset yang memiliki support > minsupport) Hasilkan semua aturan asosiasi dari frequent itemsets (confident > minconfident) Jumat item dalam sebuah itemset ditentukan, k.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 9 Apriori: pembentukan itemset Apriori menganut prinsip downward closure property Jika sebuah itemset memiliki support minimum, maka setiap subset non-empty dari itemset tersebut juga memiliki support minimum. Item-item dalam I, sudah dalam keadaan terurutkan secara lexicographic order.
Algoritma Apriori Text dan Web Mining - FTI UKDW - BUDI SUSANTO 10
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 11 Algoritma Apriori: pembentukan kandidat itemset
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 12 Contoh: Data TID Item-item 001 1,2,3,5 002 2,3,4 003 2,3,6 004 1,2,4 005 1,3,4,5 006 2,3,5 007 1,3 008 1,2,3,5 009 1,2,3 010 1,2,3,4,5 Min Support: 40%, dan Min Confident: 60%
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 13 Contoh: Kandidat 2-itemsets C 2 itemsets Support Count {1, 2} 5 {1, 3} 6 {1, 4} 3 {1, 5} 4 {2, 3} 7 {2, 4} 3 {2, 5} 4 {3, 4} 3 {3, 5} 5 {4, 5} 2
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 14 Pruning 2-itemsets C 2 itemsets Support Count {1, 2} 5 {1, 3} 6 {1, 5} 4 {2, 3} 7 {2, 5} 4 {3, 5} 5
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 15 Kandidat 3-itemsets C 3 itemsets Support Count {1, 2, 3} 4 {1, 3, 5} 4 {2, 3, 5} 4
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 16 Pruning 3-itemsets C 3 itemsets Support Count {1, 2, 3} 4 {1, 3, 5} 4 {2, 3, 5} 4
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 17 Algoritma: pembentukan rule
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18 Contoh Pembentukan Rule Candidate Rule 1: Rule1: {1,2} è {3} Support: 4/10 Confident: 4/5 Rule 2: {1,3} è {2} Support: 4/10 Confident: 4/6 Rule 3: {2,3} è {1} Support: 4/10 Confident: 4/7 H1 = {{2}, {3}}, sehingga H2 = {2,3} Rule 4: {1} è {2,3} Support: 4/10 Confident: 4/7
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 19 FP-Tree Menghasilkan frequent items tanpa perlu membuat kandidat-kandidatnya. Kepadatan struktur tinggi Tidak perlu melakukan penelurusan database keseluruhan setiap saat
FP-Tree: Algoritma Text dan Web Mining - FTI UKDW - BUDI SUSANTO 20
Contoh Text dan Web Mining - FTI UKDW - BUDI SUSANTO 21
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 22 Contoh Item Support Count 3 9 2 8 1 7 5 5 4 4 6 1
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 23 Asosiasi untuk Kategori Metode asosiasi, seperti Apriori dan FP-Tree, tidak memiliki sasaran pada klausa consequent. Klausa consequent ditentukan juga dari itemset dalam transaksi. Jika asosiasi dilakukan terhadap suatu consequent dengan target tertentu, Y, maka metode yang digunakan disebut sebagai class association rules.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 24 Asosiasi untuk Kategori T adalah himpunan transaksi sebanyak n. Setiap transaksi diberi label y. I adalah himpunan semua item dalam T, dan Y adalah himpunan label class (target) dan I Y = θ. Sebuah Class Association rule (CAR) adalah bentuk implikasi dari X y, X I, y Y
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 25 Contoh I = {Student, Teach, School, City, Game, Baseball, Basketball, Team, Coach, Player, Spectator} Y = {Education, Sport}.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 26 Contoh Misal minsup = 20% dan minconf = 60%, maka: Student, School Education [sup= 2/7, conf = 2/2] Game Sport [sup= 2/7, conf = 2/3]
Pembangkit Rule Text dan Web Mining - FTI UKDW - BUDI SUSANTO 27
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 28 Contoh CAR F 1 : {({School}, Education):(3, 3), ({Student}, Education):(2, 2), ({Teach}, Education):(2, 2), ({Baseball}, Sport):(2, 2), ({Basketball}, Sport):(3, 3), ({Game}, Sport):(3, 2), ({Team}, Sport):(2, 2)} CAR 1 : School Education [sup = 3/7, conf = 3/3] Student Education [sup = 2/7, conf = 2/2] Teach Education [sup = 2/7, conf = 2/2] Baseball Sport [sup = 2/7, conf = 2/2] Basketball Sport [sup = 3/7, conf = 3/3] Game Sport [sup = 2/7, conf = 2/3] Team Sport [sup = 2/7, conf = 2/2]
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 29 Contoh CAR C 2 : { } ({School, Student}, Education), ({School, Teach}, Education), ({Student, Teach}, Education), ({Baseball, Basketball}, Sport), ({Baseball, Game}, Sport), ({Baseball, Team}, Sport), ({Basketball, Game}, Sport), ({Basketball, Team}, Sport), ({Game, Team}, Sport)
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 30 Contoh CAR F 2 : { ({School, Student}, Education):(2, 2), ({School, Teach}, Education):(2, 2), ({Game, Team}, Sport):(2, 2) } CAR 2 : School, Student Education [sup = 2/7, conf = 2/2] School, Teach Education [sup = 2/7, conf = 2/2] Game, Team Sport [sup = 2/7, conf = 2/2]
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 31 Lift Ratio Jika suatu rule memiliki confidence tinggi, berarti rule tersebut mencirikan aturan asosiasi yang kuat. Pemilihan rule berdasar confidence bisa menipu, sebab jika (A)ntecedent/(C)onsequent memiliki support yang tinggi, maka rule dapat memiliki confidence tinggi, walaupun sebetulnya independen.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 32 Lift Ratio Ukuran yang lebih baik untuk mengukur kekuatan aturan asosiasi adalah Membandingkan confidence rule dengan confidence yang diharapkan. Kemunculan consequent itemset dalam transaksi bersifat independen terhadap kemunculan antecedent tiap rulenya. Support consequent dibagi dengan jumlah transaksi. Expected confidence dari sebuah rule adalah perkalian support antecedence dan consequence dibagi dengan support dari antecedence.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 33 Lift Ratio Sebuah lift ratio > 1.0 menyatakan Ant dan Cons muncul lebih sering dari yang diharapkan kemunculan rule Ant memiliki efek positif terhadap kemunculan Cons Sebuah lift ratio < 1.0 menyatakan Ant dan Cons muncul lebih jarang dari yang diharapkan kemunculan rule Ant memiliki efek negatif terhadap kemunculan Cons Sebuah list ratio 1.0 menyatakan Ant dan Cons muncul hampir selalu bersamaan seperti yang diharapkan kemunculan rule Ant hampir tidak memiliki pengaruh terhadap kemunculan Cons
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 34 Lift Ratio c( A C) = P( C A) = s ( A C ) s( A) c' ( A C) = s(a) s(c) s A ( )
Contoh Lift Ratio Text dan Web Mining - FTI UKDW - BUDI SUSANTO 35
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 36 Contoh Lift Ratio A C c(a) s(c) c(a U C) conf lift {1,2} {5} 4 2/9 2 2/4 18/8 {1,5} {2} 2 7/9 2 2/2 9/7 {2,5} {1} 2 6/9 2 2/2 9/6 {1} {2,5} 6 2/9 2 2/6 9/6 {2} {1,5} 7 2/9 2 2/7 9/7 {5} {2,1} 2 4/9 2 2/2 9/4 {1,2} {3} 4 6/9 2 2/4 9/12 {1,3} {2} 4 7/9 2 2/4 18/28 {2,3} {1} 4 6/9 2 2/4 9/12 {1} {2,3} 6 4/9 2 2/6 9/12 {2} {1,3} 7 4/9 2 2/7 9/14 {3} {1,2} 6 4/9 2 2/6 9/12
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 37 Konsep Sequence Pattern Association Rule tidak memperhatikan urutan dari transaksi. I = {i 1, i 2,..., i m } adalah himpunan item Sebuah sequence adalah daftar urutan dari itemset. X I, dimana X adalah itemset. s = a 1 a 2...a r, a i adalah sebuah itemset (elemen dari s). a i = {x 1, x 2,..., x k }, dimana x j I adalah item. Sebuah item hanya dapat muncul sekali dalam suatu sequence. Ukuran suatu sequence adalah jumlah itemset dalam sequence Panjang suatu sequence adalah jumlah item dalam suquence. k-sequence adalah sequence dengan panjang k.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 38 Konsep Sequence Pattern s 1 = a 1 a 2...a r adalah sebuah subsequence s 2 = b 1 b 2...b v, atau s 2 adalah supersequence dari s 1, jika terdapat integer 1 j 1 <j 2 <...<j r- 1 <j r v sehinga a 1 b j, a 2 b j,..., a r b jr. Kita juga mengatakan s 2 berisi s 1.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 39 Konsep Sequence Pattern c adalah subsequence dari s jika memenuhi salah satu kondisi berikut: c diturunkan dari s dengan membuang sebuah item dari salah satu sequence baik s 1 atau s n. c diturunkan dari s dengan membuang sebuah item dari sebuah elemen s j yang memiliki minimum 2 item. c adalah contiguous subsequence dari ċ dan ċ adalah contiguous subsequence dari s.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 40 Contoh I = {1, 2, 3, 4, 5, 6, 7, 8, 9} s 1 = {3}{4, 5}{8} Ukuran = 3 Panjang = 4 s 2 = {6} {3, 7}{9}{4, 5, 8}{3, 8} s 1 subsequence s 2 karena {3} {3, 7}, {4, 5} {4, 5, 8}, dan {8} {3, 8} Sedangkan {3}{8} bukan subsequence {3, 8}, demikian juga sebaliknya.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 41 Contoh SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> Bagaimana dengan: <a(bc)dc> <(ab)c> 40 <eg(af)cbc> Data sequence Subsequence Contain? < {2,4} {3,5,6} {8} > < {2} {3,5} > Yes < {1,2} {3,4} > < {1} {2} > No < {2,4} {2,4} {2,5} > < {2} {4} > Yes
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 42 Contoh Object Timestamp Events A 1 1,2,4 A 2 2,3 A 3 5 B 1 1,2 B 2 2,3,4 C 1 1, 2 C 2 2,3,4 C 3 2,4,5 D 1 2 D 2 3, 4 D 3 4, 5 E 1 1, 3 E 2 2, 4, 5 Minsup = 50% Examples of Frequent Subsequences: < {1,2} > s=60% < {2,3} > s=60% < {2,4}> s=80% < {3} {5}> s=80% < {1} {2} > s=80% < {2} {2} > s=60% < {1} {2,3} > s=60% < {2} {2,3} > s=60% < {1,2} {2,3} > s=60%
Contoh Transaksi Text dan Web Mining - FTI UKDW - BUDI SUSANTO 43
Contoh Sequence Text dan Web Mining - FTI UKDW - BUDI SUSANTO 44
Contoh Pola Sequence Text dan Web Mining - FTI UKDW - BUDI SUSANTO 45
Algoritma GSP Text dan Web Mining - FTI UKDW - BUDI SUSANTO 46
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 47 TERIMA KASIH. Akhir pertemuan #4