ASSOCIATION RULES PADA TEXT MINING

dokumen-dokumen yang mirip
ASSOCIATION RULES PADA TEXT MINING

ASSOCIATION RULES PADA TEXT MINING

PENDAHULUAN. Latar Belakang

Assocation Rule. Data Mining

Mining Association Rules dalam Basis Data yang Besar

Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} {susu} (support = 40%, confidence = 50%)

BAB IV PENGUJIAN DAN ANALISIS

Cust. 1 : milk, bread, cereal. Cust. 2 : milk, bread, Sugar, eggs. Cust. 3 : milk, bread, butter

Cynthia Banowaty Pembimbing : Lely Prananingrum, S.Kom., MMSi

PENGGUNAAN MARKET BASKET ANALYSIS DALAM DATA MINING

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

SEQUENTIAL PATTERN MINING DENGAN SPADE UNTUK PREDIKSI PEMBELIAN SPARE PART DAN AKSESORIS KOMPUTER PADA KEDATANGAN KEMBALI KONSUMEN

BAB II LANDASAN TEORI

Journal of Informatics and Telecommunication Engineering. Analisa Algoritma Data Mining Eclat Dan Hui Miner

SEQUENTIAL PATTERN MINING PADA PENCARIAN POLA PERILAKU PENGGUNA INTERNET MENGGUNAKAN ALGORITMA SPADE

BAB I PENDAHULUAN. Data mining memungkinkan penemuan pola-pola yang menarik, informasi yang

PENERAPAN ASSOCIATION RULE MINING PADA DATA NOMOR UNIK PENDIDIK DAN TENAGA KEPENDIDIKAN

BAB III ANALISIS SISTEM

ANALISA PENCARIAN FREQUENT ITEMSETS MENGGUNAKAN ALGORITMA FP-MAX

Pengembangan Aplikasi Market Basket Analysis Menggunakan Algoritma Generalized Sequential Pattern pada Supermarket

BAB II DASAR TEORI. Gambar 2.1. Proses Enkripsi Dekripsi

2.2 Data Mining. Universitas Sumatera Utara

ANALISIS DAN IMPLEMENTASI WEB USAGE MINING MENGGUNAKAN ALGORITMA SEQUENTIAL PATTERN DISCOVERY USING EQUIVALENCE CLASSES

Implementasi Data Mining Algoritme Apriori Pada Sistem Penjualan Kusuma Shop

IMPLEMENTASI DATA MINING DENGAN ALGORITMA APRIORI PADA TOKO BANGUNAN UD. RUFI SENTOSA JAYA SAMBIREJO - PARE

BAB 2 TINJAUAN PUSTAKA

IMPLEMENTASI ALGORITMA APRIORI UNTUK MENEMUKAN FREQUENT ITEMSET DALAM KERANJANG BELANJA

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 2 TINJAUAN PUSTAKA

IMPLEMENTASI ALGORITMA FP- GROWTH MENGGUNAKAN ASSOCIATION RULE PADA MARKET BASKET ANALYSIS

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN. A. Tempat dan Waktu. 1. Tempat Penelitian. a. Assalam hypermarket merupakan salah satu pusat perbelanjaan di

Bab IV. Pengantar Peluang. Pengantar Peluang. Eksperimen. Aturan Menghitung Kombinasi Permutasi. Keluaran Eksperimen

Algoritma Cipher Block EZPZ

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Abstrak. Data Mining, Algoritma Apriori, Algoritma FP-Growth, Mata Pelajaran, Pemrograman, Web Programming, Matematika, Bahasa Inggris.

ANALISIS KINERJA ALGORITMA PREFIXSPAN DAN APRIORIALL PADA PENGGALIAN POLA SEKUENSIAL

BAB II TINJAUAN PUSTAKA

SISTEM REKOMENDASI PEMESANAN SPAREPART DENGAN ALGORITMA FP-GROWTH (STUDI KASUS PT. ROSALIA SURAKARTA)

Link Analysis (Superset) 3 Kategori Link Analysis (#1) 3 Kategori Link Analysis (#2) Association Rule Mining. 3 Kategori Link Analysis (#3)

Analisa Data Mining Menggunakan Algoritma Frequent Pattern Growth Pada Data Transaksi Penjualan Restoran Joglo Kampoeng Doeloe Semarang

TOKO ONLINE RIRIS DENGAN MENGGUNAKAN METODE APRIORI UNTUK PEMILIHAN JENIS BUNGA SESUAI KEINGINAN CUSTOMER

BAB I PENDAHULUAN 1.1 Latar Belakang

PREDIKSI KEBUTUHAN PENOMORAN PADA JARINGAN TELEKOMUNIKASI MENGGUNAKAN METODE APRIORI

PENGGALIAN FREQUENT CLOSED ITEMSETS DENGAN MULTIPLE MINIMUM SUPPORT PADA BASISDATA RETAIL

PENGGALIAN POLA CLOSED SEQUENTIAL PADA BASIS DATA YANG BERTAMBAH SECARA BERTAHAP

Bab 2 Tinjauan Pustaka

DAFTAR ISI Nida Uddini Amatulloh,2014

ALGORITMA GENERALIZED SEQUENTIAL PATTERN UNTUK MENGGALI DATA SEKUENSIAL SIRKULASI BUKU PADA PERPUSTAKAAN UK PETRA

Data Mining. Tidak. Mulai. Data transaksi. Pembersihan data. Seleksi data. Transformasi data. Pemberian nilai minimum support

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

Association Rule. Ali Ridho Barakbah

2.1 Penelitian Terkait

ALGORITMA GENERALIZED SEQUENTIAL PATTERN UNTUK MENGGALI DATA SEKUENSIAL SIRKULASI BUKU PADA PERPUSTAKAAN UK PETRA

Pola Kompetensi Mahasiswa Program Studi Informatika Menggunakan FP-Growth

BAB II LANDASAN TEORI

Analisis Aturan Asosiasi Data Transaksi Supermarket Menggunakan Algoritma Apriori

Penerapan Stuktur FP-Tree dan Algoritma FP-Growth dalam Optimasi Penentuan Frequent Itemset

II. TINJAUAN PUSTAKA

ANALISIS KINERJA ALGORITMA PREFIXSPAN DAN APRIORIALL PADA PENGGALIAN POLA SEKUENSIAL

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

SISTEM REKOMENDASI PAKET MAKANAN DENGAN ALGORITMA FP-GROWTH PADA RESTORAN SEAFOOD XYZ

APLIKASI DATA MINING UNTUK POLA PERMINTAAN DARAH DI UDD ( UNIT DONOR DARAH ) PMI KOTA SURABAYA MENGGUNAKAN METODE APRIORI

PENDAHULUAN TINJAUAN PUSTAKA

ANALISA DAN PERANCANGAN APLIKASI ALGORITMA APRIORI UNTUK KORELASI PENJUALAN PRODUK (STUDI KASUS : APOTIK DIORY FARMA)

TINJAUAN PUSTAKA Data Mining

OZ: Algoritma Cipher Blok Kombinasi Lai-Massey dengan Fungsi Hash MD5

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Memiliki kelemahan terlalu panjang jalannya padahal berujung pada S a, produksi D A juga menyebabkan kerumitan.

PENERAPAN ALGORITMA APRIORI DALAM PERANGKAT LUNAK DATA BASE Amroni, S.Kom, M.Kom

BAB I PENDAHULUAN 1.1 Latar Belakang

Prosiding Statistika ISSN:

APLIKASI DATA MINING MENGGUNAKAN ATURAN ASOSIASI DENGAN METODE APRIORI UNTUK ANALISIS KERANJANG PASAR PADA DATA TRANSAKSI PENJUALAN APOTEK

BAB I PENDAHULUAN 1.1. Latar Belakang

PERBANDINGAN ALGORITMA APRIORI DAN ALGORITMA FP-GROWTH UNTUK PEREKOMENDASI PADA TRANSAKSI PEMINJAMAN BUKU DI PERPUSTAKAAN UNIVERSITAS DIAN NUSWANTORO

Implementasi data mining menggunakan metode apriori (studi kasus transaksi penjualan barang)

Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN:

RANCANG BANGUN APLIKASI DATA MINING ANALISIS TINGKAT KELULUSAN MENGGUNAKAN ALGORITMA FP-GROWTH (Studi Kasus Di Politeknik Negeri Malang)

APLIKASI MONITORING KETERSEDIAAN STOK BARANG MINIMARKET DENGAN METODE MARKET BASKET ANALYSIS (MBA)

Penggunaan Timing Attack Sebagai Salah Satu Jenis Serangan pada Kriptografi

BAB I PENDAHULUAN. Teknologi Informasi sekarang ini telah digunakan hampir di semua aspek

BAB II LANDASAN TEORI

BAB IV IMPLEMENTASI DAN PENGUJIAN. bagian dekompresi dan bagian client server yang dapat melakukan kompresi dan

PENGGALIAN TOP-K CLOSED FREQUENT ITEMSETS BERBASIS ALGORITMA PEMETAAN TRANSAKSI

BAB IV METEDOLOGI PENELITIAN

APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA

Pembentukan Temporal Association Rules Menggunakan Algoritma Apriori (Studi Kasus:Toko Batik Diyan Solo)

BAB I PENDAHULUAN Latar Belakang

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

SISTEM SISTEM REKOMENDASI BIDANG MINAT MAHASISWA MENGGUNAKAN METODE ASSOCIATION RULE DAN ALGORITMA APRIORI

PENGENALAN POLA TRANSAKSI SIRKULASI BUKU PADA DATABASE PERPUSTAKAAN MENGGUNAKAN ALGORITMA GENERALIZED SEQUENTIAL PATTERN

Lili Tanti. STMIK Potensi Utama, Jl. K.L. Yos Sudarso Km. 6,5 No. 3A Tj. Mulia Medan ABSTRACT

PERBAIKAN STRUKTUR WEIGHTED TREE DENGAN METODE PARTISI FUZZY DALAM PEMBANGKITAN FREQUENT ITEMSET

BAB III ANALISIS DAN PERANCANGAN

Transkripsi:

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ASSOCIATION RULES PADA TEXT MINING Budi Susanto versi 1.4

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami algoritma Apriori dan FP-Growth Memahami penerapannya pada penambangan dokumen Memamahmi algoritma GSP Memahami penerapannya pada penambangan dokumen

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 3 Pendahuluan Analisis aturan asosiasi merupakan tugas dasar pada data mining. Tujuannya: Menemukan hubungan kemunculan bersamaan (asosiasi) diantara item-item data. Aplikasi klasik yang menggunakan metode ini adalah market basket data analysis. Tujuannya: menemukan bagaimana item-item barang yang dibeli oleh pelanggan diasosiasikan.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 4 Pendahuluan Contoh: Sabun Mandi Pasta Gigi [support: 40%, confidence = 80%] 40% pelanggan membeli Sabun Mandi dan Pasta Gigi bersamaan 80% pelanggan membeli Sabun Mandi juga membeli Pasta Gigi. Dalam text mining, association rules dapat digunakan untuk menemukan hubungan kemunculan kata.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 5 Konsep Dasar Association Rules I = { i,i,...,i } 1 2 m Himpunan item T = { t,t,...,t } Himpunan transaksi 1 2 n T i adalah himpunan item dimana t i Í I Bentuk implikasi pada association rules: X Y, dimana X Ì I,Y Ì I, X ÇY = 0

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 6 Ukuran Support Seberapa sering aturan yang dihasilkan berlaku pada himpunan transaksi T. Confidence Dilihat sebagai probabilitas kondisional terhadap aturan. Aturan yang terpilih adalah aturan yang memenuhi minimum support dan minimum confidence

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 7 Contoh Terdapat himpunan transaksi I: Chicken, Clothes Milk [sup = 3/7, conf = 3/3] Clothes Milk, Chicken [sup = 3/7, conf = 3/3]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 8 Algoritma Apriori Terdapat dua tahap utama: Hasilkan semua frequent itemsets (itemset yang memiliki support > minsupport) Hasilkan semua aturan asosiasi dari frequent itemsets (confident > minconfident) Jumat item dalam sebuah itemset ditentukan, k.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 9 Apriori: pembentukan itemset Apriori menganut prinsip downward closure property Jika sebuah itemset memiliki support minimum, maka setiap subset non-empty dari itemset tersebut juga memiliki support minimum. Item-item dalam I, sudah dalam keadaan terurutkan secara lexicographic order.

Algoritma Apriori Text dan Web Mining - FTI UKDW - BUDI SUSANTO 10

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 11 Algoritma Apriori: pembentukan kandidat itemset

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 12 Contoh: Data TID Item-item 001 1,2,3,5 002 2,3,4 003 2,3,6 004 1,2,4 005 1,3,4,5 006 2,3,5 007 1,3 008 1,2,3,5 009 1,2,3 010 1,2,3,4,5 Min Support: 40%, dan Min Confident: 60%

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 13 Contoh: Kandidat 2-itemsets C 2 itemsets Support Count {1, 2} 5 {1, 3} 6 {1, 4} 3 {1, 5} 4 {2, 3} 7 {2, 4} 3 {2, 5} 4 {3, 4} 3 {3, 5} 5 {4, 5} 2

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 14 Pruning 2-itemsets C 2 itemsets Support Count {1, 2} 5 {1, 3} 6 {1, 5} 4 {2, 3} 7 {2, 5} 4 {3, 5} 5

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 15 Kandidat 3-itemsets C 3 itemsets Support Count {1, 2, 3} 4 {1, 3, 5} 4 {2, 3, 5} 4

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 16 Pruning 3-itemsets C 3 itemsets Support Count {1, 2, 3} 4 {1, 3, 5} 4 {2, 3, 5} 4

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 17 Algoritma: pembentukan rule

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18 Contoh Pembentukan Rule Candidate Rule 1: Rule1: {1,2} {3} Support: 4/10 Confident: 4/5 Rule 2: {1,3} {2} Support: 4/10 Confident: 4/6 Rule 3: {2,3} {1} Support: 4/10 Confident: 4/7 H1 = {{2}, {3}}, sehingga H2 = {2,3} Rule 4: {1} {2,3} Support: 4/10 Confident: 4/7

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 19 FP-Tree Menghasilkan frequent items tanpa perlu membuat kandidat-kandidatnya. Kepadatan struktur tinggi Tidak perlu melakukan penelurusan database keseluruhan setiap saat

FP-Tree: Algoritma Text dan Web Mining - FTI UKDW - BUDI SUSANTO 20

Contoh Text dan Web Mining - FTI UKDW - BUDI SUSANTO 21

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 22 Contoh Item Support Count 3 9 2 8 1 7 5 5 4 4 6 1

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 23 Asosiasi untuk Kategori Metode asosiasi, seperti Apriori dan FP-Tree, tidak memiliki sasaran pada klausa consequent. Klausa consequent ditentukan juga dari itemset dalam transaksi. Jika asosiasi dilakukan terhadap suatu consequent dengan target tertentu, Y, maka metode yang digunakan disebut sebagai class association rules.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 24 Asosiasi untuk Kategori T adalah himpunan transaksi sebanyak n. Setiap transaksi diberi label y. I adalah himpunan semua item dalam T, dan Y adalah himpunan label class (target) dan I Y = θ. Ç Sebuah Class Association rule (CAR) adalah bentuk implikasi dari X y, X Ì I, y Î Y

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 25 Contoh I = {Student, Teach, School, City, Game, Baseball, Basketball, Team, Coach, Player, Spectator} Y = {Education, Sport}.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 26 Contoh Misal minsup = 20% dan minconf = 60%, maka: Student, School Education [sup= 2/7, conf = 2/2] Game Sport [sup= 2/7, conf = 2/3]

Pembangkit Rule Text dan Web Mining - FTI UKDW - BUDI SUSANTO 27

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 28 Contoh CAR F 1 : {({School}, Education):(3, 3), ({Student}, Education):(2, 2), ({Teach}, Education):(2, 2), ({Baseball}, Sport):(2, 2), ({Basketball}, Sport):(3, 3), ({Game}, Sport):(3, 2), ({Team}, Sport):(2, 2)} CAR 1 : School Education [sup = 3/7, conf = 3/3] Student Education [sup = 2/7, conf = 2/2] Teach Education [sup = 2/7, conf = 2/2] Baseball Sport [sup = 2/7, conf = 2/2] Basketball Sport [sup = 3/7, conf = 3/3] Game Sport [sup = 2/7, conf = 2/3] Team Sport [sup = 2/7, conf = 2/2]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 29 Contoh CAR C 2 : { } ({School, Student}, Education), ({School, Teach}, Education), ({Student, Teach}, Education), ({Baseball, Basketball}, Sport), ({Baseball, Game}, Sport), ({Baseball, Team}, Sport), ({Basketball, Game}, Sport), ({Basketball, Team}, Sport), ({Game, Team}, Sport)

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 30 Contoh CAR F 2 : { ({School, Student}, Education):(2, 2), ({School, Teach}, Education):(2, 2), ({Game, Team}, Sport):(2, 2) } CAR 2 : School, Student Education [sup = 2/7, conf = 2/2] School, Teach Education [sup = 2/7, conf = 2/2] Game, Team Sport [sup = 2/7, conf = 2/2]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 31 Lift Ratio Jika suatu rule memiliki confidence tinggi, berarti rule tersebut mencirikan aturan asosiasi yang kuat. Pemilihan rule berdasar confidence bisa menipu, sebab jika (A)ntecedent/(C)onsequent memiliki support yang tinggi, maka rule dapat memiliki confidence tinggi, walaupun sebetulnya independen.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 32 Lift Ratio Ukuran yang lebih baik untuk mengukur kekuatan aturan asosiasi adalah Membandingkan confidence rule dengan confidence yang diharapkan. Kemunculan consequent itemset dalam transaksi bersifat independen terhadap kemunculan antecedent tiap rulenya. Support consequent dibagi dengan jumlah transaksi. Expected confidence dari sebuah rule adalah perkalian support antecedence dan consequence dibagi dengan support dari antecedence.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 33 Lift Ratio Sebuah lift ratio > 1.0 menyatakan Ant dan Cons muncul lebih sering dari yang diharapkan kemunculan rule Ant memiliki efek positif terhadap kemunculan Cons Sebuah lift ratio < 1.0 menyatakan Ant dan Cons muncul lebih jarang dari yang diharapkan kemunculan rule Ant memiliki efek negatif terhadap kemunculan Cons Sebuah list ratio 1.0 menyatakan Ant dan Cons muncul hampir selalu bersamaan seperti yang diharapkan kemunculan rule Ant hampir tidak memiliki pengaruh terhadap kemunculan Cons

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 34 Lift Ratio c( A Þ C) = P( C A) = s ( AÈC ) s( A) c' ( A Þ C) = s(a) s(c) s A ( )

Contoh Lift Ratio Text dan Web Mining - FTI UKDW - BUDI SUSANTO 35

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 36 Contoh Lift Ratio A C c(a) s(c) c(a U C) conf lift {1,2} {5} 4 2/9 2 2/4 18/8 {1,5} {2} 2 7/9 2 2/2 9/7 {2,5} {1} 2 6/9 2 2/2 9/6 {1} {2,5} 6 2/9 2 2/6 9/6 {2} {1,5} 7 2/9 2 2/7 9/7 {5} {2,1} 2 4/9 2 2/2 9/4 {1,2} {3} 4 6/9 2 2/4 9/12 {1,3} {2} 4 7/9 2 2/4 18/28 {2,3} {1} 4 6/9 2 2/4 9/12 {1} {2,3} 6 4/9 2 2/6 9/12 {2} {1,3} 7 4/9 2 2/7 9/14 {3} {1,2} 6 4/9 2 2/6 9/12

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 37 SEQUENCE PATTERN

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 38 Sequential Pattern Mining Diberikan sebuah himpunan sequential, temukan himpunan lengkap dari frequent subsequences. Database SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Sebuah sequence : < (ef) (ab) (df) c b > An element may contain a set of items. Items within an element are unordered and we list them alphabetically. <a(bc)dc> sebuah subsequence dari <a(abc)(ac)d(cf)> Diberikan min_sup =2, <(ab)c> adalah sebuah sequential pattern

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 39 Tantangan Sequental Pattern Mining Sejumlah besar pola sekuensial tersembunyi dalam database. Sebuah algoritma mining harus Menemukan himpulan pola-pola lengkap, yang memenuhi ambang batas minimum support (frekuensi). Harus efisien, scalable, melibatkan hanya sejumlah kecil penelurusan database. Mampu dikaitkan dengan berbagai macam user-specific constraint.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 40 Konsep Sequence Pattern Association Rule tidak memperhatikan urutan dari transaksi. I = {i 1, i 2,..., i m } adalah himpunan item Sebuah sequence adalah daftar urutan dari itemset. X I, dimana X adalah itemset. s =<a 1 a 2...a r >, a i adalah sebuah itemset (elemen dari s). a i = {x 1, x 2,..., x k }, dimana x j I adalah item. Sebuah item hanya dapat muncul sekali dalam suatu sequence. Ukuran suatu sequence adalah jumlah itemset dalam sequence Panjang suatu sequence adalah jumlah item dalam suquence. k-sequence adalah sequence dengan panjang k.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 41 Konsep Sequence Pattern s 1 = <a 1 a 2...a r > adalah sebuah subsequence s 2 = <b 1 b 2...b v >, atau s 2 adalah supersequence dari s 1, jika terdapat integer 1 j 1 <j 2 <...<j r-1 <j r v sehinga a 1 b j, a 2 b j,..., a r b jr. Kita juga mengatakan s 2 berisi s 1.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 42 Konsep Sequence Pattern c adalah subsequence dari s jika memenuhi salah satu kondisi berikut: c diturunkan dari s dengan membuang sebuah item dari salah satu sequence baik s 1 atau s n. c diturunkan dari s dengan membuang sebuah item dari sebuah elemen s j yang memiliki minimum 2 item. c adalah contiguous subsequence dari ċ dan ċ adalah contiguous subsequence dari s.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 43 Contoh I = {1, 2, 3, 4, 5, 6, 7, 8, 9} s 1 = <{3}{4, 5}{8}> Ukuran = 3 Panjang = 4 s 2 = <{6} {3, 7}{9}{4, 5, 8}{3, 8}> s 1 subsequence s 2 karena {3} {3, 7}, {4, 5} {4, 5, 8}, dan {8} {3, 8} Sedangkan <{3}{8}> bukan subsequence <{3, 8}>, demikian juga sebaliknya.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 44 Contoh SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> Bagaimana dengan: <a(bc)dc> <(ab)c> 40 <eg(af)cbc> Data sequence Subsequence Contain? < {2,4} {3,5,6} {8} > < {2} {3,5} > Yes < {1,2} {3,4} > < {1} {2} > No < {2,4} {2,4} {2,5} > < {2} {4} > Yes

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 45 Contoh Object Timestamp Events A 1 1,2,4 A 2 2,3 A 3 5 B 1 1,2 B 2 2,3,4 C 1 1, 2 C 2 2,3,4 C 3 2,4,5 D 1 2 D 2 3, 4 D 3 4, 5 E 1 1, 3 E 2 2, 4, 5 Minsup = 50% Examples of Frequent Subsequences: < {1,2} > s=60% < {2,3} > s=60% < {2,4}> s=80% < {3} {5}> s=80% < {1} {2} > s=80% < {2} {2} > s=60% < {1} {2,3} > s=60% < {2} {2,3} > s=60% < {1,2} {2,3} > s=60%

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 46 GSP Generalized Sequential Patterns: Srikant & Agrawal @ EDBT 96 Berdasar algoritma Apriori (Agrawal & Sirkant 94) Jika sebuah sequence S bukan frekuen, Maka tidak ada super-sequences dari S adalah frekuen. Contoh: <hb> adalah infrequent, maka <hab> dan <(ah)b>

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 47 GSP Outline dari metode GSP: Inisialisasi, setiap item dalam DB sebagai sebuah kandidat length- 1. Untuk setiap level (sequence length-k) Scan database untuk mengumpulkan support count untuk setiap kandidat sequence. Hasilkan kandidat length-(k+1) sequence dari length-k frequent sequence menggunakan Apriori. Ulangi sampai tidak ada frekuen sequence atau tidak ada lagi kandidat yang ditemukan.

Algoritma GSP Text dan Web Mining - FTI UKDW - BUDI SUSANTO 48

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 49 candidate-gen-spm(f k-1 )

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 50 Contoh candidate-gen-spm()

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 51 Contoh GSP min_sup =2 Seq. ID 10 20 30 40 50 Sequence <(bd)cb(ac)> <(bf)(ce)b(fg)> <(ah)(bf)abf> <(be)(ce)d> <a(bd)bcb(ade)> Cand Sup <a> 3 <b> 5 <c> 4 <d> 3 <e> 3 <f> 2 <g> 1 <h> 1

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 52 GSP - Kandidat Length-2 <a> <b> <c> <d> <e> <f> <a> <aa> <ab> <ac> <ad> <ae> <af> <b> <ba> <bb> <bc> <bd> <be> <bf> <c> <ca> <cb> <cc> <cd> <ce> <cf> <d> <da> <db> <dc> <dd> <de> <df> <e> <ea> <eb> <ec> <ed> <ee> <ef> <f> <fa> <fb> <fc> <fd> <fe> <ff> <a> <b> <c> <d> <e> <f> <a> <(ab)> <(ac)> <(ad)> <(ae)> <(af)> <b> <(bc)> <(bd)> <(be)> <(bf)> <c> <(cd)> <(ce)> <(cf)> <d> <(de)> <(df)> <e> <(ef)> <f>

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 53 Proses GSP 5 th scan: 1 cand. 1 length-5 seq. pat. 4 th scan: 8 cand. 6 length-4 seq. pat. 3 rd scan: 46 cand. 19 length-3 seq. pat. 20 cand. not in DB at all 2 nd scan: 51 cand. 19 length-2 seq. pat. 10 cand. not in DB at all 1 st scan: 8 cand. 6 length-1 seq. pat. <(bd)cba> <abba> <(bd)bc> <abb> <aab> <aba> <baa> <bab> <aa> <ab> <af> <ba> <bb> <ff> <(ab)> <(ef)> <a> <b> <c> <d> <e> <f> <g> <h> Seq. ID Cand. cannot pass sup. threshold Cand. not in DB at all Sequence min_sup =2 10 20 30 40 50 <(bd)cb(ac)> <(bf)(ce)b(fg)> <(ah)(bf)abf> <(be)(ce)d> <a(bd)bcb(ade)>

Contoh Transaksi Text dan Web Mining - FTI UKDW - BUDI SUSANTO 54

Contoh Sequence Text dan Web Mining - FTI UKDW - BUDI SUSANTO 55

Contoh Pola Sequence Text dan Web Mining - FTI UKDW - BUDI SUSANTO 56

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 57 SPADE SPADE (Sequential PAttern Discovery using Equivalent Class) dikembangkan oleh Zaki 2001 Sebuah metode format vertikal sequential pattern mining Sebuah sequence database dipetakan ke suatu himpunan dari Item: <SID, EID> Sequential pattern mining dikerjakan dengan Menumbuhkan subsequences (patterns) satu item pada satu waktu dengan menggunakan Apriori candidate generation

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 58

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 59 TERIMA KASIH. Akhir pertemuan #4