KLASTERISASI BERDASARKAN KESAMAAN POLA DENGAN MENGGUNAKAN ALGORITMA PCLUSTER Kartika Wijayati 1 Rully Soelaiman 2

Transkripsi

1 KLASTERISASI BERDASARKAN KESAMAAN POLA DENGAN MENGGUNAKAN ALGORITMA PCLUSTER Kartika Wijayati 1 Rully Soelaiman 2 Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS), Surabaya, 60111, Innesia 1 tika_nn@csitsacid, 2 rully@isitsacid Abstrak - Klasterisasi merupakan salah satu metode untuk mengidentikasi kelas berdasarkan obyek-obyek diantara himpunan obyek-obyek Representasi kesamaan berbeda-beda pada model klasterisasi satu dengan yang lain Di dalam banyak model, konsep kesamaan dihitung berdasarkan fungsi jarak, meliputi Manhattan distance, Euclidean distance lain-lain Tetapi fungsi jarak tidak selalu cukup untuk mengambil korelasi antara obyek-obyek yang jauh Dalam kenyataannya, korelasi-korelasi yang kuat masih ada antar himpunan obyek-obyek yang sama jika himpunan obyekobyek terpisah jauh dari satu sama lain yang dihitung berdasarkan fungsi jarak Tugas Akhir membahas penemuan klaster-klaster obyek yang mempunyai kedekatan nilai kesamaan pola pada subset dimensi yang diperlihatkan oleh obyek-obyek, dengan menggunakan model klasterisasi yang dinamakan dengan algoritma pcluster Dengan menggunakan algoritma pcluster, maka dapat menemukan semua pcluster secara efisien secara efekt, dimana ukuran klaster sesuai dengan threshold, threshold ditentukan sendiri Kata Kunci : penggalian data, klasterisasi, kesamaan pola Notasi 1 Himpunan obyek-obyek 2 Himpunan atribut-atribut pada obyekobyek di dalam 3 Submatrik dari data set, dimana 4 Obyek-obyek di dalam 5 Atribut-atribut di dalam 6 Nilai objek pada atribut 7 Threshold cluster ditentukan sendiri 8 Jumlah minimum kolom dalam pcluster ditentukan sendiri 9 Jumlah minimum baris dalam pcluster ditentukan sendiri 10 Maximal dimension set untuk obyek 11 Maximal dimension set untuk kolom I PENDAHULUAN Metode klasterisasi secara khusus dipelajari dalam berbagai big, meliputi statistik, machine learning, pattern recognition, image processing Banyak riset tercurah pada berbagai masalah dalam klasterisasi, seperti scalability, the curve of dimensionality, lain-lain Dalam kebanyakan model klasterisasi, kesamaan antar obyek-obyek yang berbeda pada semua, sebagian, atau hanya subset dari dimensi dihitung oleh jarak Beberapa fungsi jarak yang terkenal meliputi Euclidian distance, Manhattan distance, cosine distance Tetapi fungsi jarak tidak mampu untuk menangkap korelasi-korelasi antar obyek-obyek Dalam kenyataannya, korelasi-korelasi yang kuat masih ada antar himpunan obyek-obyek yang sama jika himpunan obyek-obyek terpisah jauh dari satu sama lain yang dihitung berdasarkan fungsi jarak Di dalam model klasterisasi tradisional hanya fokus pada kesamaan jarak, mempertimbangkan dua obyek adalah serupa jika beberapa dari obyek-obyek mempunyai nilai koordinat yang dekat Obyek-obyek yang mempunyai jarak yang tidak dekat untuk satu sama lain tidak mungkin dipertimbangkan dalam satu klaster Oleh karena itu, maka dalam Tugas Akhir ini digunakan kesamaan pola untuk menunjukkan korelasi-korelasi antar obyek-obyek yang jauh yang tidak dipertimbangkan dalam model klasterisasi tradisional Untuk menemukan klaster-klaster yang melekat pada subruang data set, yang dikenal dengan klasterisasi pada subruang II RUMUSAN MASALAH Berdasarkan latar belakang yang telah dijelaskan diatas, dapat dirumuskan permasalahan sebagai berikut : 1 Bagaimana menemukan klaster obyek-obyek yang mempunyai kedekatan nilai kesamaan pola pada subset dimensi yang diperlihatkan oleh obyek-obyek dengan menggunakan algoritma pcluster? 2 Bagaimana memodelkan klasterisasi pada subruang dengan menggunakan model pcluster? 3 Bagaimana menemukan semua klaster yang memenuhi syarat algoritma pcluster? III KLASTERISASI dengan PEMODELAN PCLUSTER 31 Pemodelan pcluster Model adalah suatu metode yang menggali klaster pada obyek yang memperlihatkan hubungan Klasterisasi berdasarkan kesamaan pola dengan menggunakan algoritma pcluster 1

2 pola pada himpunan atribut (dimensi) Klasterisasi dilakukan tidak hanya pada himpunan dimensi, namun Diasumsikan Himpunan kolom adalah adalah juga pada subset dari dimensi tersebut Karena itu Maximal Dimension Set (MDS) dari c, jika (2-4) model menggunakan metode MDS, metode tidak ada sehingga termasuk MDS akan dijelaskan pada sub bab berikutnya Definisi 1 (pscore pcluster) Misal adalah Metode MDS dapat digunakan, jika tidak ada, suatu subset dari obyek- obyek di dalam database sehingga obyek dapat juga diklaster pada submatrik ( ), adalah suatu subset dati attribut- Pada properti 1 diketahui bahwa, jelas bahwa attribut Pasangan khusus suatu tidak mungin ada submatrik Dengan, maka Pembahasan di dalam hanya mencakup diiperoleh pscore matrik 2 x 2, sebagai berikut : cluster pada MDSs, karena semua lain dapat pscore diperoleh (2-1) dari maximum dengan menggunakan maximum properti 1 Sesuai dengan Pasangan membentuk jika setiap definisi 2, jelas bahwa atribut dapat muncul di dalam submatrik X (2x2) di dalam, mempunyai lebih dari satu MDS Untuk satu himpunan obyek,, dimana parameter ditentukan mungkin ada lebih dari satu MDS sendiri Jika diketahui himpunan obyek himpunan atribut Berdasarkan definisi, maka diperoleh model, tidak mudah untuk mencari semua maximal yang mempunyai properti sebagai berikut : dimension set (MDS) untuk obyek, karena obyek Properti 1 (Anti-Monotonicity) Misal adalah mungkin klaster pada setiap subset Dibawah ini, suatu -pcluster Setiap submatrik dari, misal dibahas kasus khusus dimana berisi hanya 2 obyek, dimana,, juga termasuk Diketahui obyek, himpunan atribut, -pcluster (2-2) didefinisikan sebagai berikut : Sesuai dengan definisi yang simetris, maka selisih dapat dihitung secara horizontal maupun Berdasarkan definisi, dapat dirumuskan vertical properti 1 sebagai berikut : 32 Algoritma pcluster Pada Algoritma terdapat tiga langkah, sebagai berikut : 1 Pair-Wise Clustering Mencari klaster (kolom) terbesar untuk masingmasing dua obyek, klaster (obyek) terbesar untuk masing-masing dua kolom 2 Pruning Unfruitful pair-wise clustering Mencari yang bukan masing-masing klaster kolom yang bukan klaster obyek di dalam pairwise clustering, dengan menggunakan Pruning Principle 3 Forming Langkah ini merupakan kombinasi dari pruned pairwise untuk membentuk 33 Pairwise Clustering Pairwise Clustering merupakan proses pencarian klaster berdasarkan metode MDS untuk object-pair atau column-pair Dengan menggunakan metode MDS, klaster yang dihasilkan lebih jelas, karena diekstrak dalam bentuk yang unik Klasterisasi dilakukan tidak hanya pada dimensi dari data set, namun juga pada setiap subset dari dimensi (sesuai dengan properti 1) Untuk mencari klaster yang paling maksimal maka digunakan nc (nilai minimal kolom) atau nr (nilai minimal baris) Jika klasterisasi berdasarkan columnpair maka menggunakan nr untuk mencari klaster yang paling maksimal, sebaliknya, jika klasterisasi berdasarkan object-pair maka menggunakan nc untuk mencari klaster yang paling maksimal Dibawah ini, akan diuraikan konsep Maximal Dimension Set (MDS) Diketahui obyek, himpunan dimensi, membentuk pada jika selisih antara nilai terbesar terkecil di dalam tidak lebih dari (2-5) Diketahui obyek, didefinisikan fungsi pada dua dimensi, sebagai berikut : Menurut definisi dari, obyek klaster pada jika Dengan kata lain, adalah, jika terbukti kebenaran sebagai berikut : Mudah untuk menghitung Menurut property diatas, tidak dapat dihitung untuk setiap dua dimensi di dalam Hanya dapat mengetahui nilai terbesar nilai terkecil di dalam Oleh karena itu, maka digunakan untuk menandakan nilai sorted sequence di dalam Adalah, dimana Jadi membentuk pada jika Jika diketahui himpunan atribut, mudah untuk mencari maximal dimension set untuk obyek Diketahui himpunan dimensi, adalah maximal dimension set untuk obyek, jika : Klasterisasi berdasarkan kesamaan pola dengan menggunakan algoritma pcluster 2

3 i adalah subsequence yang berdekatan dari (2-6), ii, dimana Diketahui, menurut pairwise clustering principle, adalah Selanjutnya,, maka diperoleh atau, sebaliknya karena Jika, dari, diperoleh, jadi bukan Di sisi lain, jika, dari, diperoleh, jadi juga bukan Karena tidak dapat diperluas, adalah MDS Menurut Prinsip MDS, MDSs dapat dicari untuk obyek dengan cara sebagai berikut : dimulai dengan kedua sisi, left-end right-end pada elemen pertama dari sorted sequence, pindahkan right-end sebelah kanan satu posisi pada suatu waktu Untuk setiap perpindahan, dihitung selisih nilai pada dua terakhir, sampai selisih lebih besar dari Pada waktu tersebut, element antara dua ujung membentuk maximal dimension set Untuk mencari maximal dimension set selanjutnya, pindahkan left-end sebelah kanan satu posisi, ulangi proses diatas Proses akan berakhir saat right-end menjangkau element terakhir dari sorted sequence Berikut pseucode dari proses diatas terurai dalam Algoritma 1, untuk mencari MDSs object-pair, procedure yang terlibat :, dimana adalah jumlah minimal kolom (parameter ditentukan sendiri) Algoritma 1 Input : : dua obyek, : himpunan kolom, : minimal jumlah kolom, : threshold cluster Output : Semua yang lebih dari kolom /* ie, untuk setiap di dalam */ sort array s /* menandakan ada kolom yang belum di uji di dalam */ v /* memperluas untuk meliputi lebih dari satu kolom */ else Return and Until Return and Langkah-langkah dari algoritma pair cluster object diatas, antara lain : 1 Menghitung variabel data, berdasarkan jumlah baris jumlah kolom 2 Membuat pair-object 3 Pada setiap pair-object yang telah terbentuk, dibuat matrik selisih antar dua object pada seluruh atribut 4 Kemudian hitung selisih per elemen matrik selisih 5 Jika selisih kurang dari threshold selisih index antar dua elemen memenuhi jumlah minimal kolom, maka buat MDS baru untuk pair-object ini Jika selisih lebih besar dari threshold, maka dilakukan pengecekan pada elemen matrik selanjutnya, jika index sudah mencapai akhir kolom selisih index antar dua elemen memenuhi jumlah minimal kolom, maka buat MDS baru untuk pairobject ini 6 Langkah 2-5 akan dilakukan terus menerus sampai pada pair-object terakhir Menurut definisi yang simetris, kolom baris dari data matrik mempunyai arti yang sama Sehingga, metode tersebut dapat digunakan untuk mencari MDSs untuk column-pair, Berikut pseucode dari algoritma 2, untuk mencari MDSs column-pair,, procedure yang terlibat :, dimana adalah jumlah minimal obyek (parameter ditentukan sendiri) Algoritma 2 Input : : dua kolom, : himpunan obyek, : minimal jumlah obyek, : threshold cluster Output : Semua yang lebih dari obyek /* ie, untuk masing-masing di dalam */ sort array s /* menandakan ada obyek yang belum di uji di dalam */ v /* memperluas untuk meliputi lebih dari satu obyek */ else Return and Until Return and Langkah-langkah dari algoritma pair cluster column diatas, antara lain : 1 Menghitung variabel data, berdasarkan jumlah baris jumlah kolom 2 Membuat pair-column Klasterisasi berdasarkan kesamaan pola dengan menggunakan algoritma pcluster 3

4 3 Pada setiap pair-column yang telah terbentuk, dibuat matrik selisih antar dua column pada seluruh atribut 4 Kemudian hitung selisih per elemen matrik selisih 5 Jika selisih kurang dari threshold selisih index antar dua elemen memenuhi jumlah minimal baris, maka buat MDS baru untuk pair-column ini Jika selisih lebih besar dari threshold, maka dilakukan pengecekan pada elemen matrik selanjutnya, jika index sudah mencapai akhir kolom selisih index antar dua elemen memenuhi jumlah minimal kolom, maka buat MDS baru untuk paircolumn ini 6 Langkah 2-5 akan dilakukan terus menerus sampai pada pair-column terakhir 34 Pruning Pruning merupakan suatu proses pencarian klaster dengan melakukan pengurangan, berdasarkan kekurangan Pairwise Clustering yang dieliminasi Langkah pruning di bagi menjadi 2 bagian, yaitu symmetric pruning pruning by block Jika diketahui : = threshold Ukuran cluster = = MDS obyek = MDS kolom Sehingga diperoleh dalil berikut : Misal adalah MDS untuk obyek, Untuk setiap, diperlukan kondisi untuk menjadi dengan syarat,, (2-7) Diasumsikan adalah Karena suatu submatrik dari juga merupakan, diketahui, adalah Menurut definisi MDS, ada paling sedikit satu MDS Jadi ada paling sedikit seperti MDSs Pencarian di dalam dengan ukuran Dengan kata lain, diperlukan, sehingga mampu untuk mencari paling sedikit MDSs column-pair yang berisi MDS Pruning symmetric Berdasarkan dalil 4, maka dapat dilakukan pruning seperti berikut Untuk setiap dimensi di dalam MDS, dihitung jumlah yang berisi Jika jumlah, dikurangi dari Selanjutnya, jika pengurangan membuat, maka juga dikurangi Karena pada definisi 1 model pcluster adalah simetris, maka dalil pruning dapat digunakan untuk MDSs object-pair maupun MDSs column-pair Bahwa, untuk setiap obyek di dalam MDS, dihitung jumlah yang berisi Jika jumlah, dikurangi dari Selanjutnya, jika pengurangan membuat, maka juga dikurangi Ini berarti bahwa diperoleh prune MDSs column-pair maupun MDSs object-pair secara bergantian Tanpa kehilangan generalisasi, pertama mengenerate MDSs column-pair dari data set Selanjutnya, saat mengenerate MDSs object-pair, digunakan MDSs column-pair untuk pruning Kemudian, prune MDSs column-pair menggunakan MDSs object-pair yang sudah diprune Langkah ini berulang sampai tidak ada MDSs yang dapat dieliminasi Algoritma 3 menguraikan tentang deskripsi tingkat tinggi dari proses MDS pruning symmetric, yang dapat diringkas dalam 2 langkah Pertama, mengamati data set untuk mencari MDSs column-pair untuk masingmasing column-pair, MDSs object-pair untuk masing-masing object-pair Langkah ini diperoleh dengan memanggil procedure dalam algoritma 1 algoritma 2 Langkah kedua, terjadi prune MDSs column-pair MDSs object-pair sampai tidak ada perubahan yang dapat dibuat Berikut pseucode dari algoritma 3, untuk mencari MDS pruning symmetric, procedure yang terlibat :, dimana adalah threshold cluster (ditentukan sendiri), adalah jumlah minimal kolom (ditentukan sendiri), adalah jumlah minimal obyek (ditentukan sendiri) Algoritma 3 Input : : data set, : threshold, : jumlah minimal kolom, : jumlah minimal baris Output : semua dengan ukuran for each mencari MDSs columnpair: for each mencari MDSs objectpair: for setiap menggunakan MDSs column-pair untuk prune kolom di dalam menghapus MDS for setiap menggunakan MDSs object-pair untuk prune obyek di dalam menghapus MDS until no pruning takes place Langkah-langkah dari algoritma symmetric prune diatas, antara lain : 1 Mengambil pair + MDS object maupun pair + MDS column, kemudian hitung jumlah masing-masing 2 Melakukan pengecekan pada setiap pair + MDS object, mengambil salah satu elemen MDS 3 Mengambil nilai jumlah pair-object dengan referensi MDS milik pair-column 4 Apabila jumlah pair-object referensi kurang dari jumlah minimal kolom, maka hapus salah satu elemen yang telah dipilih Klasterisasi berdasarkan kesamaan pola dengan menggunakan algoritma pcluster 4

5 5 Dan jika total elemen MDS object nilainya kurang dari jumlah minimal kolom, maka hapus seluruh item (pair + MDS object) 6 Apabila telah mencapai akhir daftar pair + MDS object maka lakukan pengecekan pada setiap pair + MDS column, ulangi langkah Proses akan terus berlangsung, sampai tidak ada MDS yang dapat dihapus MDS Pruning by Object Block MDS Pruning symmetric secara berulang-ulang menghapus MDSs column-pair MDSs object-pair, seperti definisi pcluster yang simetris maka dalil 4, dapat digunakan untuk baris kolom Dalam kenyataannya, dataset yang besar biasanya tidak simetris Pada dasarnya, dataset sering mempunyai lebih banyak obyek (baris) daripada atribut (kolom) Dalam MDS Pruning symmetric, untuk setiap dimensi di dalam MDS, dihitung jumlah yang berisi Saat jumlah dataset bertambah, jumlah setiap MDSs column-pair juga bertambah Ini membawa dampak negat pada efisiensi Pertama, mengenerate MDSs column-pair membutuhkan banyak waktu, seperti proses yang mempunyai kompleksitas Kedua, MDSs column-pair membuat himpunan query yang membutuhkan banyak waktu selama pruning Ketiga, MDSs column-pair juga membuat pruning simetris kurang efekt karena tidak dapat mengurangi setiap column-pair sebelum dikurangi MDSs column-pair yang berisi kurang dari obyek, dapat dikatakan untuk menghapus lebih dari obyek Untuk memecahkan masalah ini, dikelompokkan MDSs object-pair ke dalam blok merepresentasikan blok Sehingga setiap yang berisi obyek harus terletak di dalam Jadi, mengali pada dataset sama dengan mencari di setiap Pruning membutuhkan tempat dalam setiap blok juga, tetapi menghapus masukan di dalam satu blok mungkin memicu pengurangan inputan dalam blok yang lain, dimana dampak pruning lebih efisien Dalam proses MDS pruning berdasarkan blok, diringkas dalam dua langkah : 1 Langkah pertama, menghitung MDSs objectpair MDSs object-pair direpresentasikan dengan bitmap, bit ke- adalah himpunan jika kolom ke- di dalam MDS Tetapi tidak perlu menghitung MDSs column-pair 2 Langkah kedua, prune MDSs object-pair Untuk melakukan langkah ini, mengumpulkan informasi kolom untuk obyek dalam setiap blok Langkah ini lebih efisien dibanding menghitung MDSs column-pair untuk seluruh dataset (perhitungan komplesitas dari untuk setiap pasangan), dapat mendukung pruning across blok menggunakan informasi kolom yang dimaintain di setiap blok Cross pruning terjadi pada tiga level pruning pada level terendah akan memicu pruning pada level tertinggi : i) Menghapus bit di dalam bitmap untuk di dalam akan menyebabkan bit terhapus di dalam ii) Menghapus bitmap (ketika bitmap kurang dari bit) untuk pasangan di dalam akan menyebabkan korespondensi bitmap dikurangi di dalam iii) Menghapus (ketika bitmap berisi kurang dari pasangan ) secara berulangulang Algoritma 4 Input : : data set, : threshold pcluster : minimal jumlah kolom, Output : minimal jumlah baris : pruned object-pair MDSs for setiap, melibatkan untuk mencari MDSs representasi setiap MDS dengan bitmap (kolom) add bitmap ke dalam blok blok for setiap blok for setiap kolom jumlah pasangan yang unik yang mempunyai MDS bitmap untuk himpunan bit ke for setiap inputan di dalam blok MDS bitmap bit hapus bitmap ( hanya MDS bitmap untuk hapus inputan di dalam ) else hapus bit dalam bitmap di dalam eliminasi berisi inputan until no changes take place Langkah-langkah dari algoritma block prune diatas, antara lain : 1 Menghitung variabel data, berdasarkan jumlah baris jumlah kolom 2 Mengambil pair + MDS object 3 Menghitung variable yang mengandung pair + MDS object 4 Membuat MDS bitmap dari MDS object Jika berisi MDS maka bitmap diberi nilai 1, sebaliknya, jika tidak berisi MDS maka bitmap diberi nilai 0 5 Membuat matrik jumlah MDS perkolom untuk per blok (CC) 6 Membuat matrik jumlah MDS secara horizontal untuk per blok (sumb) 7 Melakukan pengecekan jumlah MDS kolom perblok 8 Jika kurang dari jumlah minimum baris, maka lakukan pengecekan terhadap bitmap 9 Jika jumlah MDS secara horizontal kurang dari jumlah minimum kolom pair ini hanya memiliki satu MDS, maka hapus pair Klasterisasi berdasarkan kesamaan pola dengan menggunakan algoritma pcluster 5

6 MDS ini Dan sebaliknya, Jika jumlah MDS secara horizontal lebih dari jumlah minimum kolom, maka hapus elemen bitmap yang terpilih 10 Bila telah mencapai akhir kolom, hitung total pair untuk satu blok 11 Jika total pair untuk satu blok kurang dari jumlah minimum baris, maka hapus pair + MDS lain yang terkait dengan (pair + MDS) lain yang terkait dengan (pair + MDS) saat ini Dan sebaliknya, jika total pair MDS untuk satu blok lebih dari jumlah minimum baris, maka ambil semua pair MDS bitmap yang tersisa 35 Algoritma Klasterisasi Langkah terahkir menemukan clustering Menggali subspace clustering dari pruned MDSs object-pair Tujuannya untuk mengkombinasikan cluster terkecil menjadi bentuk cluster besar berdasarkan antimonotonicity property Dalam Tugas Akhir ini, diperkenalkan metode baru, dengan memadukan unikasi pruning terhadap cluster-cluster yang telah dibentuk, yaitu pruned object-pair MDSs seperti graph, mengali clique dalam graph Setelah MDS pruning dalam langkah kedua, menyisakan obyek yang tampak seperti graph Di dalam graph, setiap node adalah obyek, edge menghubungkan dua node cluster pada MDS Digunakan untuk label edge Property 5 A pcluster of size adalah clique yang memenuhi dimana adalah MDS object-pair dikoneksikan oleh edge di dalam (2-8) Pembuktian Misal adalah clique Setiap dua node, dikoneksikan oleh edge Karena label, yang merepresentasikan MDS,, yang berisi paling sedikit kolom, dapat dikatakan, membentuk pcluster dengan himpunan kolom Jadi, menurut definisi pcluster,, adalah pcluster dengan ukuran Selanjutnya, tidak perlu mencari clique di dalam graph yang terdiri dari inputan himpunan object-pair MDSs Daripada mengalokasikan dalam setiap pruned block Ini karena berisi semua obyekobyek yang dihubungkan ke obyek Jadi, jika obyek tampak di dalam p-cluster harus terletak seluruhnya didalam Dapat juga dikatakan tidak perlu melakukan cliques atau pcluster dengan silang block Algoritma 4 menggambarkan proses pencarian pcluster dari block satu ke block lain Pertama, mengumpulkan semua MDSs yang ada yang terlihat pada masing-masing block Untuk MDSs yang associate nr pada masing-masing objek, sekumpulan cliquer procedure untuk mencari ukuran masingmasing clique setiap ukuran nr Procedure akan mengecek edges diantara objek-objek yang memiliki informasi pada setiap block Dengan mengijinkan satu set maximum pencarian waktu pada pencarian clique Proses selanjutnya, dengan mengenerate MDSs yang baru yang digabung dengan MDSs yang lama mengulangi proses MDSs yang baru kolom nc, dengan menyediakan masing-masing clique yang tidak pada subset pada pencarian pcluster Langkah mengenerate MDSs untuk symmetric pruning yang mempunyai kompleksitas dimana adalah jumlah kolom adalah jumlah obyek Untuk block pruning, dikurangi dengan karena hanya object-pair MDSs yang digenerate Worst case untuk symmetric prune block pruning adalah, walaupun rata-rata kurang, karena rata-rata ukuran column-pair MDS (jumlah obyek di dalam MDS) lebih kecil dari M Di dalam worst case, langkah terakhir dalam algoritma 4 mempunyai kompleksitas exponensial tentang jumlah kolom Bagaimanapun, karena kebanyakan MDSs tidak valid terhapus di dalam langkah pruning, dalam waktu sesungguhnya itu kurang dari mengenerate MDSs pruning MDSs Algorithm 5 Main Algorithm untuk menggali pcluster : pcluster() Input : : data set, : pcluster threshold, : jumlah minimal kolom : jumlah minimal baris Output: semua pcluster dengan ukuran for setiap block semua MDSs yang tampil di dalam (setiap yang terhubung yang tidak kurang dari di dalam ) for setiap MDS Klasterisasi berdasarkan kesamaan pola dengan menggunakan algoritma pcluster 6 obyek-obyek MDS yang bukan subset yang ditemukan dalam pcluster for setiap libatkan cliquer pada obyek-obyek MDS yang terasosiasi dengan : clique ditemukan ouput pcluster prune inputan di dalam block yang terhubung until tidak ada clique yang dapat ditemukan Langkah-langkah dari algoritma pcluster diatas, antara lain : 1 Menghitung variabel data, berdasarkan jumlah baris jumlah kolom 2 Mengambil pair + MDS bitmap dari proses pruning (symmetric/block) 3 Melakukan pengecekan terhadap semua blok yang tersisa dari proses block prune 4 Mencari elemen dari pair-object atau paircolumn yang terasosiasi dengan setiap MDS 5 Menghitung total dari elemen (obyek atau kolom) yang terasosiasi

7 6 Jikail total dari elemen (obyek atau kolom) yang terasosiasi kurang dari jumlah minimal baris, maka hapus pair + MDS yang terpilih pair + MDS yang lain dimana MDSnya sama dengan MDS yang terpilih Dan sebaliknya, jika total dari elemen (obyek atau kolom) yang terasosiasi lebih dari jumlah minimal baris, maka ambil MDS obyekobyek yang terasosiasi untuk diinputkan ke dalam data pcluster 7 Ulangi langkah 5-7 sampai mencapai MDS terakhir pada blok yang terpilih 8 Menghitung total pcluster pada blok yang terpilih 9 Melakukan pengecekan terhadap MDS, jika subset dari MDS telah terisi dalam pcluster, maka tambahkan obyek yang terasosiasi kepada obyek yang telah terdaftar di pcluster Dan sebaliknya, jika subset dari MDS belum terisi dalam pcluster, maka tambahkan MDS obyek yang terasosiasi di pcluster 10 Langkah 9 akan berulang sampai mencapai akhir elemen pcluster blok yang terpilih IV UJICOBA DAN EVALUASI Ujicoba evaluasi akan dilakukan dengan membandingkan antara pcluster menggunakan block dengan symetri Skenario yang pertama adalah uji coba dengan menambahkan jumlah baris di dalam data set Uji coba menggunakan data set sintetis yang digenerate dengan jumlah kolom sebanyak 7, dimana 7 merupakan total yang melekat di dalam data set Uji coba ini dengan menggunakan,,, dimana adalah jumlah baris dari data buatan Skenario yang kedua adalah uji coba dengan menambahkan jumlah kolom di dalam data set Uji coba menggunakan data set sintetis yang digenerate dengan jumlah baris sebanyak 100, dimana 100 merupakan total yang melekat di dalam data set Uji coba ini dengan menggunakan,,, dimana adalah jumlah kolom dari data buatan 41A 41B Gambar 41A Hasil pruning dengan jumlah baris yang berbeda di dalam data set, 52 Hasil pruning dengan jumlah baris yang berbeda di dalam data set 42A 42B Gambar 42A Hasil Klasterisasi dengan jumlah baris yang berbeda di dalam data set, 42B Hasil Klasterisasi dengan jumlah baris yang berbeda di dalam data set Klasterisasi berdasarkan kesamaan pola dengan menggunakan algoritma pcluster 7

8 Skenario yang ketiga adalah uji coba dengan menambahkan jumlah baris di dalam data set Uji coba menggunakan data set sintetis yang digenerate dengan jumlah kolom sebanyak 7, dimana 7 merupakan total yang melekat di dalam data set Uji coba ini dengan menggunakan,,, dimana adalah jumlah baris dari data buatanskenario yang keempat adalah uji coba dengan menambahkan jumlah kolom di dalam data set Uji coba menggunakan data set sintetis yang digenerate dengan jumlah baris sebanyak 100, dimana 100 merupakan total yang melekat di dalam data set Uji coba ini dengan menggunakan,,, dimana adalah jumlah kolom dari data buatan V KESIMPULAN Dari uji coba yang telah dilakukan dengan menganalisis hasil pengujian terhadap sistem ini, dapat diambil beberapa kesimpulan, sebagai berikut : 1 Klasterisasi berdasarkan clique lebih efisien dibandingkan dengan klasterisasi secara langsung 2 Block prune sangat efisien sangat efekt daripada symmetric pruning, karena dapat mengurangi object-pairs maupun column-pairs yang tidak berguna, yang akan memperbaiki performa dari klasterisasi berdasarkan clique REFERENSI [1] Wang Haixun, and Pei Jian, Clustering By Pattern Similarity, Journal Of Computer Science and Technology, vol 23, pp , 2008 [2] Yang J, Wang W, Wang H, Yu P S : Capturing subspace correlation in a large dataset In Proc ICDE, San Jose, USA, 2002, pp [3] Niskanen S, Ostegard P R J Cliquer user s guide, version 10 Technical Report T48, Communications Laboratory, Helsinki University of Technology, Espoo, Finland, Klasterisasi berdasarkan kesamaan pola dengan menggunakan algoritma pcluster 8