ISSN:' Jurnal Teknologi. ACAN,trFTIA [SEd[ Terdkcditaq tno. 56 DIKTI/KEP/2005) Vol. l2 No.l Agustus 2007 ""I

Transkripsi

1 ISSN:' Jurnal Teknologi ACAN,trFTIA [SEd[ Terdkcditaq tno. 56 DIKTI/KEP/2005) Vol. l2 No.l Agustus 2007 ""I -l

2 JURNAL TEKNOLOGI Pemimpir U mu rvpemlnpli Redaks i 0.. f wahyu PuNanto, MS E Pret AdiS@sanb, M.Sc. Ph.D P6l L wah[di Sudisedyawai slj ph0 0B Reh.lyo wadoyo, M sc,ph D k PdslJlno Eto Pambudi, [4.T. r Risma Ade ia Simajunlak M.'I 06. iudi Seryean, Ms, M $ suwairo Rahado, s.s., M Kom Ellyawai Selyo AdiilaM, ST., M $ Lehbaga Penelitian nsutur sa ns STeknolog AKPRTND Jl.(aishakNo 23 Kompleks Ba apai Yogyaratu Te p. {0r4) ,544504, Fe (0274) Emai academ a Glaloathnd ad d hno rr\vw aklind a. d H,A( DAN IGWA! AAN R OAKS Reda]Giig'dakiasl hyaigldakmem4jh' imea/pesyamlai t ki s, reigadaki peebarra ssian dasrah. mmpe$a ibah*ad be omulas deruan ISSN:14't0-5829

3 DAFIAR ISI Anarisls A rai Daya Tqa Fasa d Dislribus densan unt Pembaigkir yang Idak Terpusar Asuns Bud' Murano, t Made Ai NQtlha srud komparas Aqoriha Ieks aerbahasa lndonesia V A it H.hzah, Adhl s1santa, F Saesianta Jaz Eko lstyanto C/rsrerirg ookumen Gerakan Ta^ah Di KaEnssambunq. Penyebab dan Anrisipas pences.hainya Ap kas Sislem cer.las Kebtakaf Manalemen Resko Sstem Th rnvestgaton o Deposil or Radioisorope Eremenr with n The Mmins Subst.nce i lhewesltrmor rs and Nusa TengqaE Imur Banhabneus Pasanska, Prayata Ktfiani s Btotoptspto watuyo Pengatuh Vskosilas terhadap DislrbuslTekanan Radiatpada AtiEn danlara Dua E6uariPerayanan kuar,ese en.y Banr _^ o surabaya Eko Nrtmdnta Lanl)p Tn:Daana t@ry std)ona Pe^ssrnaan Multistags Fttet Adapr,ye wreror untuk Meninskarkan Kua tas cre Ftn utanininsrun wahyu Ad Pnjano - D'grdrH.s' oopp.as oe1sa" V.rodd d,o,d Marhemalioar fi,lodering for Emuson Lquid Membrane Peigaruh Ralio Asam ot,.atlorbirorpada produk solbibn Monooteal meta u i;:f;.8:,*'*"pembasahankataiste.hadapkonversiso]daamreaklor Mahrutl. F. Hunda c nawan Arelis s Pdbaike sistem Penlanahan pada Kaki rmenara saturan TEnsms Tegansan Tinggt1s0 Kv Eantu-semanu Joqlakana

4 STUDI KOMPARASI ALGORITMA HIERARCHICAL DAN PARTITIONAL UNTUK CLUSTERING DOKUMEN TEKS BERBAHASA INDONESIA Amir Hamzah 1), Adhi Susanto 2), F.Soesianto 2), dan Jazy Eko Istyanto 3) ABSTRACT Text document clustering is a technique that has been intensively studied because of its important role in text-mining and information retrieval. In the vector space model it is typically known two main clustering approaches,i.e. hierachical algorithm and partitional algorithm. The hierarchical algorithm produces deterministic result known as a dendogram, but its weakness is high complexity in time and memory. On the other hand, partitiaonal algorithm has linear time and memory complexity although its clustering result is not independent with its initial cluster. The aim of this researh was doing experimental study to compare the performance of several techniques of hierarchical algorithms and partitional algorithms in text document writen in Bahasa Indonesia. The five similarity techniques i.e. UPGMA, CSI, IST,SL and CL are chosen for hierarchical, whereas K-Means, Bisecting K-Mean and buckshot are chosen for partitonal. The document collections from 200 to 800 Indonesian text news that has been categorized manually was used to test these algorithms by using F-measure as clustering performance. This value was derived from Recall and Precision and can be used to measure the performance of the algorithms to correctly classify the collections. Results showed that Bisecting K-Mean as a variant of partitional algorithm has a performance as good as the two best hierarchical techniques,i.e. UPGMA and CL with much lower time complexity. Keywords: document clustering, hierarchical, partitional, clustering validation INTISARI Clustering dokumen merupakan teknik yang intensif dipelajari karena peran pentingnya dalam text mining dan sistem temu kembali informasi. Dalam model ruang vektor dikenal dua penden clustering, yaitu algoritma hierarchical dan algoritma partitional. Algoritma hierarchical menghasilkan clustering yang deterministik berupa sebuah dendodram dan tidak tergantung urutan dokumen tetapi memiliki kelemahan berupa kompleksitas memori dan waktu yang relatif besar. Algoritma partitional meskipun memiliki kompleksitas memori dan waktu yang lebih sederhana tetapi hasil clusteringnya bersifat probabilistik dan dipengaruhi oleh urutan dokumen. Penelitian ini bertujuan melakukan studi unjuk kerja dua penden algoritma tersebut untuk clustering dokumen teks berbahasa Indonesia. Algoritma hierarchical yang dikaji menggunakan lima teknik yaitu UPGMA, CST, IST, SL dan CL, sedangkan untuk algoritma partitional diambil metode K- Means, Bisecting K-Means dan Buckshot. Koleksi dokumen yang digunakan adalah dokumen teks berita bahasa Indonesia 200 sampai 800 dokumen. Parameter yang gunakan untuk membandingkan kinerja algoritma adalah F-measure, nilai yang diturunkan dari recall dan precision. Hasil penelitian menunjukkan bahwa Bisecting K-Mean memiliki kinerja yang sebanding dengan dua teknik terbaik hierarchical, UPGMA dan CL dengan kompleksitas waktu yang jauh lebih kecil. Kata kunci : clustering dokumen, hierarchical, partitional, validitas clustering PENDAHULUAN Pemanfaatan teknologi digital dan jaringan komputer telah menyebabkan ledakan informasi berkembang eksponensial. Hal ini menyebabkan kesulitan dalam menemukan kembali informasi yang cenderung tidak efektif, baik dalam pencarian maupun penyajian informasinya. Beberapa penelitian mengatasi masalah ini dengan memanfaatkan teknik 1) Jurusan Teknik Informatika, FTI, IST AKPRIND, Yogyakarta, miramzah@yahoo.co.id 2) Jurusan Teknik Elektro, Fak. Teknik, UGM, Yogyakarta 3) Jurusan Fisika, Fak. MIPA, UGM, Yogyakarta 11 clustering untuk meningkatkan efektifitas pencarian (Tombros, 2002) atau mengemas hasil pencarian sehingga dapat disajikan lebih efektif (Zamir,1999; Osinki, 2004). Dalam dunia web saat ini diperkirakan ada lebih dari 16 milyar dokumen terindeks ( 2007), dengan jutaan halaman web bertambah setiap hari dan sebagian besar adalah dokumen teks, yang mencapai 80% total informasi (Bifet, 2005).

5 Membanjirnya informasi teks digital digital ini telah mendorong kebutuhan riset untuk elaborasi koleksi teks (text-mining) dan riset untuk optimalisasi mesin pencari informasi (information retrieval system), atau sistem IR. Meningkatnya jumlah bahasa dalam web telah menjadi tantangan baru penelitian sistem IR. Saat ini masih sangat sedikit penelitian dibidang IR dan clustering dokumen yang berbasis bahasa Indonesia (Nazief, 2000). Menurut Asian(2004), Indonesia dengan jumlah penduduk diatas dua ratus juta sangat memerlukan penelitian pada dua bidang tersebut, mengingat kebanyakan penelitian yang ada selalu berbasis bahasa Inggris. Penerapan clustering dokumen untuk meningkatkan kinerja sistem IR telah lama diterapkan (Rijbergen, Model clustering dokumen yang sering diterapkan untuk meningkatkan efektivitas pencarian query dalam koleksi dokumen adalah model hierarchical, baik aglomerative maupun divisive (Tombros,2002). Model ini memiliki karakteristik tidak tergantung pada urutan dokumen dan menghasilkan clustering yang pasti. Kelemahan model ini adalah kompleksitas waktu dan memory yang tinggi (Jain,1988). Model lain yang belum banyak diterapkan dalam sistem IR adalah partitional. Menurut Kural(1999), koleksi dokumen tidak selalu instrinsik berstruktur hierarchi sehingga penden ini tidak selalu sesuai. Penden partitional memiliki keuntungan kompleksitas waktu komputasi dan penggunaan memory yang linear, meskipun memiliki kelemahan pada hasil clustering yang kurang pasti karena tergantung pada urutan dokumen dan inisialisasi awal clustering. Untuk dokumen berbahasa inggris perbandingan clustering antara beberapa metode hierarchical dan partitional telah dilakukan oleh Steinbach et.al. (2000) dimana hasilnya adalah meode Bisecting K-Maen memiliki kinerja yang sebanding dengan metode hierarchical UPGMA. Namun hasil penelitian ini sangat mungkin tidak sama jika diterapkan pada dokumen bahasa Indonesia mengingat ada proses stemming pada tahap per-processing yang menggunakan algoritma berbeda anyara bahasa inggris dengan bahasa Indonesia. Penelitian ini bertujuan melakukan kajian ekperimental untuk membandingkan kinerja algoritma hierarchical dan algoritma partitional dalam melakukan clustering dokumen teks untuk dokumen berbahasa Indonesia. Hasil yang diharapkan adalah berupa rekomendasi untuk pemilihan algoritma yang paling efisien ditinjau dari waktu komputasi dan penggunaan memori dengan tidak mengorbankan kinerja clustering. Model ruang vektor untuk koleksi dokumen mengandaikan dokumen sebagai sebuah vektor dalam ruang (feature). Klustering dokumen dipandang sebagai pengelompokan vektor berdasarkan suatu fungsi similarity antar dua vektor tersebut. Jika koleksi n buah dokumen dapat diindeks oleh t buah term/feature maka suatu dokumen dapat dipandang sebagai vektor berdimensi t dalam ruang term tersebut. Dengan demikian koleksi dokumen dapat dituliskan sebagai matrik dokumen X, yang dapat ditulis : ke j X = {x ij } i= 1,2,..t ; j =1,2,.. N (1) x ij adalah bobot term i dalam dokumen Proses menyusunan matrik -dokumen (sering disebut tahap pre-processing) adalah sebagai berikut: tahap awal adalah pengubahan ekspresi ke lower-case dan penghilangan stop-word, seperti artikel atau preposisi misalnya ini, itu, yang, yaitu dan lain-lain. Penghilangan stop-word ini dapat mengurangi frekuensi feature 30 sampai 40 persen (Rijsbergen,1979). Proses leksikal yang lain terhadap feature adalah proses stemming, yang akan mereduksi semua ke dalam akar nya. Algoritma stemming yang sudah luas diterapkan dalam sistem IR adalah algoritma yang dibangun oleh Porter (1987), biasa disebut dengan Porter Stemmer. Algoritma ini telah dimodifikasi ke dalam berbagai bahasa. Modifikasi untuk bahasa Indonesia dilakukan oleh Tala(2004). Review detail tentang stemmer bahasa Indonesia telah dilakukan oleh Asian(2005), sedangkan efek stemming pada clustering dokumen bahasa Indonesia dilakuan oleh Hamzah (2006). Untuk meningkatkan kemampuan term sebagai pembeda dokumen pembobotan atas term perlu dilakukan. Pembobotan dasar dilakukan dengan menghitung frekuensi kemunculan term dalam dokumen karena dipercaya bahwa frekuensi kemunculan term merupakan petunjuk sejauh mana term tersebut mewakili isi dokumen. Menurut Luhn (1958), kekuatan pembeda terkait dengan frekuensi term (term-frequency, tf), di mana term yang memiliki kekuatan diskriminasi adalah term dengan frekuensi sedang. Untuk itu pemotongan frekuensi bawah biasanya ditempuh dengan memberikan treshold tertentu untuk minimal jumlah dokumen yang memuat term tersebut. Pemotongan term dengan 12

6 frekuensi tinggi dilakukan dengan membuang stop-word. Penggunaan hanya frekuensi term dalam dokumen sebagai bobot term tersebut dalam representasi dokumen tidaklah memadai. Hal ini karena bias dapat muncul dari faktor lain, misalnya banyaknya dokumen yang memuat term tersebut, atau faktor panjang dokumen dimana term tersebut muncul (Rijsbergen, 1979). Faktor panjang dokumen dalam koleksi berakibat seolah-olah term yang sering muncul pada dokumen panjang lebih penting dari pada term yang kurang sering muncul pada dokumen pendek. Untuk itu normalisasi frekuensi term terhadap panjang dokumen diperlukan. Secara umum bentuk pembobotan akhir term dapat dirangkumkan sebagai berikut (Chisholm et.al.,1999) : w ij =L ij.g i.n j (2) di mana w ij adalah akhir bobot total term i dalam dokumen ke j, L ij adalah bobot lokal term i dalam dokumen ke j yang mengukur seberapa penting peranan term i dalam dokumen j, G i bobot global term i yang mengukur seberapa penting term i dalam seluruh koleksi dokumen, dan N j adalah faktor normalisasi untuk dokumen ke j untuk menghilangkan pengaruh bias karena panjang dokumen. Berbagai variasi pembobotan lokal, global dan normalisasi yang dapat diterapkan pada vektor dokumen dirangkumkan dalam Chisholm et.al. (1999). Kombinasi terbaik yang sering digunakan adalah f ij untuk bobot lokal L ij (disebut TF), dan log N n i sebagai bobot global G i (disebut IDF) dan pembobotan normal sehingga panjang vektor adalah satu, yaitu : N j = m i 0 1 (3) G i L ij Sehingga bentuk akhir disebut sebagai pembobotan TF-IDF ternormalisasi, yaitu : w ij = (log( f ij 2 1).log N n i 2 (4) t N (log( f ij 1).log i1 ni di mana w ij adalah akhir bobot total term i dalam dokumen ke j, f ij adalah frekuensi ke-i dalam dokumen ke-j, N cacah dokumen dalam koleksi, n i cacah dokumen mengandung term i dan t adalah cacah total term. Kesamaan antara dokumen D i dengan dokumen D j dapat diukur dengan fungsi similaritas ( mengukur kesamaan) atau fungsi jarak (mengukura ketidaksamaan). Beberapa fungsi similaritas dan fungsi jarak yang dapat dijumpai antara lain adalah Dice, Jaccard, Overlap, asimmetric, Minowski distance, Euclidean distance, Pearson Correlation dan Cosine. Menurut Strehl et.al.(2000) untuk tujuan clustering dokumen jarak fungsi yang paling baik adalah fungsi similariutas Cosine, berikut : Cosine-sim(D i,d j )= t i1 D D t t 2 ( Di ) i1 i1 i j ( D ) j 2 (5) Selanjutnya jika vektor dokumen Di dan vektor dokumen Dj masing-masing adalah ternormalisasi menjadi vektor satuan, sehingga Di 2 =1 dan Dj 2 =1 maka fungsi similaritas cosine menjadi perkalian antar vektor, yaitu : Cosine-sim(D i,d j ) = t i1 D i D j (6) Suatu formula yang penting dalam clustering dokumen adalah representasi pusat kluster. Menurut (Rijsbergen, 1979) representasi pusat kluster dapat diwakili oleh dokumen atau beberapa dokumen yang berada di tengah. Namun formula yang paling sering adalah ratarata vektor dokumen (m) seperti rumusan (7) berikut : 1 n k m= nk i1 D i (7) dengan n k adalah cacah dokumen dalam kluster ke-k. Seleksi feature Setelah pemotongan frekuensi atas dengan dengan stop-word filtering dan frekeunsi bawah dengan memberi treshold (batas) minimal, jumlah yang terindeks untuk matrik -dokumen biasanya masih relatif besar. Untuk itu seleksi dapat ditempuh dengan memilih yang memiliki variansi frekeunsi keumnculan besar (Dhillon et.al., 2002; Hamzah, 2006). Untuk teks bahasa Indonesia seleksi dengan cara ini dapat menurunkan feature sampai 15% dari jumlah semula dengan kinerja clustering tidak menurun (Hamzah, 2006). Rumusan variansi tiap dapat dituliskan sebagai persamaan () berikut : 13

7 ni q i (t)= f j1 ni 2 1 j ni j1 2 f j (8) dengan q i adalah variansi jika frekuensi minimal muncul dalam analisis adalah i (i=0,1,2,...). Clustering Dokumen Clustering didefinisikan sebagai upaya pengelompokan data ke dalam kluster sehingga data-data didalam kluster yang sama memiliki lebih kesamaan dibandingkan dengan data-data pada kluster yang berbeda (Jain,1988). Dari penerapan clustering yang luas pada bidang sains dan teknik salah satu penerapannya adalah untuk clustering dokumen. Metode Hierarchi Agglomerative untuk Clustering dokumen Berikut ini algoritma dasar klustering secara aglomerative, dengan menggunakan notasi ĉ = himpunan cluster, N = cacah objek dan c = cacah cluster yang akan dibuat: [1]. Andaikan ĉ =N ; himpunan objek C={x i }, i=1,2, n [2]. Jika ĉ < c stop [3]. Temukan dua kluster terdekat : C i dan C j [4]. gabungkan C i dan C j, hapus C j dan kurangi ĉ dengan satu [5]. 5. Pergi ke langkah 2 Tahap paling krusial yaitu langkah 3, ditentukan dengan beberapa ukuran similaritas antar kluster antara lain, misalnya : UPGMA, CST, IST, Single Link dan Complete Link (Jain,1988). Berikut ini ringkasan masingmasing teknik tersebut: Unweighted Pair Group Method Average similarity (UPGMA): Similaritas dua kluster diukur dengan rata-rata hitung similaritas antar seluruh pasangan titik antara kedua kluster. Centorid- Similarity Technique(CIST) : Jarak antar kluster ditentukan dengan jarak antar pusat kluster. Intra-Cluster Similarity (IST) : Dua kluster digabungkan jika selisih similaritas dua cluster gabungan dengan similaritas masingmasing kluster adalah maksimal. Single Link (SL) : jarak terbaik dua kluster diwakili oleh jarak terdekat (similaritas tertinggi) dari dua titik dari dua kluster. Complete Link(CL) : jarak terbaik dua kluster diwakili oleh jarak terjauh (similaritas terendah) dari dua titik dari dua kluster. Secara teknis masukan bagi algoritma hierarchical clustering adalah matriks similaritas antar dokumen yang berukuran NxN. Iterasi yang setiap tahapnya melakukan penggabungan kluster dilakukan dengan melakukan update pada matrik similaritas. Hal inilah yang menyebabkan algoritma ini memiliki kompleksitas waktu dan ruang O(N 2 ). K-Means Clustering Algoritma K-means clustering merupakan algortima iteratif dengan meminimalkan jumlah kuadrat error antara vektor objek dengan pusat kluster terdekatnya (Jain, 1988), yaitu : K n j SSE= xi m j j1 i1 2 (9) di mana m j adalah pusat kluster (mean vector) dalam kluster ke j. Selanjutnya algoritma K- means standard dapat dituliskan sebagai : [1]. Ambil K objek sebagai seed dari K pusat kluster [2]. Untuk semua objek: cari kluster dengan jarak terdekat, dan tetapkan objek masuk dalam kluster tersebut. [3]. Hitung ulang pusat kluster dengan rata-rata objek dalam kluster tersebut [4]. Hitung fungsi kriteria dan lakukan evaluasi. Jika fungsi kriteria berubah cukup kecil algoritma berhenti. Fungsi kriteria yang dimaksud dalam langkah [4] dapat diambil SSE persamaan (9). Bisecting K-Means Clustering Metode Bisecting K-means Steinbach et.al. (2000) mencoba menggabungkan penden partitional dengan divisive hierarchical, yaitu mula-mula seluruh dokumen dibagi dua dengan cara K-means (bisectingstep). Selanjutnya cara itu dikenakan pada suatu kluster yang dipilih dengan cara tertentu sampai diperoleh K buah kluster. Berikut ini algoritmanya : [1]. Ambil satu kluster untuk displit dengan K- means (bisecting step) [2]. Ulangi langkah [1] sebanyak ITER kali, dan ambil hasil terbaik yang memiliki overal similarity terbesar. 14

8 [3]. Ulangi langkah [1] dan [2] sampai didapatkan K buah kluster. Overall similarity pada langkah [2] ditentukan sebagai rata-rata similaritas setiap titik terhadap pusat klusternya masing-masing. Sedangkan pemilihan kluster pada langkah satu pada setiap iterasinya dapat digunakan cara memilih kluster dengan ukuran cacah objek terbesar atau memilih kluster yang memiliki variance terbesar. Buckshot Clustering Algoritma Buckshot menggunakan penden hierarchie agglomerative untuk mendapatkan k buah vektor sebagai pusat kluster awal (Cutting et.al.,1992). Langkah Buckshot mula-mula mengambil sampel acak sebesar kn buah dokumen, yang dikluster dengan cluster subroutine, yaitu prosedur hierarchie agglomerative untuk mendapatkan k buah kluster. Selanjutnya dengan partisi awal yang didapat dari Buckshot proses refinement dilakukan sebagaimana dalam K-means clustering. Validitas Clustering (Cluster validity) Untuk mengevaluasi hasil dari suatu algoritma clustering diusulkan konsep yang disebut dengan validitas clustering (cluster validity). Validitas yang dapat digunakan antar lain Confusion Matrix yaitu matriks yang disusun berdasarkan berapa banyak objek yang diklasifikasikan dengan benar oleh proses clustering (Halkidi et.al.,2001) Dua pengukuran kualitas clustering yang dapat diturunkan dari confusion matrix yang umum digunakan untuk document clustering adalah F-measure (persamaan (10) dan entropy (E-measure) (persamaan 11) : F-measure = E-measure = 1-2PR P R 2PR P R Eksperimen yang dilakukan (10) (11) Bahan eksperimen berupa test-collection dokumen teks yang diambil dari koleksi (Asian, 2004) dikemas menjadi 6 koleksi yang masingmasing telah dikluster secara manual. Statistik koleksi tes tersaji dalam Tabel Tabel 1. Koleksi Dokumen Untuk Pengujian algoritma clustering Colec Name doc clus Clust Size uniqw ord avg word/ doc K Sama K Sama K Beda K Beda K Beda K Beda K Beda K Beda Setiap koleksi terdiri dari sejumlah dokumen dengan format tiap dokumen seperti gambar 1. <DOC> <DOCNO>news035-html</DOCNO> eriksson akan ijinkan tim piala dunia inggris mencicipi bir london media tim piala dunia inggris akan diijinkan untuk sekali-sekali mencicipi bir maupun anggur dalam final di korea selatan dan jepang tahun ini satu gelas minuman tak akan membuat seseorang menjadi pemain yang lebih baik atau buruk pelatih sven goran eriksson di london </DOC> Gambar 1. Format koleksi dokumen untuk Tes Alat penelitian berupa seperangkat komputer dengan perangkat keras Processor Intel Pentium IV 2.8 GHz, RAM 1 GB, dan Hard Disk 80 GB dan perangkat lunak MS- WINDOWS, MATLAB for WINDOW, J2SDK dan SPSS for WINDOWS Tahapan eksperimen dimulai dengan preprocessing dokumen dengan ekstrak dengan menggunakan treshold minimal disesuaikan dengan koleksi, yaitu 3 untuk K100, K200, K300 dan K400, dan berturut-turut 4,5,6 dan 7 untuk koleksi K500, K600, K700 dan K800. Perlakukan stemming terhadap feature dilakukan untuk meningkatkan kinerja clusterin g dan menurunkan jumlah feature terindeks. Proses stemming dilakukan dengan algoritma Tala (2004). Penyusunan matrik dokumen dengan pembobotan ternormalisasi seperti rumus pada persamaan (5). Program dirancang dengan coding bahasa Java. Selanjutnya metode-metode clustering yang akan diujikan, yaitu : UPGMA, CST, IS, SL dan CL dan metode partitional (K-means,

9 bisecting k-means, Buckshot) dibuat kodingnya menggunakan script MATLAB. Hasil evaluasi kinerja clustering yang diwakili oleh ukuran F-measure untuk setiap algoritmanya kemudian dianalisis. Perbandingan kinerja juga dilakukan dengan melihat kompleksitas waktu clustering. Pengujian statistik dikakukan dengan one way anova test untuk pengamatan berpasangan dengan paket statistik SPSS. PEMBAHASAN Penyunan matrik -dokumen Penyusunan matrik- dokumen dengan melakukan ekstrak dengan batas minimal disesuaikan dengan besar koleksi dan stop-word filtering dengan menggunakan stoplist dari Tala(2004) yang berupa 764 daftar. Hasil statistik tersaji dalam Tabel 2. Sesuai dengan teori frekuensi dari Luhn(1958) bahwa distribusi dalam koleksi akan didominasi dengan frekuensi rendah, Tabel 2 memperlihatkan bahwa hampir pada seluruh koleksi 75% lebih dalam koleksi adalah memiliki frekuensi kemunculan maksimal 5 kali. Penyusunan matrik dokumen selanjutnya berdasarkan yang telah dibatasi frekuensinya, yaitu sebanyak seperti pada kolom terakhir Tabel 2 Kinerja algoritma hierarchical Untuk melihat kinerja algoritma hierarchical dalam clustering disajikan hasil rangkuman nilai F-measure dari clustering dengan lagoritma tersebut untuk seluruh koleksi yang ada ( Tabel 3 ). Terlihat dari rata-rata nilai F-measure bahwa dua metode yang terbaik adalah metode UPGMA dan CL. Untuk koleksi K100 dan K200 yang terbaik adalah CL, sedangkan untuk koleksi K300 sampai K800 adalah metode UPGMA. Grafik rata-rata kinerja clustering disajikan dalam Gambar 2. Secara keseluruhan kinerja algoritma akan menurun dengan semakin banyaknya dokumen yang dikluster. Metode hierarchi akan sangat peka terhadap pertambahan dokumen karena kompleksitas waktu komputasinya kuadratis terhadap jumlah dokumen. Dari lima metode komputasi similaritas metode Single Link menunjukkan kinerja yang paling buruk meskipun waktu komputasi ralatif sama dengan algoritma yang lain. Tabel 2. Statistik ekstraksi feature berdasar minimum frekuensi kemunculan Koleksi f=1 f=2 f=3 f=4 f=5 f>5 f <=5 % f<=5 min f f>min K % K % K % K % K % K % K % K %

10 F-measure Waktu (detik) JURNAL TEKNOLOGI ACADEMIA ISTA ISSN: Tabel 3. Nilai F-measure algoritma hierarchical untuk seluruh koleksi dan rata-ratanya Metode K100 K200 K300 K400 K500 K600 K700 K800 rerata UPGMA 0,9600 0,9236 0,9278 0,8543 0,8083 0,6167 0,6695 0,6261 0,7983 CST 0,6843 0,5004 0,2558 0,3040 0,1747 0,2194 0,2171 0,1870 0,3178 IST 0,9252 0,7193 0,7494 0,5846 0,8029 0,8130 0,6456 0,4256 0,6857 SL 0,5596 0,2792 0,1870 0,1847 0,1649 0,2181 0,2115 0,1870 0,2490 CL 0,9694 0,9453 0,8553 0,7842 0,5215 0,6021 0,6523 0,5320 0,7577 Catatan : cetak tebal = nilai terbesar Tabel 4. Nilai Rata-rata F-measure algoritma partitional untuk seluruh koleksi dan rata-ratanya Metode K10 0 K200 K300 K400 K500 K600 K700 K800 a rerat K-Mean 0,7095 0,7342 0,6890 0,6197 0,4196 0,5558 0,4523 0,5269 0,5884 BSC-KM 0,8761 0,8967 0,8711 0,8739 0,7869 0,6498 0,6012 0,6200 0,7720 Buckshot 0,8612 0,7427 0,7061 0,6546 0,5447 0,5625 0,4952 0,4135 0,6178 Catatan : cetak tebal = nilai terbesar 1,00 0,80 0,60 0,40 0,20 0,00 UPGMA CST IST SL CL 1200,0 1000,0 800,0 600,0 400,0 200,0 0,0 UPGM A CST IST SL CL Metode Jumlah Dokumen Gambar 2. F-measure rata-rata hierarchical Gambar 3. Waktu komputasi metode hierarchical Perbandingan waktu komputasi dari ke lima metode hierarchi dapat disajikan dalam tabel berikut. Terlihat dari gamabr /tabel bahwa mulai koleksi K500 terjadi lonjakan waktu komputasi hampir pada semua metode kecuali metode CST. Metode CST mengalami lonjakan waktu yang relatif kecil dibandingkan 4 metode yang lain. Hal ini berkaitan dengan metode perhitungan jarak antar cluster pada CST, dimana kesamaan dua kluster dihitung sebagai kesamaan antar pusat klusternya. Pada metode ini tidak diperlukan perhitungan similaritas antar pasangan data dari dua kluster sebagaimana 4 metode yang lain. Kinerja algoritma Partitional Karena algoritma partitional tidak menghasilkan hasil clustering yang bersifat pasti maka nilai F-measure sebagai ukuran kinerja diperoleh dari nilai rata-rata 5 kali eksekusi ( 5 run ) program. Hasil rangkuman kinerja clustering metode partitional disajikan seperti Tabel 4. Secara konsisten terlihat bahwa algoritma partitional yang memiliki kinerja terbaik adalah Bisecting K-Mean. Sedangkan urutan kedua adalah Buckshot dan yang paling buruk adalak K-Mean murni (Gambar 4). Disini terlihat bahwa algoritma K-Mean tanpa 17

11 Waktu clustering (detik) F-measure F-measure JURNAL TEKNOLOGI ACADEMIA ISTA ISSN: modifikasi menghasilkan clusteirng yang sangat buruk meskipun waktu komputasinya paling cepat. Sesuai dengan karakteristik algortima partitonal yang bersifat linear terhadap jumlah dokumen algoritma ini tidak bermasalah besar dengan berjumlahnya dokumen yang dikluster. Gambar 5 menunjukkan grafik yang landai untuk koleksi dari 100 sampai 800 jika dibandingkan dengan grafik waktu komputasi pada hierarchical pada gambar 3. 1,0000 0,8000 0,6000 0,4000 0, K-Mean1 Bisct-KM Bucksht Metode Gambar 4. Kinerja rata-rata metode partitional 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 - Cacah dokumen K-Mean Bisect- KM Bucksh ot Gambar 5. Waktu clustering partitional Perbandingan kinerja algoritma hierarchical dan partitional. Untuk penggunaan 100% term Jika kinerja clustering hiararchical dan patitional dibandingkan kinerjanya melalui F-measure, terlihat bahwa kinerja partitional Bisect K-Mean masih lebih baik dari kinerja algoritma hierarchical metode CST danm Single Link (SL) dan sedikit dibawah metode UPGMA dan CL yang merupakan metode terbaik dari hierarchical (Gambar 6). Penggunaan 100% term memiliki kinerja yang cenderung kurang baik karena tingginya dimensi umumnya mempengaruhi kualitas perhitungan karena efek curse of dimensionality, yaitu nilai jarak 2 objek dalam dimensi tinggi cenderung bernilai sama (Hinneburg,1999). 1,00 0,80 0,60 0,40 0,20 0,00 UPGMA CST IST SL CL Metode KM BKM BSH Gambar 6. Perbandingan Kinerja clustering Penggunaan feature yang lebih rendah pada jumlah yang tepat dapat memperbaiki kinerja. Sebagai contoh untuk koleksi K400 yang terdiri dari 400 dokumen telah dipilih feature dengan menggunakan metode analisis variance frekeunsi kemunculan seperti rumus (8) kemudian dipilih 20%,15%,10% dan 5% dengan variansi terbesar. Hasil clustering dapat disajikan seperti dalam Tabel 5 berikut. Tabel 5. Efek seleksi feature pada F-measure Persentase penggunaan feature Metode 100% 20% 15% 10% 5% UPGMA 0,854 0,804 0,822 0,810 0,800 CST 0,304 0,375 0,401 0,597 0,583 IST 0,585 0,642 0,865 0,716 0,768 SL 0,185 0,238 0,204 0,238 0,235 CL 0,784 0,891 0,878 0,905 0,845 K-MEA 0,620 0,695 0,746 0,660 0,622 BSC-K 0,874 0,870 0,880 0,856 0,838 BSHOT 0,655 0,758 0,803 0,751 0,654 rerata 0,608 0,659 0,692 0,691 0,668 Catatan: printbold = terbesar tiap metode/rerata Pengujian statistik dengan one-way anova dengan persentase feature sebagai treatment dan metode sebagai ulangan menunjukkan bahwa rerata perbedaan setiap persentase feature tidak berbeda signifikan (lihat analisis SPSS Tabel 6). Hal ini menunjukkan bahwa dengan melakukan seleksi feature kinerja clustering tidak menjadi turun, bahkan cenderung naik meskipun kenaikan tidak signifikan. Dari Tabel 5 tyerlihat rerata F- measure tertinggi adalah pada penggunaan 15%, yaitu sedikit diatas penggunaan 10%. Pada koleksi-koleksi yang lain, jika seleksi feature dilakukan hasilnya kurang lebih sama dengan hasil pada koleksi K400, misalnya pada 18

12 F-measure JURNAL TEKNOLOGI ACADEMIA ISTA ISSN: koleksi K300 (Tabel 7) dan koleksi K500(Tabel pada prosentase 5%-10%. 8), kinerja clustering terbaik justru kebanyakan Tabel 6. Anova untuk efek seleksi feature terhadap F-measure pada koleksi 400 dok Sum of Squares df Mean Square F Sig. Between Groups,042 4,011,201,936 Within Groups 1,848 35,053 Total 1, ,000 0,800 0,600 0,400 0,200 - UPGMA CST IST SL CL K-MEA BSC-K BSHOT 100% 20% 15% 10% 5% Metode Gambar 7. Efek seleksi feature pada kinerja clustering untuk seluruh metode Tabel 7. Efek seleksi Feature pada F-measure Untuk koleksi 300 dokumen Persentase penggunaan feature Metode 100% 20% 15% 10% 5% UPGMA 0,028 0,780 0,783 0,777 0,841 CST 0,056 0,527 0,597 0,682 0,674 IST 0,049 0,758 0,877 0,848 0,890 SL 0,087 0,254 0,186 0,185 0,187 CL 0,055 0,834 0,842 0,903 0,778 K-MEA 0,089 0,774 0,634 0,538 0,773 BSC-K 0,071 0,956 0,877 0,977 0,908 BSHOT 0,006 0,889 0,700 0,753 0,761 rerata 0,055 0,722 0,687 0,708 0,726 Catatan: printbold = terbesar tiap metode/rerata Tabel 8. Efek seleksi Feature pada F-measure Untuk koleksi 500 dokumen Persentase penggunaan feature Metode 100% 20% 15% 10% 5% UPGMA 0,808 0,804 0,803 0,801 0,820 CST 0,175 0,662 0,662 0,789 0,733 IST 0,803 0,933 0,920 0,953 0,950 SL 0,165 0,211 0,282 0,421 0,169 CL 0,522 0,831 0,890 0,826 0,833 K-MEA 0,420 0,458 0,782 0,520 0,575 BSC-K 0,787 0,773 0,802 0,851 0,822 BSHOT 0,545 0,464 0,548 0,676 0,602 rerata 0,528 0,642 0,711 0,730 0,688 Catatan: printbold = terbesar tiap metode/rerata Dari gambar 7 juga terlihat bahwa feature yang tidak 100% justru memperlihatkan kinerja clustering yang lebih baik dari feature 100%, misalnya pada metode CST, CL dan Buckshot. Pada gambar tersebut juga terlihat kinerja Bisecting K-Mean sebanding dengan kinerja UPGMA dan CL. KESIMPULAN Beberapa kesimpulan yang dapat ditarik dari penelitian ini adalah : Kinerja algoritma clustering hierarchical yang terbaik adalah metode UPGMA dan Complet Link. Kinerja algoritma partitional yang terbaik adalah metode Bisecting K-Means Metode bisecting K-Means jika dibandingkan dengan kinerja dua metode terbaik dari algoritma hierchical menunjukkan hasil yang tidak kalah, terutama jika menggunakan seleksi feature terlebih dahulu, akan tetapi memiliki kelebihan berupa kompleksitas waktu dan memori yang jauh lebih kecil. 19

13 Waktu clustering algoritma hierarchicel seluruh metode jauh lebih besar dengan algoritma partitional. Perbedaan waktu ini semakin mencolok jika jumlah koleksi dokumen semakin besar. Algoritma partitioanal Bisecting K-Mean memiliki kelebihan jika dokumen dalam koleksi cenderung membesar. Seleksi akan memperbaiki kinerja clustering dan rata-rata pada 10 sampai 15% memberikan hasil yang lebih baik dari pada menggunakan 100%. DAFTAR PUSTAKA Asian, J., H. E. Williams, and S. M. M. Tahaghoghi, 2004, Tesbed for Indonesian Text Retrieval, 9th Australian Document Computing Symposiom, Melbourne December, 13. Asian, J., H. E. Williams, and S. M. M. Tahaghoghi, 2005, Stemming Indonesian, 28th Australian Computer Science Conference (ACS2005). Bifet, A., C. Castillo, P. A. Chirita and I. Weber, 2005, An Analysis of Factors Used in Search Engine Ranking. airweb.cse.lehigh.edu/2005/bifet.pdf Chisholm, E. and T. G. Kolda, 1999, New Term Weighting Formula for the Vector Space Method in Information Retrieval, Research Report, Computer Science and Mathematics Division, Oak Ridge National Library, Oak Ridge, TN , March Cutting, D. R., D. R. Karger, J. O. Pederson, and J. W. Tukey,1992, Scatter/Gather:A Cluster-based Approach to Browsing Large Document Collection, Procedding 15 th Annual Int 7ACM SIGIR Conference on R&D in IR, June Dhillon, I., J. Kogan, and C. Nicholas, 2002, Feature Selection and Document Clustering, m/koghan.pdf Halkidi, M., Y. Batistakis, and M. Vazirgiannis, 2001, On Clustering Validation Techniques, Journal of Intelligent Information System17:2/3, Hamzah, A,2006, Pengaruh Stemming Kata Dalam Peningn Unjuk Kerja Document Clustering Untuk Dokumen Berbahasa Indonesia, Proseding Seminar Nasional Riset Teknologi Informasi, AKAKOM, yogyakarta. Hinneburg, A. and D.K. Keim, 1999, Optimal Grid-Clustering: Towards Breaking the Curse of Dimensionality in High- Dimensional Clustering, Proceeding of 25 th VLDB Conference, Edinburg, Scotland. Jain, A.K. and R. C. Dubes, 1988, Algorithms for Clustering Data, Prentice-Hall Luhn, H.P.,1958, The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 2: Nazief, B., 2000, Development of Computational Linguistic Research: a Challenge for Indonesia, Computer Science Center, University of Indonesia Porter, M., 1980, An Algorithm for Suffix Stripping, Program 13(3), Rijsbergen, C. J.,1979, Information Retrieval, Information Retrieval Group, University of Glasgow, UK Steinbach, M., G. Karypis, and V. Kumar, 2000, A Comparison of Document Clustering Techniques, KDD Workshop on Text Mining, arison.html Strehl, A., J. Ghosh, and R. Mooney, 2000, Impact of Similarity Measures on Web- Page Clustering, Proceeding of the Workshop of Artificial Intelligent for Web Search, 17 th National Conference on Artificial Intelligence, July Tala, F. Z., 2004, A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia, Master Thesis, Universiteit van Amsterdam, The Netherlands Zamir, O.E., 1999, Clustering Web Document : A Phrase-Based Method for Grouping Search Engine Result, PhD. Dissertation, University of Washington. 20