PENGKLASTERAN DOKUMEN DENGAN EXPECTATION MAXIMATION MENGGUNAKAN MULTIRESOLUTION KD-TREE Diana Purwitaari, Yudhi Purwananto, Anggit SN Juruan Teni Informatia, Faulta Tenologi Informai, Intitut Tenologi Sepuluh Nopember (ITS) Kampu ITS, Jl. Raya ITS, Suolilo, Surabaya 60111, Indoneia Tel. +6 1 59914, Fax. +6 1 5996 Email: diana@it-by.edu, yudhi@it-by.edu ABSTRAK Pada item temu embali informai, penglateran doumen dengan algoritma Expectation Maximation () membutuhan watu dalam etimai parameter nilai tengah µ, variai Σ dan denita data p. Untu memperingat iterai, digunaan trutur data multireolution d-tree (MRKD-Tree) berupa binary tree dengan banya informai terimpan di etiap node. Pada penglateran, data haru berupa numeri ehingga untu data doumen yang berbentu te perlu dilauan prapemroean. Pada tahap terebut etiap doumen direpreentaian ebagai vetor ehingga umpulan doumen aan membentu matri data numeri yang elanjutnya menjadi data input dalam penglateran. Kumpulan doumen diimpan e databae Oracle 9i emudian mau tahap prapemroean dengan bantuan Oracle Text 9. untu menghilangan topword dan melauan temming. Matri doumen terbentu dari datadata numeri dalam databae yang aan dinyataan ebagai trutur data MRKD-Tree. Setiap node pada tree menyimpan informai numpoint, plitdim, plitval, centroid, cov, dan hyperrect. Pada node root nilai numpoint berii jumlah emua doumen yang ada, emudian dilauan pemiahan ecara hyperrectangular berdaaran dimeni dengan rentang nilai terbear. Pemiahan teru dilauan ampai nilai numpoint pada uatu node mencapai bata tertentu. Etimai parameter dengan algoritma dihitung menggunaan informai dari etiap node pada MRKD-Tree. Uji ebenaran penglateran algoritma -MRKD-Tree pada doumen UeNet Collection menghailan error ±.1% lebih bai daripada algoritma untu data dengan ela berdeatan dan ±.7% untu ela berjauhan. Secara rata-rata watu penglateran doumen dengan algoritma -MRKD-tree lebih bai daripada algoritma dengan terpaut ±10.5 menit. Untu algoritma -MRKD-tree, emain bertambah jumlah doumen maa pertambahan watu yang dibutuhan dalam penglateran cenderung tida ebanya dalam algoritma. Begitu juga dengan pengujian perubahan nilai threhold 1%, % dan % dari jumlah doumen eeluruhan tida menunjuan perubahan watu penglateran yang ignifian. Kata Kunci: item temu embali informai, penglateran doumen, expectation maximation, multireolution d-tree, oracle text. 1. PENDAHULUAN Proe penggabungan beberapa obje yang memilii peramaan ciri menjadi uatu elompo dinamaan penglateran[1]. Peramaan ciri obje-obje pada uatu later lebih deat daripada peramaan ciri dengan obje di later yang lain. Dengan ata lain jara obje intra-later lebih deat daripada jara obje inter-later. Pada Sitem Temu Kembali Informai (information retrieval), analia later digunaan untu melauan pengelompoan eumpulan doumen berdaaran emiripan ii menjadi beberapa later. Pada umpulan doumen (mixture model) terdapat informai (hidden variable) nilai tengah µ, variai Σ dan denita data p untu etiap later. Untu mengelompoan doumen terebut aan dilauan etimai nilai parameter (µ, Σ, p) dengan pendeatan algoritma Expectation Maximation (). Secara iterai aan dilauan etimai nilai parameter dan menghailan nilai denita p ecara d i t1 t t t 4 doumen1 term1 term1 term. term term1 term term. doumen term4 term term. term1 term1 term term. 1 0 Gambar 1. Matri Set Doumen probabiliti ehingga dietahui emunginan uatu doumen untu dimauan e dalam uatu later tertentu []. Pada algoritma membutuhan watu aibat iterai yang haru dilauan aat etimai parameter. Untu memperingat iterai, digunaan trutur data multireolution d-tree (MRKD-Tree) berupa binary tree dengan banya informai terimpan di etiap node. Pada multireolution d-tree etiap node tida mewaili atu data melainan banya data []. d 1 d 1 D 1 0 1
4 6 8 10 11 1 1 9 Gambar. Ilutrai Mixture Model Pada doumen, jumlah ata atau term tertentu yang ada didalamnya aan menjadi ciri doumen terebut. Sebuah doumen aan direpreentaian ebagai vetor dengan elemen-elemen didalamnya adalah jumlah etiap term yang berbeda (Lihat Gambar 1). Terdapat et doumen D berii ejumlah N doumen dan etiap doumen dinotaian ebagai d i dengan nilai i=1 N. Terdapat et term T ejumlah M term berbeda yang aan menjadi ciri etiap doumen d i. Repreentai vetor doumen d i =[t j=1,, t j=m ] T dengan t j adalah jumlah term e- j dalam doumen d i. Pada Gambar 1, terdapat et doumen D={d 1, d } dengan et term T={ t 1, t, t, t 4 }. Vetor d 1 =[,, 1, 0] T yang berarti jumlah term e-1, e-, e- dan e- 4 dalam doumen e-1 adalah,, 1 dan 0. Sedangan matri D adalah matri doumen dengan jumlah bari menyataan jumlah ciri dan jumlah olom menyataan jumlah doumen yang ada.. MIXTURE MODEL Mial dilauan pencatatan tinggi badan mahaiwa Teni Informatia ITS angatan 006. Apabila dinyataan dalam grafi, maa variabel nilai tinggi badan hanya aan memilii atu nilai tengah data. Namun grafi pada Gambar menunjuan adanya dua nilai yang cenderung menjadi titi tengah data. Data tinggi mahaiwa merupaan mixture model yang berarti eungguhnya terdapat elompo data dengan maing-maing memilii nilai tengah dan variai data maing. Apabila data-data terebut dilater terendiri maa terdapat elompo mahaiwa putra dengan nilai tengah µ 1 = ±177 dan variai data σ 1 erta elompo mahaiwa putri dengan nilai tengah µ = ±160 dan variai data σ (Catatan: digunaan imbol σ arena data berdimeni atu). Nilai lain yang dapat ditemuan adalah nilai denita data p. Setiap data tinggi mahaiwa memilii nilai p 1 dan p. Apabila pada uatu data nilai p 1 >p maa data terebut mau later 1 dan ebalinya.. PRAPROSESAN DOKUMEN Pada penglateran, data haru berupa numeri ehingga untu data doumen yang berbentu te perlu dilauan prapemroean. Pada tahap terebut 5 Gambar. Ilutrai Pembuatan KD-Tree etiap doumen direpreentaian ebagai vetor ehingga umpulan doumen aan membentu matri data numeri yang elanjutnya menjadi data input dalam penglateran. Langah-langah yang dilauan pada prapemroean doumen untu item temu embali informai antara lain menganalia leial te, menghilangan topword, melauan temming, menentuan grup ata, dan membuat trutur ategoriai ata [4]. Namun prapemroean doumen untu penglateran dengan algoritma -MRKD-tree tida emua langah terebut dilauan. Tahap prapemroean dilauan untu membentu et term T atau diebut juga dengan pengindean ata dari et doumen D. Digunaan fitur-fitur Oracle Text 9. yang dihuuan ebagai modul Oracle 9i untu apliai item temu embali informai [5]. Kumpulan doumen diimpan e databae Oracle 9i emudian mau tahap prapemroean dengan bantuan Oracle Text 9. untu menghilangan topword dan melauan temming. Matri doumen terbentu dari data-data numeri dalam databae yang aan dinyataan ebagai trutur data MRKD-Tree. 4. PENGKLASTERAN DOKUMEN 1 4 5 6 7 8 9 10 11 1 1 Untu memperingat iterai algoritma, digunaan trutur data multireolution d-tree (MRKD-Tree) berupa binary tree dengan banya informai terimpan di etiap node. Setiap node pada tree aan menyimpan informai beriut: 1 7
ND.NUMPOINTS Jumlah data yang berada dalam daerah hyperrectangle untu node ND. ND.SPLITDIM Inde dimeni yang aan digunaan untu membagi data pada node parent. Pada ruang ampel dengan multidimeni, nilai plitdim ditentuan dari dimeni dengan rentang nilai terbear. ND. SPLITVAL Nilai tengah dari uatu rentang nilai data pada dimeni yang dinyataan dalam nilai plitdim. Jia pada dimeni tertentu rentang nilai -0 maa nilai plitval = 11. ND. CENTROID Nilai rata- rata dari umpulan data pada dimeni plitdim yang ada dalam daerah hyperrectangle untu node ND. ND.COV Nilai covariance dari umpulan data pada dimeni plitdim yang ada dalam daerah hyperrectangle untu node ND. ND.HYPERRECT Daerah hyperrectangle untu node ND berupa dua buah array yang menyataan nilai terendah dan tertinggi dari tiap tiap dimeni. Mialan terdapat 4 data dengan dua dimeni, (,), (1,), (4,7), (1,10), maa daerah hyperrectangle memilii nilai terendah (1, ) dengan 1 untu dimeni-1 dan untu dimeni-. Sedangan nilai tertinggi (4, 10) menunjuan 4 untu dimeni-1 dan 10 untu dimeni-. Pada node root nilai numpoint berii N menyataan jumlah emua doumen yang ada. Untu etiap dimeni-j dicari rentang nilai terendah dan tertinggi. Inde dimeni dengan rentang nilai terbear aan menjadi nilai plitdim. Kemudian dilauan pemiahan ecara hyperrectangular berdaaran dimeni dengan rentang nilai terbear. Pemiahan teru dilauan ampai nilai numpoint pada uatu node mencapai bata tertentu (Lihat Gambar ). Jia ambang bata threhold diberi nilai 0, maa pemiahan data pada node parent aan berhenti jia node child hanya memilii atu data. Etimai parameter dengan algoritma dihitung menggunaan informai dari etiap node pada MRKD-Tree yang diatifan melalui pemanggilan fungi MAKESTAT pada node root. Diaumian et doumen D aan dielompoan menjadi ejumlah C later ehingga pemanggilan fungi MAKESTAT(ND, θ ) menghailan variabel SW, SWX, dan SWXX dengan nilai =1...C. Diaumian θ = {p, µ, Σ } dengan menunjuan iterai yang e-. SW w ND. NUMPOINTS... (Rumu 1) SWX w ND. NUMPOINTS ND CENTROID SWXX Nilai. w P( l (Rumu ) w ND. NUMPOINTS ND COV... (Rumu ). w dihailan dari perhitungan x, ) C P( x l, ) P( l, ) y1 P( x l, ) P( l y y ) (Rumu 4) Nilai l menunjuan later e- dan x diambil dari ND.CENTROID. 5. UJI COBA Uji coba dilauan pada omputer dengan proeor AMD Athlon XP 400 1.99 GHz, memori 1 GB, Microoft Window XP Service Pac, bahaa pemrograman Java, bai data Oracle 9i beerta Oracle Text 9.. Data pengujian diambil dari UeNet Collection (0NG) diumpulan Ken Lang dengan url : http://www.ai.mit.edu/~jrennie/0newgroup/. Jumlah doumen mencapai 0.000 terelompo Tabel 1. Nilai Error Hail Uji Kebenaran Penglateran Data pada Kela Berdeatan Nama Klater Error dengan Algoritma Error dengan Algoritma -MRKD-tree N = 50 N = 500 N = 750 N = 1000 N = 50 N = 500 N = 750 N = 1000 comp.graphic 78.00% 80.00% 5.% 7.00% 70.00% 8.00% 54.67% 7.50% comp.o.m-window.mic 18.00% 4.00%.67%.00% 0.00% 4.00%.%.00% comp.y.ibm.pc.hardware 6.00% 5.00%.% 19.00% 4.00%.00% 0.67% 10.50% comp.y.mac.hardware 74.00%.00% 1.% 1.50% 48.00%.00%.00% 1.50% comp.window.x 64.00% 98.00% 65.% 47.00% 56.00% 98.00% 5.% 47.50% Rata-rata ealahan 48.00% 4.80% 9.0% 1.0% 9.60% 4.60% 6.80% 19.80% 5.58%.45% Tabel. Nilai Error Hail Uji Kebenaran Penglateran Data pada Kela Berjauhan Nama Klater Error dengan Algoritma Error dengan Algoritma -MRKD-tree N = 50 N = 500 N = 750 N = 1000 N = 50 N = 500 N = 750 N = 1000 comp.y.ibm.pc.hardware 68.00% 76.00% 9.% 0.50% 6.00% 77.00% 4.% 1.00% oc.religion.chritian 14.00%.00%.67%.00% 1.00% 4.00%.%.00% ci.med 8.00% 0.00% 19.% 9.00% 6.00% 19.00% 16.00% 4.50% rec.motorcycle 40.00%.00% 1.%.50% 6.00%.00%.00%.50% rec.port.hocey 5.00% 91.00% 58.00% 4.00% 40.00% 89.00% 50.67% 4.00% Rata-rata ealahan 6.40% 8.60% 4.1% 17.40% 9.0% 8.40%.07% 16.80% 9.1% 6.87%
Watu (deti) Watu Penglateran Watu (deti) Tabel. Perbandingan Watu Penglateran Pengaruh Perubahan Threhold Terhadap Watu (Data Sama) Kela Berdeatan Kela Berjauhan Watu Rata-Rata 000 Jml Doumen -MRKDtree -MRKDtree -MRKDtree 1500 1000 850 50 850 50 1850 150 850 50 50 99 81 405 88 40.00 84.50 100 584 484 590 489 587.00 486.50 150 851 74 857 745 854.00 74.50 50 10 81 109 85 106.00 8.00 00 101 90 106 906 10.50 904.50 450 161 981 166 984 16.50 98.50 500 191 111 1916 115 1914.00 11.00 750 485 147 489 151 487.00 149.00 1000 401 1668 4016 167 4014.00 1670.00 Watu Penglateran Rata-Rata -MRKD-tree 1569.00 941.8 50 100 150 50 00 450 500 750 1000 Jumlah Doumen Gambar 4. Perbandingan Watu Penglateran dalam 0 newgroup berbeda. Data untu daftar ata topword digunaan RainBow (libbow) toolit url : http://www-.c.cmu.edu/~mccallum/bow/. Jumlah doumen yang digunaan diambil ecara bertahap mulai dari 50, 500, 750, ampai 1000 doumen dengan jumlah iterai maimal 100. Pengujian dilauan pada data-data yang terleta dalam later berdeatan diambil dari comp.graphic,comp.o.m-window.mic, comp.y.ibm.pc.hardware, comp.y.mac.hardware, dan comp.window.x dengan perbandingan jumlah doumen ama. Sedangan pengujian untu datadata yang laternya berjauhan diambil dari comp.y.ibm.pc.hardware, oc.religion.chritian, ci.med, rec.motorcycle, dan rec.port.hocey juga dengan perbandingan jumlah doumen ama. Dilauan uji ebenaran dengan membandingan tingat ealahan hail penglateran algoritma - MRKD-tree dan algoritma. Hail rata-rata ealahan pada ela yang berdeatan ditunjuan pada Tabel 1 dan Tabel untu ela yang berjauhan. Pengujian watu penglateran untu data-data dengan ela yang berdeatan dan ela yang berjauhan ditunjuan pada Tabel. Secara rata-rata watu penglateran doumen dengan algoritma -MRKD-tree lebih bai daripada algoritma dengan terpaut ±10.5 menit. Grafi analia lama watu penglateran dibanding dengan jumlah doumen diperlihatan pada Gambar 4. Untu algoritma -MRKD-tree, emain bertambah jumlah doumen maa pertambahan watu yang dibutuhan dalam penglateran cenderung tida ebanya dalam algoritma. 500 0 50 100 150 50 00 450 500 750 1000 1% 81 484 74 81 90 981 111 147 1668 % 66 468 75 80 884 961 1110 15 1645 % 47 447 70 778 857 9 1079 19 1610 Gambar 5. Grafi Perubahan Threhold terhadap Watu Penglateran pada Kela Berdeatan Gambar 6. Grafi Perubahan Threhold terhadap Watu Penglateran pada Kela Berjauhan Uji coba elanjutnya dengan merubah nilai bata atau threhold yang ondii pembentuan node leaf pada trutur data MRKD-tree. Diharapan nilai ambang yang emain bear aan membentu tree dengan jumlah node lebih ediit ehingga watu pemanggilan fungi MAKESTAT pada node root lebih cepat mencapai node leaf. Pengujian dilauan pada threhold enilai 1%, % dan % dari jumlah doumen eeluruhan. Gambar 5 menunjuan watu penglateran yang dibutuhan oleh etiap perubahan threhold pada data-data dengan ela yang berdeatan. Sedangan Gambar 6 untu grafi yang ama namun dengan data-data dari ela yang berjauhan. Namun ternyata watu penglateran tida menunjuan perubahan yang ignifian eiring dengan perubahan threhold. 6. SIMPULAN Jumlah Doumen Pengaruh Perubahan Threhold Terhadap Watu (Data Beda) 000 1500 1000 500 0 50 100 150 50 00 450 500 750 1000 1% 88 489 745 85 906 984 115 151 167 % 7 47 78 807 887 964 1114 19 1649 % 64 46 717 795 874 950 1099 11 16 Jumlah Doumen Dilauan uji ebenaran dengan melihat doumen hail penglateran yang berhail mau e dalam ela yang benar. Tingat ealahan penglateran dengan algoritma rata-rata 5.58% untu elaela yang berdeatan dan 9.1% untu ela-ela yang berjauhan. Modifiai pada algoritma menjadi -MRKD-tree memberian penurunan tingat ealahan menjadi rata-rata.45% untu ela-ela berdeatan dan 6.87% untu elaela yang berjauhan.
Jumlah data juga berpengaruh terhadap eauratan penglateran ehingga nilai error aan teru menurun. Seperti pada uji coba menggunaan 1000 doumen nilai error menurun ±5-0% dibanding nilai error aat uji coba menggunaan 50 doumen. Uji performa dilauan dengan melihat watu penglateran. Terdapat enario tambahan untu melihat watu penglateran dengan menambahan perubahan nilai threhold aat membentu trutur data MRKD-tree. Untu ela-ela yang berdeatan, algoritma membutuhan watu penglateran rata-rata 1566 deti edangan algoritma -MRKD-tree lebih cepat dengan 940 deti. Begitu juga dengan penglateran pada datadata dengan ela yang berjauhan, algoritma membutuhan watu penglateran 157 deti edangan algoritma -MRKD-tree hanya 944 deti. Hal terebut terjadi diarenaan data umber doumen berpengaruh pada penglateran doumen. Untu uji coba perubahan nilai threhold, pengaruh perubahan watu penglateran dengan algoritma -MRKD-tree ediit ehingga tida terlalu ignifian bai untu data-data dengan ela yang berdeatan maupun berjauhan. 7. DAFTAR PUSTAKA 1. Naya, Pranyanmita, Cluter Analyi and Clutering Algorithm, 00. D Alimonte, Davide, Statitical Pattern Analyi Mixture Model, Aton Univerity, UK, 004. Moore, A, Very Fat -baed Mixture Model Clutering uing Multireolution d-tree, Carnegie Mellon Univerity, Pittburgh, PA, 000 4. Baeza-Yate, R., Ribeiro-Neto, B., Modern Information Retrieval, Addion Weley, 1999 5. Oracle Corporation, Oracle Text Reference Guide, Redwood Shore, CA, 00