PENGKLASTERAN DOKUMEN DENGAN EXPECTATION MAXIMATION MENGGUNAKAN MULTIRESOLUTION KD-TREE

dokumen-dokumen yang mirip
BALOK DENGAN PERKUATAN

IV PENYELESAIAN MASALAH PENETAPAN BLOK PADA REL PELANGSIRAN DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM

Evaluasi Distribusi Gabungan pada Teori Resiko

APLIKASI PROGRAM DINAMIS PADA PENYUSUNAN FLIGHT PLANNING

Implementasi Algoritma Pencarian k Jalur Sederhana Terpendek dalam Graf

Analisis Rangkaian Listrik Di Kawasan s

LATAR BELAKANG MATEMATIS

EVALUASI DISTRIBUSI GABUNGAN MENGGUNAKAN ALGORITMA KONVOLUSI DAN REKURSI PANJER

APLIKASI PREDIKSI HARGA SAHAM MENGGUNAKAN JARINGAN SYARAF RADIAL BASIS FUNCTION DENGAN METODE PEMBELAJARAN HYBRID

Pengaruh Proses Stemming Pada Kinerja Analisa Sentimen Pada Review Buku

BAB II TINJAUAN PUSTAKA

PENCARIAN JALUR TERPENDEK MENGGUNAKAN ALGORITMA SEMUT

Optimasi Non-Linier. Metode Numeris

MODUL IV ESTIMASI/PENDUGAAN (3)

Kata Kunci : Multipath, LOS, N-LOS, Network Analyzer, IFFT, PDP. 1. Pendahuluan

BAB 8 PEMODELAN DAN SIMULASI REAKTOR CSTR

PEMANFAATAN METODE HEURISTIK DALAM PENCARIAN JALUR TERPENDEK DENGAN ALGORITMA SEMUT DAN ALGORITMA GENETIKA

SISTEM ADAPTIF PREDIKSI PENGENALAN ISYARAT VOKAL SUARA KARAKTER. Abstrak

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

PERTEMUAN 3 PENYELESAIAN PERSOALAN PROGRAM LINIER

BAB III METODE SCHNABEL

ALGORITMA PENYELESAIAN PERSAMAAN DINAMIKA LIQUID CRYSTAL ELASTOMER

SISTEM ADAPTIF PREDIKSI PENGENALAN ISYARAT VOKAL SUARA KARAKTER

BAB IV PERHITUNGAN HARGA PREMI BERDASARKAN FUNGSI PERMINTAAN PADA TITIK KESETIMBANGAN

BAB III ANALISIS DISKRIMINAN. analisis multivariat dengan metode dependensi (dimana hubungan antar variabel

BAB 3 LANGKAH PEMECAHAN MASALAH

Penentuan Jalur Terpendek Distribusi Barang di Pulau Jawa

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB VIII METODA TEMPAT KEDUDUKAN AKAR

Neural Network menyerupai otak manusia dalam dua hal, yaitu:

BAB II LANDASAN TEORI. Graf adalah kumpulan simpul (nodes) yang dihubungkan satu sama lain

PENYELESAIAN MASALAH PELANGSIRAN UNIT KERETA PENUMPANG PADA STASIUN KERETA API DENGAN MENGGUNAKAN TEKNIK PEMBANGKITAN KOLOM

KAJIAN METODE BERBASIS MODEL PADA ANALISIS KELOMPOK DENGAN PERANGKAT LUNAK MCLUST

PERHITUNGAN CRITICAL CLEARING TIME MENGGUNAKAN PERSAMAAN SIMULTAN BERBASIS TRAJEKTORI KRITIS TANPA KONTROL YANG TERHUBUNG DENGAN INFINITE BUS

Penggunaan Induksi Matematika untuk Mengubah Deterministic Finite Automata Menjadi Ekspresi Reguler

ALGORITMA THRESHOLDING ADAPTIF BERDASARKAN DETEKSI BLOK TERHADAP CITRA DOKUMEN TERDEGRADASI Agus Zainal Arifin, Arya Yudhi Wijaya, Laili Cahyani 1

PENAKSIR VARIANSI POPULASI YANG EFISIEN PADA SAMPLING ACAK SEDERHANA MENGGUNAKAN KOEFISIEN REGRESI

PEBANDINGAN METODE ROBUST MCD-LMS, MCD-LTS, MVE-LMS, DAN MVE-LTS DALAM ANALISIS REGRESI KOMPONEN UTAMA

mungkin muncul adalah GA, GG, AG atau AA dengan peluang masing-masing

BAB I PENDAHULUAN. Dalam perkembangan jaman yang cepat seperti sekarang ini, perusahaan

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SMP Muhammadiyah 3 Bandar Lampung kelas VII

Variasi Spline Kubik untuk Animasi Model Wajah 3D

PENDAHULUAN TINJAUAN PUSTAKA

IMPLEMENTASI DAN ANALISIS ALGORITMA PENCARIAN RUTE TERPENDEK DI KOTA SURABAYA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 4 HASIL DAN PEMBAHASAN

DESAIN SENSOR KECEPATAN BERBASIS DIODE MENGGUNAKAN FILTER KALMAN UNTUK ESTIMASI KECEPATAN DAN POSISI KAPAL

PELABELAN FUZZY PADA GRAF. Siti Rahmah Nurshiami, Suroto, dan Fajar Hoeruddin Universitas Jenderal Soedirman.

GEOMETRI BERHINGGA ATAS GF(P N ) UNTUK MEMBENTUK ORTHOGONAL SERIES DESIGNS

III. METODE PENELITIAN. Populasi dalam penelitian ini adalah semua siswa kelas XI IPA SMA YP Unila

PERBAIKAN KUALITAS CITRA MENGGUNAKAN HISTOGRAM LINEAR CONTRAST STRETCHING PADA CITRA SKALA KEABUAN

BAB 1 PENDAHULUAN. 1.1 Latar belakang

BAB III METODE PENELITIAN

PERENCANAAN JUMLAH TENAGA PERAWAT DI RSUD PAMEKASAN MENGGUNAKAN RANTAI MARKOV

Metode Penggerombolan Berhirarki

khazanah Sistem Klasifikasi Tipe Kepribadian dan Penerimaan Teman Sebaya Menggunakan Jaringan Syaraf Tiruan Backpropagation informatika

khazanah Sistem Klasifikasi Tipe Kepribadian dan Penerimaan Teman Sebaya Menggunakan Jaringan Syaraf Tiruan Backpropagation informatika

Sistem Navigasi Perjalanan Berbasis Web Dengan Algoritma Koloni Semut (Ant Colony Algorithm)

ANALISIS KINERJA ALGORITMA FOLD-GROWTH DAN FP-GROWTH PADA PENGGALIAN POLA ASOSIASI

Aplikasi diagonalisasi matriks pada rantai Markov

IMPLEMENTASI ALGORITMA-2 ITERASI FIXED POINT QUADRATIC PROGRAMMING MODEL PREDICTIVE CONTROL PADA dspic 30F4011. Rod Jason Taylor, Arief Syaichu-Rohman

Pencitraan Tomografi Elektrik dengan Elektroda Planar di Permukaan

PENENTUAN FAKTOR KALIBRASI ACCELEROMETER MMA7260Q PADA KETIGA SUMBU

SOLUSI KESTABILAN PADA MASALAH MULTIPLIKATIF PARAMETRIK (STABILITY SOLUTION OF PARAMETRIC MULTIPLICATIVE PROBLEMS)

Penentuan Nilai Ekivalensi Mobil Penumpang Pada Ruas Jalan Perkotaan Menggunakan Metode Time Headway

Estimasi Inflasi Wilayah Kerja KPwBI Malang Menggunakan ARIMA-Filter Kalman dan VAR-Filter Kalman

Modifikasi ACO untuk Penentuan Rute Terpendek ke Kabupaten/Kota di Jawa

BAB III METODE PENELITIAN

III. METODOLOGI PENELITIAN. Penelitian ini menggunakan data sekunder bersifat runtun waktu (time series)

PENYELESAIAN PERSAMAAN LOTKA-VOLTERRA DENGAN METODE TRANSFORMASI DIFERENSIAL. Sutriani Hidri. Ja faruddin. Syafruddin Side, ABSTRAK

Penempatan Optimal Phasor Measurement Unit (PMU) dengan Integer Programming

BAB III METODE PENELITIAN

PERBANDINGAN PERFORMANSI ALGORITMA GENETIKA DAN ALGORITMA SEMUT UNTUK PENYELESAIAN SHORTEST PATH PROBLEM

ANALISIS PETA KENDALI DEWMA (DOUBLE EXPONENTIALLY WEIGHTED MOVING AVERAGE)

MAT. 12. Barisan dan Deret

CONTENT BASED IMAGE RETRIEVAL MENGGUNAKAN MOMENT INVARIANT, TEKSTUR DAN BACKPROPAGATION

PENERAPAN DYNAMIC PROGRAMMING DALAM WORD WRAP Wafdan Musa Nursakti ( )

PENYELESAIAN PERSAMAAN LOTKA-VOLTERRA DENGAN METODE TRANSFORMASI DIFERENSIAL SUTRIANI HIDRI

SIFAT SIFAT TERMIS. Pendahuluan

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

BAB II LANDASAN TEORI

ADAPTIVE NOISE CANCELING MENGGUNAKAN ALGORITMA LEAST MEAN SQUARE (LMS) Anita Nardiana, SariSujoko Sumaryono ABSTRACT

BAB III METODOLOGI PENELITIAN

Materi. Menggambar Garis. Menggambar Garis 9/26/2008. Menggambar garis Algoritma DDA Algoritma Bressenham

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB VII ALGORITMA GENETIKA

BEBERAPA SIFAT HIMPUNAN KRITIS PADA PELABELAN AJAIB GRAF BANANA TREE. Triyani dan Irham Taufiq Universitas Jenderal Soedirman

Makalah Seminar Tugas Akhir

SATUAN ACARA PERKULIAHAN ( SAP )

PERTEMUAN 02 PERBEDAAN ANTARA SISTEM DISKRIT DAN SISTEM KONTINU

BAB III METODE PENELITIAN

SIMULASI FILTER KALMAN UNTUK ESTIMASI SUDUT DENGAN MENGGUNAKAN SENSOR GYROSCOPE

BAB III METODE PENELITIAN

BAB 2 LANDASAN TEORI

Studi dan Analisis mengenai Hill Cipher, Teknik Kriptanalisis dan Upaya Penanggulangannya

PENGENALAN POLA DENGAN MENGGUNAKAN METODE BACKPROPAGATION MENGGUNAKAN MATLAB

Transkripsi:

PENGKLASTERAN DOKUMEN DENGAN EXPECTATION MAXIMATION MENGGUNAKAN MULTIRESOLUTION KD-TREE Diana Purwitaari, Yudhi Purwananto, Anggit SN Juruan Teni Informatia, Faulta Tenologi Informai, Intitut Tenologi Sepuluh Nopember (ITS) Kampu ITS, Jl. Raya ITS, Suolilo, Surabaya 60111, Indoneia Tel. +6 1 59914, Fax. +6 1 5996 Email: diana@it-by.edu, yudhi@it-by.edu ABSTRAK Pada item temu embali informai, penglateran doumen dengan algoritma Expectation Maximation () membutuhan watu dalam etimai parameter nilai tengah µ, variai Σ dan denita data p. Untu memperingat iterai, digunaan trutur data multireolution d-tree (MRKD-Tree) berupa binary tree dengan banya informai terimpan di etiap node. Pada penglateran, data haru berupa numeri ehingga untu data doumen yang berbentu te perlu dilauan prapemroean. Pada tahap terebut etiap doumen direpreentaian ebagai vetor ehingga umpulan doumen aan membentu matri data numeri yang elanjutnya menjadi data input dalam penglateran. Kumpulan doumen diimpan e databae Oracle 9i emudian mau tahap prapemroean dengan bantuan Oracle Text 9. untu menghilangan topword dan melauan temming. Matri doumen terbentu dari datadata numeri dalam databae yang aan dinyataan ebagai trutur data MRKD-Tree. Setiap node pada tree menyimpan informai numpoint, plitdim, plitval, centroid, cov, dan hyperrect. Pada node root nilai numpoint berii jumlah emua doumen yang ada, emudian dilauan pemiahan ecara hyperrectangular berdaaran dimeni dengan rentang nilai terbear. Pemiahan teru dilauan ampai nilai numpoint pada uatu node mencapai bata tertentu. Etimai parameter dengan algoritma dihitung menggunaan informai dari etiap node pada MRKD-Tree. Uji ebenaran penglateran algoritma -MRKD-Tree pada doumen UeNet Collection menghailan error ±.1% lebih bai daripada algoritma untu data dengan ela berdeatan dan ±.7% untu ela berjauhan. Secara rata-rata watu penglateran doumen dengan algoritma -MRKD-tree lebih bai daripada algoritma dengan terpaut ±10.5 menit. Untu algoritma -MRKD-tree, emain bertambah jumlah doumen maa pertambahan watu yang dibutuhan dalam penglateran cenderung tida ebanya dalam algoritma. Begitu juga dengan pengujian perubahan nilai threhold 1%, % dan % dari jumlah doumen eeluruhan tida menunjuan perubahan watu penglateran yang ignifian. Kata Kunci: item temu embali informai, penglateran doumen, expectation maximation, multireolution d-tree, oracle text. 1. PENDAHULUAN Proe penggabungan beberapa obje yang memilii peramaan ciri menjadi uatu elompo dinamaan penglateran[1]. Peramaan ciri obje-obje pada uatu later lebih deat daripada peramaan ciri dengan obje di later yang lain. Dengan ata lain jara obje intra-later lebih deat daripada jara obje inter-later. Pada Sitem Temu Kembali Informai (information retrieval), analia later digunaan untu melauan pengelompoan eumpulan doumen berdaaran emiripan ii menjadi beberapa later. Pada umpulan doumen (mixture model) terdapat informai (hidden variable) nilai tengah µ, variai Σ dan denita data p untu etiap later. Untu mengelompoan doumen terebut aan dilauan etimai nilai parameter (µ, Σ, p) dengan pendeatan algoritma Expectation Maximation (). Secara iterai aan dilauan etimai nilai parameter dan menghailan nilai denita p ecara d i t1 t t t 4 doumen1 term1 term1 term. term term1 term term. doumen term4 term term. term1 term1 term term. 1 0 Gambar 1. Matri Set Doumen probabiliti ehingga dietahui emunginan uatu doumen untu dimauan e dalam uatu later tertentu []. Pada algoritma membutuhan watu aibat iterai yang haru dilauan aat etimai parameter. Untu memperingat iterai, digunaan trutur data multireolution d-tree (MRKD-Tree) berupa binary tree dengan banya informai terimpan di etiap node. Pada multireolution d-tree etiap node tida mewaili atu data melainan banya data []. d 1 d 1 D 1 0 1

4 6 8 10 11 1 1 9 Gambar. Ilutrai Mixture Model Pada doumen, jumlah ata atau term tertentu yang ada didalamnya aan menjadi ciri doumen terebut. Sebuah doumen aan direpreentaian ebagai vetor dengan elemen-elemen didalamnya adalah jumlah etiap term yang berbeda (Lihat Gambar 1). Terdapat et doumen D berii ejumlah N doumen dan etiap doumen dinotaian ebagai d i dengan nilai i=1 N. Terdapat et term T ejumlah M term berbeda yang aan menjadi ciri etiap doumen d i. Repreentai vetor doumen d i =[t j=1,, t j=m ] T dengan t j adalah jumlah term e- j dalam doumen d i. Pada Gambar 1, terdapat et doumen D={d 1, d } dengan et term T={ t 1, t, t, t 4 }. Vetor d 1 =[,, 1, 0] T yang berarti jumlah term e-1, e-, e- dan e- 4 dalam doumen e-1 adalah,, 1 dan 0. Sedangan matri D adalah matri doumen dengan jumlah bari menyataan jumlah ciri dan jumlah olom menyataan jumlah doumen yang ada.. MIXTURE MODEL Mial dilauan pencatatan tinggi badan mahaiwa Teni Informatia ITS angatan 006. Apabila dinyataan dalam grafi, maa variabel nilai tinggi badan hanya aan memilii atu nilai tengah data. Namun grafi pada Gambar menunjuan adanya dua nilai yang cenderung menjadi titi tengah data. Data tinggi mahaiwa merupaan mixture model yang berarti eungguhnya terdapat elompo data dengan maing-maing memilii nilai tengah dan variai data maing. Apabila data-data terebut dilater terendiri maa terdapat elompo mahaiwa putra dengan nilai tengah µ 1 = ±177 dan variai data σ 1 erta elompo mahaiwa putri dengan nilai tengah µ = ±160 dan variai data σ (Catatan: digunaan imbol σ arena data berdimeni atu). Nilai lain yang dapat ditemuan adalah nilai denita data p. Setiap data tinggi mahaiwa memilii nilai p 1 dan p. Apabila pada uatu data nilai p 1 >p maa data terebut mau later 1 dan ebalinya.. PRAPROSESAN DOKUMEN Pada penglateran, data haru berupa numeri ehingga untu data doumen yang berbentu te perlu dilauan prapemroean. Pada tahap terebut 5 Gambar. Ilutrai Pembuatan KD-Tree etiap doumen direpreentaian ebagai vetor ehingga umpulan doumen aan membentu matri data numeri yang elanjutnya menjadi data input dalam penglateran. Langah-langah yang dilauan pada prapemroean doumen untu item temu embali informai antara lain menganalia leial te, menghilangan topword, melauan temming, menentuan grup ata, dan membuat trutur ategoriai ata [4]. Namun prapemroean doumen untu penglateran dengan algoritma -MRKD-tree tida emua langah terebut dilauan. Tahap prapemroean dilauan untu membentu et term T atau diebut juga dengan pengindean ata dari et doumen D. Digunaan fitur-fitur Oracle Text 9. yang dihuuan ebagai modul Oracle 9i untu apliai item temu embali informai [5]. Kumpulan doumen diimpan e databae Oracle 9i emudian mau tahap prapemroean dengan bantuan Oracle Text 9. untu menghilangan topword dan melauan temming. Matri doumen terbentu dari data-data numeri dalam databae yang aan dinyataan ebagai trutur data MRKD-Tree. 4. PENGKLASTERAN DOKUMEN 1 4 5 6 7 8 9 10 11 1 1 Untu memperingat iterai algoritma, digunaan trutur data multireolution d-tree (MRKD-Tree) berupa binary tree dengan banya informai terimpan di etiap node. Setiap node pada tree aan menyimpan informai beriut: 1 7

ND.NUMPOINTS Jumlah data yang berada dalam daerah hyperrectangle untu node ND. ND.SPLITDIM Inde dimeni yang aan digunaan untu membagi data pada node parent. Pada ruang ampel dengan multidimeni, nilai plitdim ditentuan dari dimeni dengan rentang nilai terbear. ND. SPLITVAL Nilai tengah dari uatu rentang nilai data pada dimeni yang dinyataan dalam nilai plitdim. Jia pada dimeni tertentu rentang nilai -0 maa nilai plitval = 11. ND. CENTROID Nilai rata- rata dari umpulan data pada dimeni plitdim yang ada dalam daerah hyperrectangle untu node ND. ND.COV Nilai covariance dari umpulan data pada dimeni plitdim yang ada dalam daerah hyperrectangle untu node ND. ND.HYPERRECT Daerah hyperrectangle untu node ND berupa dua buah array yang menyataan nilai terendah dan tertinggi dari tiap tiap dimeni. Mialan terdapat 4 data dengan dua dimeni, (,), (1,), (4,7), (1,10), maa daerah hyperrectangle memilii nilai terendah (1, ) dengan 1 untu dimeni-1 dan untu dimeni-. Sedangan nilai tertinggi (4, 10) menunjuan 4 untu dimeni-1 dan 10 untu dimeni-. Pada node root nilai numpoint berii N menyataan jumlah emua doumen yang ada. Untu etiap dimeni-j dicari rentang nilai terendah dan tertinggi. Inde dimeni dengan rentang nilai terbear aan menjadi nilai plitdim. Kemudian dilauan pemiahan ecara hyperrectangular berdaaran dimeni dengan rentang nilai terbear. Pemiahan teru dilauan ampai nilai numpoint pada uatu node mencapai bata tertentu (Lihat Gambar ). Jia ambang bata threhold diberi nilai 0, maa pemiahan data pada node parent aan berhenti jia node child hanya memilii atu data. Etimai parameter dengan algoritma dihitung menggunaan informai dari etiap node pada MRKD-Tree yang diatifan melalui pemanggilan fungi MAKESTAT pada node root. Diaumian et doumen D aan dielompoan menjadi ejumlah C later ehingga pemanggilan fungi MAKESTAT(ND, θ ) menghailan variabel SW, SWX, dan SWXX dengan nilai =1...C. Diaumian θ = {p, µ, Σ } dengan menunjuan iterai yang e-. SW w ND. NUMPOINTS... (Rumu 1) SWX w ND. NUMPOINTS ND CENTROID SWXX Nilai. w P( l (Rumu ) w ND. NUMPOINTS ND COV... (Rumu ). w dihailan dari perhitungan x, ) C P( x l, ) P( l, ) y1 P( x l, ) P( l y y ) (Rumu 4) Nilai l menunjuan later e- dan x diambil dari ND.CENTROID. 5. UJI COBA Uji coba dilauan pada omputer dengan proeor AMD Athlon XP 400 1.99 GHz, memori 1 GB, Microoft Window XP Service Pac, bahaa pemrograman Java, bai data Oracle 9i beerta Oracle Text 9.. Data pengujian diambil dari UeNet Collection (0NG) diumpulan Ken Lang dengan url : http://www.ai.mit.edu/~jrennie/0newgroup/. Jumlah doumen mencapai 0.000 terelompo Tabel 1. Nilai Error Hail Uji Kebenaran Penglateran Data pada Kela Berdeatan Nama Klater Error dengan Algoritma Error dengan Algoritma -MRKD-tree N = 50 N = 500 N = 750 N = 1000 N = 50 N = 500 N = 750 N = 1000 comp.graphic 78.00% 80.00% 5.% 7.00% 70.00% 8.00% 54.67% 7.50% comp.o.m-window.mic 18.00% 4.00%.67%.00% 0.00% 4.00%.%.00% comp.y.ibm.pc.hardware 6.00% 5.00%.% 19.00% 4.00%.00% 0.67% 10.50% comp.y.mac.hardware 74.00%.00% 1.% 1.50% 48.00%.00%.00% 1.50% comp.window.x 64.00% 98.00% 65.% 47.00% 56.00% 98.00% 5.% 47.50% Rata-rata ealahan 48.00% 4.80% 9.0% 1.0% 9.60% 4.60% 6.80% 19.80% 5.58%.45% Tabel. Nilai Error Hail Uji Kebenaran Penglateran Data pada Kela Berjauhan Nama Klater Error dengan Algoritma Error dengan Algoritma -MRKD-tree N = 50 N = 500 N = 750 N = 1000 N = 50 N = 500 N = 750 N = 1000 comp.y.ibm.pc.hardware 68.00% 76.00% 9.% 0.50% 6.00% 77.00% 4.% 1.00% oc.religion.chritian 14.00%.00%.67%.00% 1.00% 4.00%.%.00% ci.med 8.00% 0.00% 19.% 9.00% 6.00% 19.00% 16.00% 4.50% rec.motorcycle 40.00%.00% 1.%.50% 6.00%.00%.00%.50% rec.port.hocey 5.00% 91.00% 58.00% 4.00% 40.00% 89.00% 50.67% 4.00% Rata-rata ealahan 6.40% 8.60% 4.1% 17.40% 9.0% 8.40%.07% 16.80% 9.1% 6.87%

Watu (deti) Watu Penglateran Watu (deti) Tabel. Perbandingan Watu Penglateran Pengaruh Perubahan Threhold Terhadap Watu (Data Sama) Kela Berdeatan Kela Berjauhan Watu Rata-Rata 000 Jml Doumen -MRKDtree -MRKDtree -MRKDtree 1500 1000 850 50 850 50 1850 150 850 50 50 99 81 405 88 40.00 84.50 100 584 484 590 489 587.00 486.50 150 851 74 857 745 854.00 74.50 50 10 81 109 85 106.00 8.00 00 101 90 106 906 10.50 904.50 450 161 981 166 984 16.50 98.50 500 191 111 1916 115 1914.00 11.00 750 485 147 489 151 487.00 149.00 1000 401 1668 4016 167 4014.00 1670.00 Watu Penglateran Rata-Rata -MRKD-tree 1569.00 941.8 50 100 150 50 00 450 500 750 1000 Jumlah Doumen Gambar 4. Perbandingan Watu Penglateran dalam 0 newgroup berbeda. Data untu daftar ata topword digunaan RainBow (libbow) toolit url : http://www-.c.cmu.edu/~mccallum/bow/. Jumlah doumen yang digunaan diambil ecara bertahap mulai dari 50, 500, 750, ampai 1000 doumen dengan jumlah iterai maimal 100. Pengujian dilauan pada data-data yang terleta dalam later berdeatan diambil dari comp.graphic,comp.o.m-window.mic, comp.y.ibm.pc.hardware, comp.y.mac.hardware, dan comp.window.x dengan perbandingan jumlah doumen ama. Sedangan pengujian untu datadata yang laternya berjauhan diambil dari comp.y.ibm.pc.hardware, oc.religion.chritian, ci.med, rec.motorcycle, dan rec.port.hocey juga dengan perbandingan jumlah doumen ama. Dilauan uji ebenaran dengan membandingan tingat ealahan hail penglateran algoritma - MRKD-tree dan algoritma. Hail rata-rata ealahan pada ela yang berdeatan ditunjuan pada Tabel 1 dan Tabel untu ela yang berjauhan. Pengujian watu penglateran untu data-data dengan ela yang berdeatan dan ela yang berjauhan ditunjuan pada Tabel. Secara rata-rata watu penglateran doumen dengan algoritma -MRKD-tree lebih bai daripada algoritma dengan terpaut ±10.5 menit. Grafi analia lama watu penglateran dibanding dengan jumlah doumen diperlihatan pada Gambar 4. Untu algoritma -MRKD-tree, emain bertambah jumlah doumen maa pertambahan watu yang dibutuhan dalam penglateran cenderung tida ebanya dalam algoritma. 500 0 50 100 150 50 00 450 500 750 1000 1% 81 484 74 81 90 981 111 147 1668 % 66 468 75 80 884 961 1110 15 1645 % 47 447 70 778 857 9 1079 19 1610 Gambar 5. Grafi Perubahan Threhold terhadap Watu Penglateran pada Kela Berdeatan Gambar 6. Grafi Perubahan Threhold terhadap Watu Penglateran pada Kela Berjauhan Uji coba elanjutnya dengan merubah nilai bata atau threhold yang ondii pembentuan node leaf pada trutur data MRKD-tree. Diharapan nilai ambang yang emain bear aan membentu tree dengan jumlah node lebih ediit ehingga watu pemanggilan fungi MAKESTAT pada node root lebih cepat mencapai node leaf. Pengujian dilauan pada threhold enilai 1%, % dan % dari jumlah doumen eeluruhan. Gambar 5 menunjuan watu penglateran yang dibutuhan oleh etiap perubahan threhold pada data-data dengan ela yang berdeatan. Sedangan Gambar 6 untu grafi yang ama namun dengan data-data dari ela yang berjauhan. Namun ternyata watu penglateran tida menunjuan perubahan yang ignifian eiring dengan perubahan threhold. 6. SIMPULAN Jumlah Doumen Pengaruh Perubahan Threhold Terhadap Watu (Data Beda) 000 1500 1000 500 0 50 100 150 50 00 450 500 750 1000 1% 88 489 745 85 906 984 115 151 167 % 7 47 78 807 887 964 1114 19 1649 % 64 46 717 795 874 950 1099 11 16 Jumlah Doumen Dilauan uji ebenaran dengan melihat doumen hail penglateran yang berhail mau e dalam ela yang benar. Tingat ealahan penglateran dengan algoritma rata-rata 5.58% untu elaela yang berdeatan dan 9.1% untu ela-ela yang berjauhan. Modifiai pada algoritma menjadi -MRKD-tree memberian penurunan tingat ealahan menjadi rata-rata.45% untu ela-ela berdeatan dan 6.87% untu elaela yang berjauhan.

Jumlah data juga berpengaruh terhadap eauratan penglateran ehingga nilai error aan teru menurun. Seperti pada uji coba menggunaan 1000 doumen nilai error menurun ±5-0% dibanding nilai error aat uji coba menggunaan 50 doumen. Uji performa dilauan dengan melihat watu penglateran. Terdapat enario tambahan untu melihat watu penglateran dengan menambahan perubahan nilai threhold aat membentu trutur data MRKD-tree. Untu ela-ela yang berdeatan, algoritma membutuhan watu penglateran rata-rata 1566 deti edangan algoritma -MRKD-tree lebih cepat dengan 940 deti. Begitu juga dengan penglateran pada datadata dengan ela yang berjauhan, algoritma membutuhan watu penglateran 157 deti edangan algoritma -MRKD-tree hanya 944 deti. Hal terebut terjadi diarenaan data umber doumen berpengaruh pada penglateran doumen. Untu uji coba perubahan nilai threhold, pengaruh perubahan watu penglateran dengan algoritma -MRKD-tree ediit ehingga tida terlalu ignifian bai untu data-data dengan ela yang berdeatan maupun berjauhan. 7. DAFTAR PUSTAKA 1. Naya, Pranyanmita, Cluter Analyi and Clutering Algorithm, 00. D Alimonte, Davide, Statitical Pattern Analyi Mixture Model, Aton Univerity, UK, 004. Moore, A, Very Fat -baed Mixture Model Clutering uing Multireolution d-tree, Carnegie Mellon Univerity, Pittburgh, PA, 000 4. Baeza-Yate, R., Ribeiro-Neto, B., Modern Information Retrieval, Addion Weley, 1999 5. Oracle Corporation, Oracle Text Reference Guide, Redwood Shore, CA, 00