JURNAL TEKNIK ITS Vol. 5, No. 1, (2016) ISSN: 2337-3539 (2301-9271 Prit) A52 Modul Klasifikasi Adua dega Pedekata Kemiripa Teks pada Aplikasi Peragkat Bergerak Suara Warga (Surga) Kota Kediri Tegar Rachma Muzzammil, R. V. Hari Giardi, da Diaa Purwitasari Jurusa Tekik Iformatika, Fakultas Tekologi Iformasi, Istitut Tekologi Sepuluh Nopember (ITS) Jl. Arief Rahma Hakim, Surabaya 60111 Idoesia e-mail: hari@its-sby.edu Abstrak Sistem iformasi layaa masyarakat merupaka sistem iformasi yag akhir-akhir ii mulai diterapka di berbagai daerah. Salah satuya adalah Kota Kediri yag memiliki sistem layaa pegadua masyarakat yag berama Suara Warga (SURGA) Kota Kediri. Dalam peerimaa adua, terkadag adua yag masuk ke dalam sistem memiliki kemiripa dega adua yag sudah ada. Hal ii dikareaka adaya kemugkia pegadu megirimka adua berulag kali atau beberapa pegadu megirimka adua dega isi yag sama. Mahatta similarity adalah salah satu algoritma yag diguaka utuk medeteksi kemiripa dua dokume. Mahatta similarity dapat diimplemetasika pada adua yag masuk ke dalam sistem. Adua yag masuk diproses dega pedekata text similarity, yaitu text processig da dimodelka dalam betuk vector space model sehigga dapat dihitug jarak atar adua megguaka Mahatta distace. Perhituga jarak atar adua dibatasi dega peyusua cluster megguaka K-Meas clusterig, sehigga haya adua yag berada pada cluster atau klasifikasi yag sama yag dibadigka. Uji coba dilakuka dega meyusu cluster yag bertujua utuk klasifikasi adua da dilakuka deteksi kemiripa. Setelah klasifikasi da deteksi dilakuka, sejumlah adua diambil dari setiap cluster da ditayaka kepada 15 respode. Hasil uji coba meujukka bahwa adua dapat dideteksi kemiripaya dega jarak Mahatta distace miimal 0,9993 atar adua dega tigkat akurasi utuk adua tidak mirip 100% da utuk adua mirip 90%. Waktu total yag dibutuhka utuk melakuka proses klasifikasi da deteksi kemiripa teks adalah 17 meit 27 detik dega jumlah adua 387. Kata Kuci K-Meas Clusterig, Mahatta Distace, Mahatta Similarity, Text Processig, TF-IDF, Vector Space Model K I. PENDAHULUAN OTA Kediri adalah sebuah kota yag terletak di Provisi Jawa Timur, Idoesia. Kota Kediri merupaka kota yag memiliki potesi utuk berkembag. Berdasarka Dias Sosial da Teaga Kerja Kota Kediri jumlah peduduk di Kota Kediri pada tahu 2013 mecapai 267.310 orag [1]. Dega meigkatya jumlah peduduk di Kota Kediri, tetulah diperluka wadah yag dapat meampug adua serta aspirasi warga. Kota Kediri sudah memiliki wadah yag berama SURGA (Suara Warga) Kota Kediri. SURGA Kota Kediri ii dapat mejadi wadah utuk meampug adua serta aspirasi warga melalui SMS atau dari situsya secara lagsug. Isi dari adua yag disampaika melalui SURGA ii tidak mempuyai format adua yag terikat. Selai itu, dega bayakya adua setiap hari, sagatlah sulit utuk megklasifikasi jeis adua dari warga apabila dilakuka secara maual. Hal ii dikareaka mausia perlu membaca isi dari tiap adua da kemudia memberika kategori dari adua tersebut. Selai itu, adua juga dapat masuk pada malam hari di saat mausia istirahat, hal ii meuda klasifikasi adua yag masuk. Klasifikasi dokume teks adalah permasalaha yag medasar da petig. Di dalam dokume teks, tulisa yag terkadug adalah bahasa alami mausia, yag merupaka bahasa dega struktur yag kompleks da jumlah kata yag sagat bayak [2]. Pada tugas akhir ii aka diagkat sebuah topik megeai klasifikasi adua da deteksi kemiripa yag masuk ke dalam sistem SURGA Kota Kediri. Topik ii dipilih utuk medeteksi duplikasi serta adua yag mirip dega adua yag sudah masuk, da juga megklasifikasika kategori pada setiap adua yag masuk. Dega megguaka mesi, adua yag masuk aka diproses secara otomatis. Dega modul aplikasi ii atiya modul ii dapat medeteksi kemiripa adua yag masuk, sehigga apabila terdapat adua yag mirip dega adua yag masuk sebelumya, maka aka diaggap adua yag sama, sehigga tidak perlu ditampilka ulag adua-adua yag bersifat mirip. Setelah itu, modul ii atiya aka megklasifikasika adua yag masuk. Adua dapat ditampilka sesuai dega klasifikasi yag telah dilakuka. II. URAIAN PENELITIAN A. Text Processig Text miig merupaka proses pegambila data berupa teks dari sebuah sumber dalam hal ii sumberya adalah dokume. Dega text miig dapat dicari kata-kata kuci yag dapat mewakili isi dari suatu dokume lalu diaalisa da dilakuka pecocoka atara dokume dega basis data kata kuci yag telah dibuat. Text processig merupaka bagia
JURNAL TEKNIK ITS Vol. 5, No. 1, (2016) ISSN: 2337-3539 (2301-9271 Prit) A53 dari text miig [3]. Tahapa text processig secara umum adalah tokeizig, stoppig, da stemmig. 1) Tokeizig Tokeizig merupaka proses yag dilakuka pada suatu dokume utuk medapatka term-term. Proses yag dilakuka adalah memotog kata-kata yag membagu suatu dokume da hasil dari potoga disebut toke, da mugki dalam proses yag sama membuag berbagai karakter seperti tada baca [4]. 2) Stoppig Stoppig merupaka proses yag dilakuka setelah tokeizig pada text processig. Proses dari stoppig adalah meghilagka kata yag serig mucul pada umumya yag disebut stopword. Stopword cederug memiliki bobot yag redah, sehigga hampir tidak mempegaruhi perhituga apabila stopword dihapus. Salah satu tekik yag biasa diguaka utuk meguragi ideks kata adalah dega stemmig atau meghilagka stopword [5]. 3) Stemmig Stemmig merupaka proses utuk medapatka kata dasar dari suatu term. Tujua dari proses ii dilakuka agar maka suatu term dari satu dokume sama dega dokume laiya karea term tersebut sudah berada pada betuk dasar. Karea alasa adaya trasformasi kata, suatu dokume biasaya megguaka kata yag berbeda betuk, padahal kata tersebut memiliki maka yag tidak jauh berbeda. Dalam bayak situasi, aka sagat membatu apabila kata yag berbeda betukya tersebut diaggap sama [4]. Algoritma stemmer yag diguaka berdasarka algoritma Porter Stemmer. Porter Stemmer dipilih dega pertimbaga bahwa iti dari stemmer tersebut cocok dega struktur kata pada Bahasa Idoesia [6]. Cara kerja algoritma ii adalah sebagai berikut: Apabila kata memiliki lebih dari dua suku kata, maka periksa akhira partikel kata tersebut. Apabila kata tersebut memiliki akhira partikel seperti -kah, -lah, atau pu, maka hapus kata akhira partikel da kuragi satu suku kata. lebih dari dua, maka periksa akhira milik kata tersebut. Apabila kata tersebut memiliki akhira milik seperti -ku atau ya, maka hapus kata akhira milik tersebut da kuragi satu suku kata. kata lebih dari dua, maka periksa kata awala pertama (first order prefix) kata tersebut. Apabila kata tersebut memiliki kata awala pertama seperti meg-, mey-, me-, mem-, me-, peg-, pey-, pe-, pem-, di-, ter- atau ke-, maka hapus kata awala tersebut da kuragi satu suku kata. kata lebih dari dua, maka periksa kata awala kedua (secod order prefix) kata tersebut. Apabila kata tersebut memiliki kata awala kedua seperti ber-, be-, per- atau pe-, maka hapus kata awala tersebut da kuragi satu suku kata. kata lebih dari dua, maka periksa kata akhira (suffix) kata tersebut. Apabila kata tersebut memiliki kata akhira seperti ka, -a atau -i, maka hapus kata akhira tersebut da kuragi satu suku kata. Kata dasar ditemuka. B. Term Frequecy-Iversed Documet Frequecy Algorithm (TF-IDF) Salah satu cara utuk memberi bobot kata (term) t dari suatu dokume (documet) d adalah dega meghitug jumlah kata t dalam dokume d, pembobota ii disebut kemucula kata (term frequecy) TF. Kelemaha dari term frequecy adalah semua kata memiliki bobot yag sama petigya. Salah satu solusi dari kelemaha ii adalah memberika bobot yag tiggi utuk kata yag kemuculaya sedikit di bayak dokume. Hal ii dikareaka kata yag sedikit mucul di bayak dokume diaggap petig. Utuk memberatka bobot kata yag kemuculaya sedikit di bayak dokume pada umumya megguaka iversed documet frequecy (IDF). Peggabuga bobot TF da IDF dilakuka dega cara perkalia, peggabuga dilakuka agar didapatka bobot campura suatu term dari setiap dokume [4]. Persamaa IDF dapat dilihat pada (1) da Persamaa TF-IDF dapat dilihat pada (2). Persamaa (1) da (2) dikutip dari [4]. Berikut adalah persamaa IDF: idf log (1) df t dimaa: adalah jumlah dokume yag diamati df t adalah jumlah dokume yag megadug term t. wtd tf td. log (2) df t dimaa: w td adalah bobot term t tf td adalah frekuesi term t pada dokume d log(/df t) adalah IDF adalah jumlah dokume yag diamati df t adalah jumlah dokume yag megadug term t. C. Vector Space Model Algorithm Vector Space Model adalah suatu model yag diguaka utuk memodelka suatu dokume. Utuk megimplemetasika metode-metode klasifikasi dokume teks, diperluka suatu trasformasi yag dapat megubah teks-teks digital mejadi suatu model yag lebih efisie da dimegerti sehigga proses aalisa dapat dilakuka [7]. Vector space model adalah salah satu pedekata yag palig bayak diguaka dalam merepresetasika dokume teks [8]. Represetasi kumpula dokume sebagai vektor disebut vector space model, sebagai cotoh V d adalah vektor dari dokume d. Vektor tersebut memiliki fitur berupa ilai atau bobot dari term pada dokume tersebut [4]. Utuk meghidari vektor dega fitur yag besar amu tidak petig, kata yag dijadika fitur haya apabila mucul pada data traiig miimal sebayak tiga kali, atau apabila kata tersebut buka stopword [9]. Fitur dari vector space model dapat dilihat pada (3). Berikut adalah persamaa dari vector
JURNAL TEKNIK ITS Vol. 5, No. 1, (2016) ISSN: 2337-3539 (2301-9271 Prit) A54 space model: V t, t,... t } (3) d { 1 2 dimaa: V d adalah vektor dari dokume d t i adalah ilai term ke-i dari dokume d. D. Mahatta Distace Algorithm Mahatta distace adalah metode pegukura jarak dua vektor. Mahatta distace meghitug jumlah dari perbedaa fitur atara dua vektor dega dimesi. Nilai yag dijumlahka adalah ilai absolut dari masig-masig fitur yag dihitug perbedaaya [10]. Berikut adalah persamaa Mahatta distace: MahDis( p, q) p q p q (4) i 1 dimaa p da q adalah vektor dega persamaa: p ( p, p q ( q, q 1 1 2 2... p... q ) ) (5) E. Mahatta Similarity Algorithm Bayak ilai jarak yag merupaka ilai absolut, tapi apabila igi dihitug kemiripaya, tetu kemiripaya yag dilihat. Sebagai cotoh, apabila ada dua strig dega ukura 10 6 da memiliki perbedaa haya 1000 bits, maka kedua strig tersebut dapat ditetapka memiliki kemiripa yag lebih tiggi dibadig dega dua strig dega pajag 1000 bits amu memiliki perbedaa sebesar 100%. Dari siilah dilakuka ormalisasi jarak mejadi jarak relatif agar dapat dihitug kemiripa berdasarka jarak [11]. Berikut adalah persamaa Mahatta similarity: MahDis( p, q) MahSim ( p, q) 1 (6) dimaa: adalah ukura dari vektor atau jumlah term p adalah vektor q adalah vector. Mahatta similarity adalah metode pegukura kemiripa atara dua vektor dega megguaka ilai Mahatta distace. Pembagia ilai Mahatta distace dega N adalah utuk meormalisasika jarak mejadi jarak relatif. Peguraga agka satu dega jarak relatif bertujua agar ilai yag didapat memiliki ilai maksimal satu. F. K-Meas Clusterig Algorithm Tujua dari algoritma K-meas adalah utuk membagi M titik dega N dimesi ke dalam k cluster agar meghasilka ilai sum of squares yag miimal. Utuk medapatka hasil yag memiliki ilai sum of squares yag miimal pada semua partisi hampir tidak realistis, kecuali ketika M da N berukura kecil da k=2. Oleh karea itu, yag dicari adalah solusi local optima yag dicapai dega tidak ada perpidaha titik ke cluster lai yag meyebabka peguraga ilai sum of squares [12]. Perhituga rata-rata jarak atara data-data yag ada terhadap cetroid megguaka Mea Squared Error (MSE) yag dikutip dari [13] dapat dilihat sebagai berikut: MSE 1 2 v c v i (7) i 1 dimaa: adalah jumlah data pada suatu cluster v c adalah vektor cetroid v i adalah vektor data ke-i. Lagkah-lagkah yag diguaka dalam pembuata cluster megguaka K-meas adalah: 1. Tetuka jumlah cluster (k). 2. Tetuka secara acak data sejumlah k sebagai titik awal cetroid. 3. Hitug rata-rata jarak atara data-data yag ada terhadap cetroid, alokasika data-data ke dalam cluster yag memiliki jarak terdekat dega cetroid-ya. 4. Kembali ke lagkah 3 apabila masih ada data yag berpidah cluster atau terjadi perubaha ilai cluster atau iterasi sudah melebihi ilai maksimal iterasi yag ditetuka. III. ANALISIS DAN PERANCANGAN A. Deskripsi Umum Sistem Pada Tugas Akhir ii aka dibagu modul aplikasi peragkat bergerak Suara Warga (SURGA) Kota Kediri yag memiliki kemampua utuk megklasifikasi adua serta medeteksi kemiripa suatu adua dega adua laiya. Aplikasi ii juga dapat meampilka adua dega memasukka kata kuci, klasifikasi, atau taggal adua yag igi dicari. Aplikasi ii merupaka modul dari aplikasi utama Operator Surga. Defiisi modul yag diguaka adalah aplikasi haya dapat dibuka oleh aplikasi utama da tidak dapat dibuka secara lagsug dari laucher adroid. Terdapat class-iterface dari aplikasi utama yag diimplemetasika oleh modul ii agar dapat mejadi modul dari aplikasi utama. B. Kasus Pegguaa Sistem Kasus Pegguaa sistem merupaka diagram kebutuha yag meggambarka fugsioalitas sistem da aktoraktorya. Peggua dapat melihat adua terbaru, melihat semua adua, melihat detail adua, melihat adua mirip, memperbarui data adua da melakuka klasifikasi adua. Melihat adua terbaru merupaka kasus pegguaa utuk meampilka 15 adua terbaru pada aplikasi. Melihat semua adua merupaka kasus pegguaa utuk meampilka semua adua, Melihat detail adua merupaka kasus pegguaa utuk meampilka detail dari suatu adua. Melihat adua mirip merupaka kasus pegguaa utuk meampilka adua yag mirip dega adua yag dipilih. Memperbarui data adua merupaka kasus pegguaa utuk megambil adua baru dari server. Melakuka klasifikasi
JURNAL TEKNIK ITS Vol. 5, No. 1, (2016) ISSN: 2337-3539 (2301-9271 Prit) A55 adua merupaka kasus pegguaa utuk membuat klasifikasi adua di database lokal. Kasus Pegguaa sistem dapat dilihat pada Gambar 1. Gambar 3 Diagram Kelas Modularitas. Gambar 1 Diagram Kasus Pegguaa C. Peracaga Arsitektur Umum Sistem Pejelasa arsitektur sistem yag terlihat pada Gambar 2 adalah sebagai berikut: Server adalah database yag meyimpa semua adua pada SURGA Kota Kediri. Cliet dapat megambil data adua dari database server yag kemudia disimpa di database lokal. Modul aplikasi adalah modul dari aplikasi utama Operator Surga yag telah terpasag pada cliet. Modul aplikasi megguaka data adua dari database lokal utuk melakuka klasifikasi da deteksi kemiripa adua. Gambar 2 Arsitektur Umum Sistem D. Peracaga Modularitas Peracaga modularitas dilakuka dega megimplemetasika iterface milik aplikasi utama. Detail dari iterface yag diimplemetasika dapat dilihat pada Gambar 3. IV. IMPLEMENTASI Implemetasi dilakuka dega pembuata database yag terdiri dari tabel berisi adua dari server, serta tabel berisi ilai-ilai hasil perhituga klasifikasi da deteksi kemiripa. Utuk pegambila data pada database lokal, dilakuka implemetasi query yag berfugsi megambil data dari database lokal sesuai dega kebutuha modul aplikasi. Pegambila data diimplemetasika dega memodelka betuk adua mejadi JavaScript Object Notatio (JSON) yag kemudia di-parse setelah diambil cliet. Data adua yag berhasil diambil diproses ilai TF- IDF utuk setiap term-ya da disimpa ke dalam database. Clusterig atau klasifikasi dilakuka dega megguaka ilai dari adua yag telah diproses da disimpa sebelumya. Klasifikasi dilakuka dega megambil sejumlah adua yag dijadika cetroid yag kemudia dihitug rata-rata jarak masig-masig cetroid dega adua-adua laiya. Perubaha cetroid dilakuka apabila rata-rata jarak yag dilakuka lebih kecil dari cetroid sebelumya. Klasifikasi selesai apabila tidak ada adua yag berpidah cluster atau batas iterasi maksimal telah dicapai. Setelah klasifikasi selesai, maka dicari term dega bobot tertiggi pada masig-masig cluster yag berfugsi sebagai label dari klasifikasi tersebut. Pedeteksia adua mirip dilakuka setelah klasifikasi terhadap semua adua telah selesai. Dari setiap cluster diambil satu adua yag terdekat dega cetroid da adua tersebut dijadika medoid. Setelah medoid didapatka, adua yag terdapat pada suatu cluster dibadigka dega medoid dari cluster tersebut. Perbadiga dilakuka dega meghitug jarak atara kedua adua megguaka Mahatta distace da dicari tigkat kemiripaya dega Mahatta similarity. Pembuata atarmuka aplikasi dibuat dalam kode XML, halama utama modul aplikasi dapat dilihat pada Gambar 4. Modularitas diimplemetasika dega cara megimport library dari kelas utama. Selai itu, modul aplikasi juga meambahka file MANIFEST.MF yag meyediaka iformasi kepada kelas utama iformasi kelas yag diguaka oleh modul aplikasi dalam megimplemetasika iterface. Modul aplikasi juga megimplemetasika kelas iterface dari aplikasi utama. Setelah itu meletakka file JAR yag dibutuhka ke dalam folder Plugi pada media peyimpaa peragkat luak bergerak.
JURNAL TEKNIK ITS Vol. 5, No. 1, (2016) ISSN: 2337-3539 (2301-9271 Prit) A56 Tabel 1 Hasil Pegujia Uji coba fugsi Melihat adua terbaru Melihat semua adua Melihat detail adua Melihat adua mirip Memperbarui adua baru Melakuka klasifikasi adua Melakuka deteksi kemiripa adua Meampilka adua yag telah disarig Hasil pegujia Gambar 4 Halama Utama Aplikasi V. PENGUJIAN DAN EVALUASI Pegujia fugsioalitas dilakuka dega meyiapka sejumlah skeario pegguaa modul aplikasi. Hasil pegujia fugsioalitas meujukka bahwa semua fugsioalitas modul aplikasi berhasil. Pegujia klasifikasi dilakuka setelah modul aplikasi dapat megambil data adua dari server. Setelah klasifikasi dibetuk, dilakuka deteksi kemiripa atara medoid dari suatu cluster dega adua di dalamya, proses ii meghasilka ilai Mahatta similarity atara adua dega medoid dari cluster adua tersebut. Setelah deteksi kemiripa selesai, dilakuka observasi secara maual utuk meetuka ilai miimal dari Mahatta similarity atar adua yag diguaka sebagai acua dari mirip-tidakya suatu adua. Peetua ilai k da jumlah iterasi yag aka diguaka dilakuka dega cara mecari ilai MSE terkecil dari semua skeario yag tersedia. Nilai k yag terpilih adalah k=4 da iterasi maksimal 500. Setelah dilakuka klasifikasi da deteksi kemiripa, dilakuka observasi secara maual utuk meetuka ilai miimal utuk meetuka tigkat kemiripa dari dua adua yag dibadigka. Tigkat kemiripa miimal yag diguaka utuk meetuka mirip tidakya kedua adua adalah 0,9993. Tigkat kemiripa miimal adalah ol da maksimal adalah satu. Pegujia akurasi utuk tigkat kemiripa miimal 0,9993 dilakuka dega metode kuisioer. Kuisioer berisi 20 adua yag ditetapka mirip da 20 adua yag ditetapka tidak mirip oleh aplikasi, respode meyataka adua yag ditetapka oleh aplikasi bear atau tidak. Hasil pegujia akurasi meujukka bahwa akurasi utuk peetapa adua tidak mirip adalah 100% da peetapa adua mirip adalah 90%. Hasil pegujia fugsioalitas dapat dilihat pada Tabel 1. VI. KESIMPULAN Berdasarka hasil uji coba yag telah dilakuka, terdapat beberapa kesimpula yag bisa diambil, yaitu: 1) Fugsioalitas melihat adua, mecari adua da meampilka adua yag mirip dapat dijalaka dega baik. 2) Klasifikasi adua dilakuka dega metode K-meas clusterig dega ilai k=4 da iterasi maksimal 500. Kemudia dilakuka peghituga jarak atar adua dega medoid dari masig-masig cluster, adua aka dimasukka ke dalam cluster yag terdekat jarakya dega medoid cluster tersebut. 3) Pedeteksia kemiripa dilakuka dega cara meghitug jarak atar kedua adua yag dimodelka mejadi vektor da dihitug megguaka Mahatta similarity. Jarak kedua vektor adua merupaka tigkat kemiripa. Tigkat kemiripa miimal adalah ol da maksimal adalah satu. Apabila tigkat kemiripa kedua adua lebih besar dari 0,9993, maka adua diaggap mirip. 4) Adua yag telah disarig ditampilka dega melakuka proses query pegeceka adua utuk megecek apabila suatu adua memiliki ilai jarak lebih dari 0,9993 maka adua tersebut tidak ditampilka karea diaggap mirip. 5) Modularitas diimplemetasika dega cara meg-import library dari kelas utama. Modul aplikasi juga megimplemetasika kelas iterface dari aplikasi utama. Setelah itu meletakka file JAR yag dibutuhka ke dalam folder Plugi pada media peyimpaa peragkat luak bergerak. DAFTAR PUSTAKA [1] Bada Pusat Statistik Kota Kediri. [Olie]. http://kedirikota.bps.go.id/liktabelstatis/view/id/4, diakses pada 29 Juli 2015. [2] Adai Achmad, Amil Ahmad Ilham, da Herma, "Implemetasi Algoritma Term Frequecy - Iverse Documet Frequecy da Vector Space Model utuk Klasifikasi Dokume Naskah Dias," Prosidig Koferesi Nasioal Forum Tekik Elektro Idoesia (FORTEI 2012), 2012. [3] M. I. Azis, Developmet Program Applicatio To The Measuremet Of Documet Resemblace Text Miig, TF-IDF, ad Vector Space Model Algorithm, Guadarma Uiversity, 2010. [4] Christopher D. Maig, Prabhakar Raghava, da Hirich Schütze, Itroductio to Iformatio Retrieval. Califoria: Staford Uiversity, 2008.
JURNAL TEKNIK ITS Vol. 5, No. 1, (2016) ISSN: 2337-3539 (2301-9271 Prit) A57 [5] Mega Cheoweth da Mi Sog, "Text Categorizatio dalam Ecyclopedia of Data Warehouse & Data Miig," IGI Global, pp. 1936-1941, 2009. [6] Fadillah Z. Tala, "A Study of Stemmig Effects o Iformatio Retrieval i Bahasa Idoesia", Uiversiteit va Amsterdam, The Netherlads, 2003. [7] A. Z. Arifi, Roby Darwato, Dii Adi Navastara, da Heig Titi Ciptaigtyas, "Klasifikasi Olie Dokume Berita Dega Megguaka Algoritma Suffix Tree Clusterig," Semiar Sistem Iformasi Idoesia (SESINDO2008), Desember 2008. [8] Aii Rachmaia Kusumaagama Fuddoly, Klasifikasi Kategori da Idetifikasi Topik pada Artikel Berita Berbahasa Idoesia, Istitut Tekologi Sepuluh Nopember, Surabaya, 2011. [9] T. Joachims, C. Nedellec, da C. Rouveirol, "Text categorizatio with support vector machies: learig with may relevat," 10th Europea Coferece o Machie Learig, 1998. [10] Abul Hasat, Satau Halder, D. Bhattacharjee, M. Nasipuri, da D. K. Basu, "Cooparative Study of Distace Metrics For Fidig Ski Color Similarity of Two Color Facial Images," Natioal Coferece o Advacemet of Computig i Egieerig Research (ACER 13), 2013. [11] Mig Li, Xi Che, Xi Li, Bi Ma, da Paul M. B. Vitáyi, "The Similarity Metric," IEEE Trasactios O Iformatio Theory, vol. 50, o. 12, pp. 3250-3264, 2004. [12] J. A. Hartiga da M. A. Wog, "A K-Meas Clusterig Algorithm," Joural of the Royal Stastical Society. Series C, vol. 28, o. 1, pp. 100-108, 1979. [13] S. Makridakis da M. Hibo, "Evaluatig Accuracy (Or Error) Measures," INSEAD, Fotaiebleau, 1995.