BAB II LANDASAN TEORI

dokumen-dokumen yang mirip
ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

BAB III METODOLOGI PENELITIAN

BAB V IMPLEMENTASI DAN PENGUJIAN

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB 2 LANDASAN TEORI. 2.1 Pengertian Text Mining

BAB III METODOLOGI PENELITIAN

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

BAB II LANDASAN TEORI

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

BAB 2 LANDASAN TEORI

Pengelompokan Dokumen Menggunakan Winnowing Fingerprint dengan Metode K-Nearest Neighbour

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM

Clustering. Virginia Postrel

BAB 2 TINJAUAN PUSTAKA

DATA MINING DAN WAREHOUSE A N D R I

PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA

BAB 2 LANDASAN TEORI

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

BAB 2 LANDASAN TEORI

Pengenalan Pola. Klasterisasi Data

BAB II LANDASAN TEORI

PENDAHULUAN. 1.1 Latar Belakang

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

CLUSTERING DOKUMEN TEKS BERDASARKAN FINGERPRINT BIWORD WINNOWING DENGAN MENGGUNAKAN METODE K-MEANS

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

JULIO ADISANTOSO - ILKOM IPB 1

BAB II TINJAUAN PUSTAKA

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

BAB II TINJAUAN PUSTAKA

ANALISIS KLASTERING LIRIK LAGU INDONESIA

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB II LANDASAN TEORI

SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PEMBERIAN BANTUAN BIAYA PENDIDIKAN MENGGUNAKAN ALGORITMA K-MEANS

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014

BAB II LANDASAN TEORI

APLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP

dengan Algoritma K Means

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

BAB IV ANALISIS DAN PERANCANGAN

BAB III ANALISIS III.1 Analisis Konseptual Teknik Pengolahan Data

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

BAB IV ANALISA DAN PERANCANGAN

BAB II TINJAUAN PUSTAKA

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB 2 LANDASAN TEORI

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN Latar Belakang

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

PENERAPAN ALGORITMA K MEANS UNTUK PENENTUAN PENCOCOKAN PEWARNAAN CLUSTERING SECARA OTOMATIS PADA PRODUK FASHION

Algoritma Dasar. 4.1 Naive Bayes

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

Pengenalan Pola. K-Means Clustering

PENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT TELKOM SURABAYA

PENGELOMPOKAN MINAT BACA MAHASISWA MENGGUNAKAN METODE K-MEANS

DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB II LANDASAN TEORI

BAB IV PREPROCESSING DATA MINING

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

Bab 2 Tinjauan Pustaka

Abidah Elcholiqi, Beta Noranita, Indra Waspada

STUDI KOMPARATIF PENERAPAN METODE HIERARCHICAL, K-MEANS DAN SELF ORGANIZING MAPS (SOM) CLUSTERING PADA BASIS DATA. Abstract

SEGMENTASI CITRA MENGGUNAKAN K-MEANS DAN FUZZY C- MEANS DENGAN BERBAGAI RUANG WARNA

PENENTUAN NOMINASI CALON PESERTA PROGRAM PENYIAPAN CALON KEPALA SEKOLAH MENGGUNAKAN METODE K-MEANS CLUSTERING BERBASIS WEKA

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

Teknik Informatika UKDW Yogyakarta

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

Tidak ada tepat satu teori untuk menyelesaikan problem pengenalan pola Terdapat model standar yang dapat dijadikan teori acuan

HIERARCHICAL AGGLOMERATIVE CLUSTERING UNTUK PENGELOMPOKAN SKRIPSI MAHASISWA

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

BAB III ANALISA DAN PERANCANGAN SISTEM

Transkripsi:

BAB II LANDASAN TEORI 2.1 Text Mining Text mining, yang juga disebut text data mining (TDM) atau knowledge discovery in text( KDT), secara umum mengacu pada proses ekstraksi informasi dari dokumen-dokumen teks yang tidak terstruktur (unstructured). Teks mining dapat didefinisikan sebagai penemuan informasi baru dan tidak diketahui sebelumnya oleh computer, dengan secara otomatis mengekstrak informasi dari sumber-sumber teks tidak terstruktur yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Tan,1999). Karakteristik dokumen teks menurut Loreta Auvil dan Duane Searsmith dari University Of Illinois adalah: 1. Database teks yang berukuran besar, memiliki dimensi yang tinggi, yakni satu kata merupakan satu dimensi. 2. Mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulan kata satu dengan lain dapat memiliki arti yang berbeda. 3. Banyak mengandung kata ataupun arti yang bias (ambiguity) 4. Dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yang baku, karena di dalamnya terkadang muncul istilah slank seperti r u there?, dan hello boss, whatzzzz up?, dan sebagainya. 2.2 Ruang Lingkup Text Mining Text mining merupakan suatu proses yang melibatkan beberapa area teknologi. Menurut evennamun secara umum proses-proses pada teks mining mengadopsi awal terhadap teks (text preprocessing), transformasi teks (text transformation), pemilihan fitur (feature selection) dan penemuan pola (pattern discovery).

case Folding filtering Text Prepocessing Text Transformation K-Gram Nilai Hash Menentukan window Fingerprint Reduksi Fingerprint Feature Selection Pattern Discovery Kelompok (k) Tabel Master Fingerprint Centroid awal (random) Similarity (jaccard coefficient) Centroid baru Clustering Gambar 2.1 Tahapan Text Mining 2.2.1 Text Preprocessing Tahap ini melakukan analisis semantik dan sintaktik terhadap teks. Tujuan dari pemrosesan awal adalah untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan lebih lanjut. Operasi yang dapat dilakukan pada tahap ini meliputi part-of-speech yang menghasilkan parse tree untuk setiap kalimat, dan pembersihan teks.syarat-syarat inputan awal daritext preprocessing: 1. Case Folding, yaitu proses mengubah atau mengekstrak huruf capital dalam dokumen teks menjadi huruf kecil. 2. Filtering, Tahap lanjutan dari case Folding yaitu menghilangkan karakter dokumen teks yang tidak relevan, seperti tanda baca, spasi, dll, contoh kalimat Fakultas Sains dan Teknologi Univeristas Islam Negeri Riau melalui tahapan Filteringakanterbentuk fakultassainsdanteknologiuniversitasislamnegeririau 2.2.2 Text Transformation Setelah tahapan text preprocessing selesai maka akan dilakukan tahapan text transformation atau pembentukan atribut yang mengacu pada proses untuk mendapatkan representasi dokumen yang diharapkan. Tahapan transformasi teks terdapat dalam lanjutan langkah metode algoritma winnowing.algoritma winnowing merupakan algoritmaa yang digunakan dalam deteksi penjiplakan, input dari algoritma ini adalah dokumen teks yang diproses sehingga menghasilkan output berupa kumpulan nilai-nilai hash, nilai II-2

hash merupakan nilai numerik yang terbentuk dari perhitungan ASCII tiap karakter. 2.2.2.1 Algoritma Winnowing Algoritma winnowing merupakan algoritma yang digunakan dalam mencari kesamaan isi dokumen teks, dimana input dari algoritma ini adalah dokumen teks yang diproses sehingga menghasilkan output berupa kumpulan nilai-nilai hash, nilai hash merupakan nilai numerik yang terbentuk dari perhitungan ASCII tiap karakter. Kumpulan-kumpulan nilai hash tersebut selanjutnya disebut fingerprint (Schleimer dkk, 2003). Dari karakter yang telah dijelaskan dapat kita ketahui bahwa algoritma winnowing cocok diterapkan untuk pencocokan kalimat dan mencari kesamaan pola kata dalam dokumen teks. Secara garis besar, berikut konsep algoritma winnowing bekerja: 1. Pembentukan rangkaian gram dengan ukuran k-gram. Contoh kalimat yang akan dilakukan proses pembentukan gram, dengan nilai k-gram 7 (Muhammad Ridho, 2013). Teknik Informatika adalah salah satu jurusan yang terdapat di Fakultas Sains dan teknikinformatikaadalahsalahsatujurusanyangterdapatdifakultassainsdanteknol teknikieknikinknikinfnikinfoikinforkinforminformanformatformati ormatikrmatikamatikaaatikaadtikaadaikaadalkaadala aadalahadalahsdalahsaalahsallahsalaahsalahhsalahssalahsa alahsatlahsatuahsatujhsatujusatujuratujuru tujurusujurusajurusanurusanyrusanyausanyansanyanganyangtnyangte yangter angterdngterdagterdapterdapaerdapatrdapatddapatdiapatdif patdifaatdifaktdifakudifakulifakultfakultaakultaskultass ultassaltassaitassainassainsssainsd sainsdaainsdaninsdant II-3

2. Penghitungan nilai hash. Fungsi hash adalah sebuah fungsi yang mengkonvert setiap string menjadi bilangan, yang disebut hash value. Kunci agar algoritma winnowing yang efektif terdapat pada pemilihan hash valuenya. Salah satu cara yang terkenal dan efektif adalah dengan basis tertentu, biasanya yang dijadikan basis adalah bilangan prima berukuran besar. Secara teknis, algoritma rooling hash ini mirip dengan representasi bilangan bulat. Keuntungan yang paling penting yang didapat dengan representasi ini adalah memungkinkan kita untuk menhitung hash value dari substring Mencari nilai hash dari setiap fungsi string diatas sesuai dengan persamaan hash value maka diperlukan nilai c yaitu nilai ASCII karakter. Dari nilai ascii karakter tersebut maka algoritma winnowing dapat dicari dengan menggunakan persamaan rolling hash yaitu dengan membandingkan nilai uji fingerprint dokumen teks yang sama dengan dokumen teks asli. Sebagai perbandingan dalam suatu metode pencocokan fingerprint maka nilai hash yang terkecil akan di jadikan nilai untuk fingerprint awal dari window-window yang telah dibentuk. Berikut tabel nilai ASCII karakter yang kita ketahui untuk fungsi hash: Tabel 2.1 Nilai karakter-karakter ASCII ALPHABET NILAI ASCII ALPHABET NILAI ASCII A 65 a 97 B 66 b 98 C 67 c 99 D 68 d 100 E 69 e 101 F 70 f 102 G 71 g 103 H 72 h 104 I 73 i 105 J 74 J 106 K 75 k 107 L 76 l 108 M 77 m 109 N 78 n 110 O 79 o 111 P 80 p 112 Q 81 q 113 R 82 r 114 S 83 s 115 II-4

T 84 t 116 U 85 u 117 V 86 v 118 W 87 w 119 X 88 x 120 Y 89 y 121 Z 90 z 122 Dari nilai karakter karakter ascii yang kita ketahui maka dapat kita gunakan persamaan untuk Pembentukan nilai hash menggunakan persamaan rolling hash: H (c1.ck) = c 1 *b (k-1) + c 2 * b (k-2) +.. + c (k-1) * b k + c k (2.1) Keterangan: c : nilai ASCII karakter b : basis bilangan prima k : banyak karakter Contoh pembentukan nilai hash menggunakan persamaan rolling hash dengan menggunakan k-gram= 7: H (tekniki) = ascii(t) * 2 (6) + ascii(e) * 2 (5) + ascii(k) * 2 (4) + ascii(n) * 2 (3) + ascii(i) * 2 (2) + ascii(k) * 2 (1) + ascii(i) * 2 (0) = 116 * 64 + 101 * 32 + 107 * 16 + 110 * 8 + 105 * 4 + 107 * 2 + 105 * 1 = 7424 + 3232 + 1712 + 880 + 420 + 214 + 105 = 13987 Keuntungan dengan persamaan rolling hash adalah untuk menentukan nilai hash selanjutnya dengan menggunakan persamaan: H (c2.ck+1) = (H (c1.ck) c 1 * b (k-1) ) * b + c (k + 1) (2.2) Keterangan: H (c1.ck) c1 : nilai hash sebelumnya : nilai ASCII karakter pertama b : basis bilangan prima c (k + 1) : nilai ascii karakter terakhir dengan gram akhir II-5

H (eknikin) = (13987 - ascii(t) * 2 (6) ) * 2 + ascii(n) * 2 (0) = (13987 116 * 64) * 2 + 110 * 1 = (13987 7424) * 2 + 110 * 1 = (6563 * 2) + 110 = 13126 + 110 = 13236 H (knikinf) = (13236 - ascii(e) * 2 (6) ) * 2 + ascii(f) * 2 (0) = (13236 101 * 64) * 2 + 102 * 1 = (13236 6464) * 2 + 102 * 1 = (6772 * 2) + 102 = 13544 + 102 = 13646 3. Membagi kedalam window tertentu. Langkah selanjutnya yaitu nilai hash yang telah terbentuk dibagi kedalam window-window yang telah kita tetapkan, yaitu dengan nilai window= 4, maka akan didapatkan: [13987 13236 13646 13707] [13236 13646 13707 13448] [13646 13707 13448 13565] [13707 13448 13565 13531] [13448 13565 13531 13738] [13565 13531 13738 13501] [13531 13738 13501 14053] [.] [ ] [13869 13765 12920 13151] [13765 12920 13151 13994] [12920 13151 13994 14019] [13151 13994 14019 13293] [13994 14019 13293 13293] [14019 13293 13293 13763] II-6

4. Pemilihan beberapa nilai hash menjadi dokumen fingerprinting. Langkah selanjutnya yaitu dari window window yang kita dapat maka kita dapat memilih beberapa nilai hashterkecil yang akan menjadi fingerprintnya. [13236, 1] [13448, 4] [13501, 8] [13495, 11] [13138, 12] [13005, 15] [12418, 16] [12535, 17] [12751, 18] [12810,19] [12882, 21] [12818,24] [12956, 26] [13453,29] [14052,32] [13903,36] [13202,37] [13036,40] [13246,44] [12841,46] [12984,47] [12938,51] [13041,53] [13141,54] [13855,55] [13259,57] [12952,62] [12920,66] [13151,67] [13293,70] 2.2.3 Feature Selection Pemilihan fitur kata merupakan tahap lanjut dari pengurangan dimensi pada proses transformasi teks. Walaupun tahap sebelumnya sudah melakukan penghapusan kata-kata yang tidak deskriptif, namun tidak semua kata-kata didalam dokumen memiliki arti penting. Oleh karena itu, untuk mengurangi dimensi, pemilihan hanya dilakukan terhadap kata-kata yang relevan yang benarbenar mempresentasikan isi dari suatu dokumen. Pada tahapan pemilihan fitur, dokumen-dokumen yang telah diproses melalui hasil winnowing akan mempunyai output berupa nilai fingerprint. Tahapan dalam feature selection adalah: 1. Reduksi Fingerprint, tahapan reduksi fingerprint adalah pengumpulan dan pengurutan, pengurangan nilai fingerprintduplikat yang sama dalam keseluruhan fingerprint dokumen dan pengurangan fingerprint yang single. Tahapan ini membutuhkan seluruh nilai fingerprint yang telah dikumpulkan dari masing masing dokumen. 2.2.4 Pattern Discovery Pattern discovery merupakan tahap penting untuk menemukan pola atau pengetahuan dari keseluruhan teks. Tindakan yang biasa dilakuakan pada tahap ini adalah operasi teks mining, dan biasanya menggunakan teknik-teknik data mining. Masukan awal dari proses data mining adalah suatu datateks dan menghasilkan keluaran berupa pola sebagai hasil intrepretasi atau evaluasi. Pada tahap ini dapat digunakan pemodelan yang terdapat dalam algoritma K-Meansyaitu untuk II-7

menemukan pola dalam pengklasteran dokumen dengan menggunakan Jaccard coefficient dan Euclidian distance Pada tahapan ini merupakan lanjutan dari tahapan Feature selection dimana proses penentuan Similaritas digunakan algoritma K-means. 2.2.4.1 Algoritma K-Means K-Means (Macqueen, 1967) merupakan algoritma clustering yang mudah untuk diimplementasikan.k-means termasuk kedalam algoritma partitional clustering, dan juga exclusive clustering yaitu satu data hanya masuk dalam satu cluster tertentu. Ide utama dari algoritma ini adalah menentukan jumlah cluster di awal dan mendefinisikan sejumlah k centroid yaitu satu centroid untuk setiap cluster (Han dan Kamber, 2006) Beberapa alternative perkembangan penerapan algoritma k-means yaitu dengan beberapa pengembangan teori-teori penghitungan yang terkait antara lain: distance space, untuk menghitung jarak antara data dengan centroidnya, beberapa distance space telah diimplementasikan dalam menghitung jarak antara data dengan centroid diantaranya ( Manhattan/city block) distance space, ( Euclidian) distance space, dan (Minkowski) distance space. 1. Manhattan Distance : Menurut konsep ini jarak dua titik x dan y dirumuskan : D(x,y)= ᵢ ᵢ (2.3) 2. Euclidian Distance : Jarak dua titik x dan y menurut Euclidean dirumuskan sebagai berikut: (2.4) D(i,j) =ǁi-jǁ= ( ᵢ )² 3. Minkowski Distance : D(x,y)=ǁ ǁ = (2.5) Dimana q 1 adalah parameter yang bisa diseleksi. Dalam hal ini q = 1, maka jarak Manhattan. Sedangkan q = 2, maka jarak tersebut menjadi jarak Euclidean. II-8

Selain menggunakan distance space dalam menghitung jarak dengan centroid, k-means juga dapat dihitung melalui tingkat similaritas terhadap fingerprint dokumen dengan centroidnya sehingga tingkat keakuratan similar dari dokumen dapat diketahui dengan pendekatan fungsi similaritas: 1. Cosine Similarity Sim (Di,Dj) = 2. Jaccard Coefficient Sim (Di,Dj) = 3. Pearson Correlation Sim (Di,Dj) = (2.6) (2.7) + 1 (2.8) Algoritma K-means ini sangat terkenal karena kemudahan dalam melakukan pengelompokkan dengan data yang besar dan sangat cepat untuk waktu komputasinya. Setiap data harus masuk kedalam cluster tertentu. Dan memungkinkan untuk berpindah cluster pada tahapan selanjutnya. Pada awal algoritma ini mengambil sebagian dari banyaknya komponen dari populasi untuk dijadikan pusat cluster awal. Pada step ini pusat cluster dipilih secara acak dari sekumpulan populasi dokumen. Berikutnya K-Means menguji masing-masing komponen di dalam populasi dan menandai komponen tersebut kesalah satu pusat cluster yang telah didefinisikan tergantungdari similarityterbesar antar komponen dari tiap-tiap cluster. Posisi pusat clusterakan dihitung kembali sampai semua komponen data digolongkan kedalam tiap-tiap pusatcluster dan terakhir akan terbentuk posisi pusat cluster baru. Algoritma K-Means pada dasarnya melakukan 2 proses yakni proses pendeteksian lokasi pusat tiap cluster dan proses pencarian anggota dari tiap-tiap cluster(barakhbah,2006). Dalam pembentukan sebuah clusterdi K-Means bergantung pada centorid. Dimana jumlah centroid ini yang akan menentukan berapa jumlah clusteryang akan dibuat. Penentuan centroidharus menggunakan metode yang terbaik. Karena pengelompokkan sangat bergantung pada baik tidaknya centroid awal yang dibentuk. Dari centroid awal yang telah dibentuk ini akan dilakukan perhitungan similarty antara dokumen dengan centroid. Jika proses tersebut selesai maka akan II-9

ada pengelompokkan sangat bergantung pada baik tidaknya centroid awal yang dibentuk. Jika proses tersebut selesai maka akan ada beberapa data yang masuk dalam beberapa anggota cluster. Dari anggota clustertersebut dilakukan perhitungan titik tengah atau centroid yang baru. Jika posisi dari anggota cluster yang baru tersebut berubah dari posisi centroid yang lama maka akan dilakukan proses iterasi ke duadimana langkah yang kita lakukan adalah mengulang kembali menghitung similarity dokumen terhadap centroid baru. Proses tersebut dilakukan sampai anggota centroid baru posisinya tidak mengalamipeubahan posisi dari centorid nya. K-Means merupakan salah satu metode pengkalsteran dengan pendekatan partisi yang mempartisi data yang ada kedalam bentuk satu atau lebih kelompok. Metode ini mempartisi data ke dalam kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu kelompok, dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok lain. Dimana langkah utama dari algoritma k-means adalah: 1. Menentukan nilai k sebagai jumlah kelompok yang ingin dibentuk 2. Pembentukan Tabel master fingerprint, tahapan ini lanjutan dari reduksi fingerprint, nilai-nilai fingerprint yang telah di reduksi akan di bentuk ke dalam tabel master fingerprint. 3. Menentukan centroid (titik pusat cluster) awal secara random sebanyak kelompok dari seluruh dokumen. 4. Similarity, merupakan metode untuk menemukan pola yang sama dari keseluruhan fingerprint dokumen, dimana dari persamaan jaccard coefficient maka akan kita dapatkan persamaan similaritas: Sim (Di,Dj) = Keterangan: Fp(di) : Fingerprint Similar dokumen Fp(dj) : Fingerprint dokumen c : nilai centroid Di : Dok ke-i Dj : Centroid ke-i (2.7) II-10

semakin besar nilai jaccard coefficientnya maka nilai similarity terhadap centroid juga semakin besar dan dapat dikategorikan ke dalam cluster yang sama. Selain menggunakan persamaan similaritas, untuk menghitung jarak kedekatan fingerprint dengan centroid dapat menggunakan distance space yaitu persamaan Euclidian distance: (2.4) D(i,j) =ǁi-jǁ= ( ᵢ )² Keterangan: di : Token fingerprint ke-i padadok x dj : Token centroid ke-i pada dok y i : Fingerprint dokumen ke-i j : Centroid ke-i semakin kecil nilai jarak antara dokumen dengan centroidnya, maka nilai similarity nya akan semakin besar dan dapat dikategorikan ke dalam cluster yang sama. 5. Centroid baru, pada iterasi kedua proses K-means akan menentukan centroid baru dari similarity yang kita peroleh. Sehingga untuk menentukan centroid kedua maka digunakan persamaan: = (h(h, ) (2.9) Keterangan: (hf(h,c) : Jumlah dokumen yang ada didalam sebuah cluster n : Banyaknya dokumen dalam sebuah cluster Dimana centroid baru didapat dengan membagiseluruh anggota dokumen yang berada dalam 1 cluster dengan jumlah seluruh dokumen yang ada dalam cluster tersebut. 6. Kembali kelangkah keempat jika anggota cluster berubah posisi terhadap centroidnya. Beberapa permasalahan yang sering muncul pada saat menggunakan metode K-Means untuk melakukan pengelompokan data adalah: 1. Ditemukannya beberapa model clustering yang berbeda 2. Pemilihan jumlah cluster yang paling tepat II-11

3. Kegagalan untuk converge 4. Pendeteksian outliers 5. Bentuk masing-masing cluster 6. Masalah overlapping K-Means merupakan metode data clustering yang digolongkan sebagai metode pengklasifikasian yang bersifat unsupervised (tanpa arahan). Pengkategorian metode-metode pengklasifikasian data antara supervised dan unsupervised classification didasarkan pada adanya dataset yang data itemnya sudah sejak awal mempunyai label kelas dan dataset yang data itemnya tidak mempunyai label kelas. Untuk data yang sudah mempunyai label kelas, metode pengklasifikasian yang digunakan merupakan metode supervised classification dan untuk data yang belum mempunyai label kelas, metode pengklasifikasian yang digunakan adalah metode unsupervised classification. Selain masalah optimasi pengelompokan data ke masing-masing cluster, data clustering juga diasosiasikan dengan permasalahan penentuan jumlah cluster yang paling tepat untuk data yang dianalisa. Untuk kedua jenis K-Means, baik Hard K-Means dan Fuzzy K-Means, yang telah dijelaskan di atas, penentuan jumlah cluster untuk dataset yang dianalisa umumnya dilakukan secara supervised atau ditentukan dari awal oleh pengguna, walaupun dalam penerapannya ada beberapa metode yang sering dipasangkan dengan metode K-Means. Karena secara teori metode penentuan jumlah cluster ini tidak sama dengan metode pengelompokan yang dilakukan oleh K-Means, kevalidan jumlah cluster yang dihasilkan umumnya masih dipertanyakan. Melihat keadaan dimana pengguna umumnya sering menentukan jumlah cluster sendiri secara terpisah, baik itu dengan menggunakan metode tertentu atau berdasarkan pengalaman, di sini, kedua metode K-Means ini dapat disebut sebagai metode semisupervisedclassification, karena metode ini mengalokasikan data items ke masingmasing cluster secara unsupervised dan menentukan jumlah cluster yang paling sesuai dengan data yang dianalisa secara supervised. II-12

Gambar 2.2 Ilustrasi Pengelompokan K-Means 2.2.5 Clustering Analisis cluster adalah pengorganisasian kumpulanpola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya.clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, termasuk data mining,document retrieval, segmentasi citra, dan klasifikasi pola.metodologi clustering lebih cocokdigunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya. Tipe dari Clustering sendiri dapat dikelompokkan berdasarkan beberapa pendekatan: 1. Well separated cluster, sebuah cluster adalah sehimpunan titik yang memiliki kemiripan dengan titik lain dalam cluster daripad di cluster lain 2. Center Based, sebuah cluster yang memiliki anggota-anggota yang mirip dengan pusat cluster daripada pusat cluster lain 3. Density based, sebuah cluster adalah area padat titik yang dipisahkan dengan area kepadatan rendah dari area kepadatan tinggi lainnya. Analisa Cluster merupakan suatu teknik penyelesaian masalah yang bersifat unsupervised learning, yang berarti analisa cluster menemukan pola dari data dengan tidak memanfaatkan label yang sudah ada sebelumnya. II-13

2.2.5.1 Metode Clustering 1. Metode Partisi (Non Hierarki), dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi sehingga tidak ada data yang overlap dan satu data hanya memiliki satu cluster. Contohnya: algoritma K-Means. 2. Metode Hierarki, yang menghasilkan cluster yang bersarang artinya suatu data dapat memiliki cluster lebih dari satu. Metode ini terbagi menjadi dua yaitu buttom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila salah satu penggabungan atau pemecahan dilakukan pada tempat yang salah, tidak akan didapatkan cluster yang optimal. Contohnya: Agglomerative ( Findit, Proclus), Divisive Hierarchical Clustering (Clique, Mafia, Enclue). 2.2.5.2 Klasifikasi Clustering Clustering secara luas diklasifikasikan menjadi dua yaitu hierarchical clustering dan non hierarchical clustering (Sambamurthy, 2003).Hierarchical clustering adalah sebuah metode hierarkis yang menciptakan komposisi hierarkis yang diterapkan pada objek data, sehingga akan menghasilkan cluster-cluster yang bersarang. Algoritma hierarchicalclustering ini mengatur seluruh objek dalam sebuah pohon untuk melihat hubungan antara setiap objek. Semakin tinggi urutan simpul dari pohon, maka semakin rendah tingkat kemiripan suatu objek. Algoritma ini dapat dilakukan dengan beberapa pendekatan yaitu agglomerative dan divisive. Pada pendekatan agglomerative, setiap objek pada awalnya berada dalam cluster masing-masing, kemudian setiap pasangan cluster yang memiliki kemiripan tinggi akan dikelompokkan kedalam satu cluster, sampai membentuk suatu hierarkis cluster. Sedangkan pada pendekatan divisive, akan terdapat sebuah cluster tunggal yang beranggotakan seluruh objek, kemudian dilakukan pemecahan menjadi subcluster. Contoh algoritma hierarchical clustering adalah HAC (Hierarchical Agglomerative Clustering). Non-hierarchical clustering, pada umumnya disebut algoritma partitional clustering, memberikan sejumlah n objek dan k yang merupakan jumlah dari II-14

cluster yang terbentuk. Algoritma partitional clustering mengolah objek ke dalam k-kelompok berdasarkan kriteria tertentu, dimana setiap kelompok merupakan representasi sebuah cluster, contoh algoritma partitional clustering adalah K- Means. Selain pembagian diatas, terdapat beberapa pembagian clustering berdasarkan cara pengelompokan data yaitu: 1. Exclusive Clustering Pada exclusive clustering objek yang telah masuk pada sebuah cluster tertentu, tidak akan masuk kedalam cluster lain. Hal ini dapat dilihat dari gambar 2.1 yaitu garis lurus pada bidang tersebut merupakan pemisah antar setiap objek. Salah satu contoh algoritma adalah K- Means (Adiningsih, 2007). Gambar 2.3 Exclusive Clustering (Aidiningsih, 2007) 2. Overlapping Clustering Overlapping clustering menggunakan fuzzy set dalam pengelompokan data sehingga setiap objek mungkin masuk dalam dua atau lebih cluster dengan derajat keanggotaan yang berbeda. Pada algoritma ini data akan disosiasikan terhadap nilai keanggotan yang sesuai. Salah satu contoh algoritma adalah Fuzzy C-means (Adiningsih, 2007). 3. Hierarchical Clustering Hierarchical clustering merupakan metode yang melakukan penggabungan antara dua cluster yang saling berdekatan. 4. Probabilitas Clustering Clustering ini menggunakan pendekatan probabalistik, salah satu contoh adalah algoritma Gaussians Mixture (Adiningsih, 2007). II-15

Gambar 2.4 Tahapan Clustering 2.3 Metode Pengukuran Performansi Nilai performansi adalah metode pengukuran yang digunakan untuk menunjukkan keberhasilan dari suatu informasi yang diproses, dan dapat diukur menggunakan tingkat relevansi suatu informasi dokumen teks yang ditemukan. Dokumen dokumen yang diukur berdasarkan kesamaan inputan teks berupa hasil cluster dokumen teks yang relevan antara dokumen dokumennya. Parameter yang digunakan dalam performansi sistem antara lain: 1. Precision (Ketepatan) Precision ialah perbandingan jumlah dokumen relevan yang didapat oleh sistem, dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. = 100 % (2.10) Keterangan: : Jumlah dokumen relevan : Banyaknya dokumen 2. Relevansi (rata-rata relevan) Relevansi adalah nilai rata-rata ketepatan hasil precision, dimana untuk mengukur hasil pengujian yang telah dilakukan. = (2.11) II-16

Keterangan: : Jumlah nilai precision : Banyaknya pengujian yang dilakukan II-17