ISSN:' Jurnal Teknologi. ACAN,trFTIA [SEd[ Terdkcditaq tno. 56 DIKTI/KEP/2005) Vol. l2 No.l Agustus 2007 ""I

Ukuran: px
Mulai penontonan dengan halaman:

Download "ISSN:' Jurnal Teknologi. ACAN,trFTIA [SEd[ Terdkcditaq tno. 56 DIKTI/KEP/2005) Vol. l2 No.l Agustus 2007 ""I"

Transkripsi

1 ISSN:' Jurnal Teknologi ACAN,trFTIA [SEd[ Terdkcditaq tno. 56 DIKTI/KEP/2005) Vol. l2 No.l Agustus 2007 ""I -l

2 JURNAL TEKNOLOGI Pemimpir U mu rvpemlnpli Redaks i 0.. f wahyu PuNanto, MS E Pret AdiS@sanb, M.Sc. Ph.D P6l L wah[di Sudisedyawai slj ph0 0B Reh.lyo wadoyo, M sc,ph D k PdslJlno Eto Pambudi, [4.T. r Risma Ade ia Simajunlak M.'I 06. iudi Seryean, Ms, M $ suwairo Rahado, s.s., M Kom Ellyawai Selyo AdiilaM, ST., M $ Lehbaga Penelitian nsutur sa ns STeknolog AKPRTND Jl.(aishakNo 23 Kompleks Ba apai Yogyaratu Te p. {0r4) ,544504, Fe (0274) Emai academ a Glaloathnd ad d hno rr\vw aklind a. d H,A( DAN IGWA! AAN R OAKS Reda]Giig'dakiasl hyaigldakmem4jh' imea/pesyamlai t ki s, reigadaki peebarra ssian dasrah. mmpe$a ibah*ad be omulas deruan ISSN:14't0-5829

3 DAFIAR ISI Anarisls A rai Daya Tqa Fasa d Dislribus densan unt Pembaigkir yang Idak Terpusar Asuns Bud' Murano, t Made Ai NQtlha srud komparas Aqoriha Ieks aerbahasa lndonesia V A it H.hzah, Adhl s1santa, F Saesianta Jaz Eko lstyanto C/rsrerirg ookumen Gerakan Ta^ah Di KaEnssambunq. Penyebab dan Anrisipas pences.hainya Ap kas Sislem cer.las Kebtakaf Manalemen Resko Sstem Th rnvestgaton o Deposil or Radioisorope Eremenr with n The Mmins Subst.nce i lhewesltrmor rs and Nusa TengqaE Imur Banhabneus Pasanska, Prayata Ktfiani s Btotoptspto watuyo Pengatuh Vskosilas terhadap DislrbuslTekanan Radiatpada AtiEn danlara Dua E6uariPerayanan kuar,ese en.y Banr _^ o surabaya Eko Nrtmdnta Lanl)p Tn:Daana t@ry std)ona Pe^ssrnaan Multistags Fttet Adapr,ye wreror untuk Meninskarkan Kua tas cre Ftn utanininsrun wahyu Ad Pnjano - D'grdrH.s' oopp.as oe1sa" V.rodd d,o,d Marhemalioar fi,lodering for Emuson Lquid Membrane Peigaruh Ralio Asam ot,.atlorbirorpada produk solbibn Monooteal meta u i;:f;.8:,*'*"pembasahankataiste.hadapkonversiso]daamreaklor Mahrutl. F. Hunda c nawan Arelis s Pdbaike sistem Penlanahan pada Kaki rmenara saturan TEnsms Tegansan Tinggt1s0 Kv Eantu-semanu Joqlakana

4 STUDI KOMPARASI ALGORITMA HIERARCHICAL DAN PARTITIONAL UNTUK CLUSTERING DOKUMEN TEKS BERBAHASA INDONESIA Amir Hamzah 1), Adhi Susanto 2), F.Soesianto 2), dan Jazy Eko Istyanto 3) ABSTRACT Text document clustering is a technique that has been intensively studied because of its important role in text-mining and information retrieval. In the vector space model it is typically known two main clustering approaches,i.e. hierachical algorithm and partitional algorithm. The hierarchical algorithm produces deterministic result known as a dendogram, but its weakness is high complexity in time and memory. On the other hand, partitiaonal algorithm has linear time and memory complexity although its clustering result is not independent with its initial cluster. The aim of this researh was doing experimental study to compare the performance of several techniques of hierarchical algorithms and partitional algorithms in text document writen in Bahasa Indonesia. The five similarity techniques i.e. UPGMA, CSI, IST,SL and CL are chosen for hierarchical, whereas K-Means, Bisecting K-Mean and buckshot are chosen for partitonal. The document collections from 200 to 800 Indonesian text news that has been categorized manually was used to test these algorithms by using F-measure as clustering performance. This value was derived from Recall and Precision and can be used to measure the performance of the algorithms to correctly classify the collections. Results showed that Bisecting K-Mean as a variant of partitional algorithm has a performance as good as the two best hierarchical techniques,i.e. UPGMA and CL with much lower time complexity. Keywords: document clustering, hierarchical, partitional, clustering validation INTISARI Clustering dokumen merupakan teknik yang intensif dipelajari karena peran pentingnya dalam text mining dan sistem temu kembali informasi. Dalam model ruang vektor dikenal dua penden clustering, yaitu algoritma hierarchical dan algoritma partitional. Algoritma hierarchical menghasilkan clustering yang deterministik berupa sebuah dendodram dan tidak tergantung urutan dokumen tetapi memiliki kelemahan berupa kompleksitas memori dan waktu yang relatif besar. Algoritma partitional meskipun memiliki kompleksitas memori dan waktu yang lebih sederhana tetapi hasil clusteringnya bersifat probabilistik dan dipengaruhi oleh urutan dokumen. Penelitian ini bertujuan melakukan studi unjuk kerja dua penden algoritma tersebut untuk clustering dokumen teks berbahasa Indonesia. Algoritma hierarchical yang dikaji menggunakan lima teknik yaitu UPGMA, CST, IST, SL dan CL, sedangkan untuk algoritma partitional diambil metode K- Means, Bisecting K-Means dan Buckshot. Koleksi dokumen yang digunakan adalah dokumen teks berita bahasa Indonesia 200 sampai 800 dokumen. Parameter yang gunakan untuk membandingkan kinerja algoritma adalah F-measure, nilai yang diturunkan dari recall dan precision. Hasil penelitian menunjukkan bahwa Bisecting K-Mean memiliki kinerja yang sebanding dengan dua teknik terbaik hierarchical, UPGMA dan CL dengan kompleksitas waktu yang jauh lebih kecil. Kata kunci : clustering dokumen, hierarchical, partitional, validitas clustering PENDAHULUAN Pemanfaatan teknologi digital dan jaringan komputer telah menyebabkan ledakan informasi berkembang eksponensial. Hal ini menyebabkan kesulitan dalam menemukan kembali informasi yang cenderung tidak efektif, baik dalam pencarian maupun penyajian informasinya. Beberapa penelitian mengatasi masalah ini dengan memanfaatkan teknik 1) Jurusan Teknik Informatika, FTI, IST AKPRIND, Yogyakarta, miramzah@yahoo.co.id 2) Jurusan Teknik Elektro, Fak. Teknik, UGM, Yogyakarta 3) Jurusan Fisika, Fak. MIPA, UGM, Yogyakarta 11 clustering untuk meningkatkan efektifitas pencarian (Tombros, 2002) atau mengemas hasil pencarian sehingga dapat disajikan lebih efektif (Zamir,1999; Osinki, 2004). Dalam dunia web saat ini diperkirakan ada lebih dari 16 milyar dokumen terindeks ( 2007), dengan jutaan halaman web bertambah setiap hari dan sebagian besar adalah dokumen teks, yang mencapai 80% total informasi (Bifet, 2005).

5 Membanjirnya informasi teks digital digital ini telah mendorong kebutuhan riset untuk elaborasi koleksi teks (text-mining) dan riset untuk optimalisasi mesin pencari informasi (information retrieval system), atau sistem IR. Meningkatnya jumlah bahasa dalam web telah menjadi tantangan baru penelitian sistem IR. Saat ini masih sangat sedikit penelitian dibidang IR dan clustering dokumen yang berbasis bahasa Indonesia (Nazief, 2000). Menurut Asian(2004), Indonesia dengan jumlah penduduk diatas dua ratus juta sangat memerlukan penelitian pada dua bidang tersebut, mengingat kebanyakan penelitian yang ada selalu berbasis bahasa Inggris. Penerapan clustering dokumen untuk meningkatkan kinerja sistem IR telah lama diterapkan (Rijbergen, Model clustering dokumen yang sering diterapkan untuk meningkatkan efektivitas pencarian query dalam koleksi dokumen adalah model hierarchical, baik aglomerative maupun divisive (Tombros,2002). Model ini memiliki karakteristik tidak tergantung pada urutan dokumen dan menghasilkan clustering yang pasti. Kelemahan model ini adalah kompleksitas waktu dan memory yang tinggi (Jain,1988). Model lain yang belum banyak diterapkan dalam sistem IR adalah partitional. Menurut Kural(1999), koleksi dokumen tidak selalu instrinsik berstruktur hierarchi sehingga penden ini tidak selalu sesuai. Penden partitional memiliki keuntungan kompleksitas waktu komputasi dan penggunaan memory yang linear, meskipun memiliki kelemahan pada hasil clustering yang kurang pasti karena tergantung pada urutan dokumen dan inisialisasi awal clustering. Untuk dokumen berbahasa inggris perbandingan clustering antara beberapa metode hierarchical dan partitional telah dilakukan oleh Steinbach et.al. (2000) dimana hasilnya adalah meode Bisecting K-Maen memiliki kinerja yang sebanding dengan metode hierarchical UPGMA. Namun hasil penelitian ini sangat mungkin tidak sama jika diterapkan pada dokumen bahasa Indonesia mengingat ada proses stemming pada tahap per-processing yang menggunakan algoritma berbeda anyara bahasa inggris dengan bahasa Indonesia. Penelitian ini bertujuan melakukan kajian ekperimental untuk membandingkan kinerja algoritma hierarchical dan algoritma partitional dalam melakukan clustering dokumen teks untuk dokumen berbahasa Indonesia. Hasil yang diharapkan adalah berupa rekomendasi untuk pemilihan algoritma yang paling efisien ditinjau dari waktu komputasi dan penggunaan memori dengan tidak mengorbankan kinerja clustering. Model ruang vektor untuk koleksi dokumen mengandaikan dokumen sebagai sebuah vektor dalam ruang (feature). Klustering dokumen dipandang sebagai pengelompokan vektor berdasarkan suatu fungsi similarity antar dua vektor tersebut. Jika koleksi n buah dokumen dapat diindeks oleh t buah term/feature maka suatu dokumen dapat dipandang sebagai vektor berdimensi t dalam ruang term tersebut. Dengan demikian koleksi dokumen dapat dituliskan sebagai matrik dokumen X, yang dapat ditulis : ke j X = {x ij } i= 1,2,..t ; j =1,2,.. N (1) x ij adalah bobot term i dalam dokumen Proses menyusunan matrik -dokumen (sering disebut tahap pre-processing) adalah sebagai berikut: tahap awal adalah pengubahan ekspresi ke lower-case dan penghilangan stop-word, seperti artikel atau preposisi misalnya ini, itu, yang, yaitu dan lain-lain. Penghilangan stop-word ini dapat mengurangi frekuensi feature 30 sampai 40 persen (Rijsbergen,1979). Proses leksikal yang lain terhadap feature adalah proses stemming, yang akan mereduksi semua ke dalam akar nya. Algoritma stemming yang sudah luas diterapkan dalam sistem IR adalah algoritma yang dibangun oleh Porter (1987), biasa disebut dengan Porter Stemmer. Algoritma ini telah dimodifikasi ke dalam berbagai bahasa. Modifikasi untuk bahasa Indonesia dilakukan oleh Tala(2004). Review detail tentang stemmer bahasa Indonesia telah dilakukan oleh Asian(2005), sedangkan efek stemming pada clustering dokumen bahasa Indonesia dilakuan oleh Hamzah (2006). Untuk meningkatkan kemampuan term sebagai pembeda dokumen pembobotan atas term perlu dilakukan. Pembobotan dasar dilakukan dengan menghitung frekuensi kemunculan term dalam dokumen karena dipercaya bahwa frekuensi kemunculan term merupakan petunjuk sejauh mana term tersebut mewakili isi dokumen. Menurut Luhn (1958), kekuatan pembeda terkait dengan frekuensi term (term-frequency, tf), di mana term yang memiliki kekuatan diskriminasi adalah term dengan frekuensi sedang. Untuk itu pemotongan frekuensi bawah biasanya ditempuh dengan memberikan treshold tertentu untuk minimal jumlah dokumen yang memuat term tersebut. Pemotongan term dengan 12

6 frekuensi tinggi dilakukan dengan membuang stop-word. Penggunaan hanya frekuensi term dalam dokumen sebagai bobot term tersebut dalam representasi dokumen tidaklah memadai. Hal ini karena bias dapat muncul dari faktor lain, misalnya banyaknya dokumen yang memuat term tersebut, atau faktor panjang dokumen dimana term tersebut muncul (Rijsbergen, 1979). Faktor panjang dokumen dalam koleksi berakibat seolah-olah term yang sering muncul pada dokumen panjang lebih penting dari pada term yang kurang sering muncul pada dokumen pendek. Untuk itu normalisasi frekuensi term terhadap panjang dokumen diperlukan. Secara umum bentuk pembobotan akhir term dapat dirangkumkan sebagai berikut (Chisholm et.al.,1999) : w ij =L ij.g i.n j (2) di mana w ij adalah akhir bobot total term i dalam dokumen ke j, L ij adalah bobot lokal term i dalam dokumen ke j yang mengukur seberapa penting peranan term i dalam dokumen j, G i bobot global term i yang mengukur seberapa penting term i dalam seluruh koleksi dokumen, dan N j adalah faktor normalisasi untuk dokumen ke j untuk menghilangkan pengaruh bias karena panjang dokumen. Berbagai variasi pembobotan lokal, global dan normalisasi yang dapat diterapkan pada vektor dokumen dirangkumkan dalam Chisholm et.al. (1999). Kombinasi terbaik yang sering digunakan adalah f ij untuk bobot lokal L ij (disebut TF), dan log N n i sebagai bobot global G i (disebut IDF) dan pembobotan normal sehingga panjang vektor adalah satu, yaitu : N j = m i 0 1 (3) G i L ij Sehingga bentuk akhir disebut sebagai pembobotan TF-IDF ternormalisasi, yaitu : w ij = (log( f ij 2 1).log N n i 2 (4) t N (log( f ij 1).log i1 ni di mana w ij adalah akhir bobot total term i dalam dokumen ke j, f ij adalah frekuensi ke-i dalam dokumen ke-j, N cacah dokumen dalam koleksi, n i cacah dokumen mengandung term i dan t adalah cacah total term. Kesamaan antara dokumen D i dengan dokumen D j dapat diukur dengan fungsi similaritas ( mengukur kesamaan) atau fungsi jarak (mengukura ketidaksamaan). Beberapa fungsi similaritas dan fungsi jarak yang dapat dijumpai antara lain adalah Dice, Jaccard, Overlap, asimmetric, Minowski distance, Euclidean distance, Pearson Correlation dan Cosine. Menurut Strehl et.al.(2000) untuk tujuan clustering dokumen jarak fungsi yang paling baik adalah fungsi similariutas Cosine, berikut : Cosine-sim(D i,d j )= t i1 D D t t 2 ( Di ) i1 i1 i j ( D ) j 2 (5) Selanjutnya jika vektor dokumen Di dan vektor dokumen Dj masing-masing adalah ternormalisasi menjadi vektor satuan, sehingga Di 2 =1 dan Dj 2 =1 maka fungsi similaritas cosine menjadi perkalian antar vektor, yaitu : Cosine-sim(D i,d j ) = t i1 D i D j (6) Suatu formula yang penting dalam clustering dokumen adalah representasi pusat kluster. Menurut (Rijsbergen, 1979) representasi pusat kluster dapat diwakili oleh dokumen atau beberapa dokumen yang berada di tengah. Namun formula yang paling sering adalah ratarata vektor dokumen (m) seperti rumusan (7) berikut : 1 n k m= nk i1 D i (7) dengan n k adalah cacah dokumen dalam kluster ke-k. Seleksi feature Setelah pemotongan frekuensi atas dengan dengan stop-word filtering dan frekeunsi bawah dengan memberi treshold (batas) minimal, jumlah yang terindeks untuk matrik -dokumen biasanya masih relatif besar. Untuk itu seleksi dapat ditempuh dengan memilih yang memiliki variansi frekeunsi keumnculan besar (Dhillon et.al., 2002; Hamzah, 2006). Untuk teks bahasa Indonesia seleksi dengan cara ini dapat menurunkan feature sampai 15% dari jumlah semula dengan kinerja clustering tidak menurun (Hamzah, 2006). Rumusan variansi tiap dapat dituliskan sebagai persamaan () berikut : 13

7 ni q i (t)= f j1 ni 2 1 j ni j1 2 f j (8) dengan q i adalah variansi jika frekuensi minimal muncul dalam analisis adalah i (i=0,1,2,...). Clustering Dokumen Clustering didefinisikan sebagai upaya pengelompokan data ke dalam kluster sehingga data-data didalam kluster yang sama memiliki lebih kesamaan dibandingkan dengan data-data pada kluster yang berbeda (Jain,1988). Dari penerapan clustering yang luas pada bidang sains dan teknik salah satu penerapannya adalah untuk clustering dokumen. Metode Hierarchi Agglomerative untuk Clustering dokumen Berikut ini algoritma dasar klustering secara aglomerative, dengan menggunakan notasi ĉ = himpunan cluster, N = cacah objek dan c = cacah cluster yang akan dibuat: [1]. Andaikan ĉ =N ; himpunan objek C={x i }, i=1,2, n [2]. Jika ĉ < c stop [3]. Temukan dua kluster terdekat : C i dan C j [4]. gabungkan C i dan C j, hapus C j dan kurangi ĉ dengan satu [5]. 5. Pergi ke langkah 2 Tahap paling krusial yaitu langkah 3, ditentukan dengan beberapa ukuran similaritas antar kluster antara lain, misalnya : UPGMA, CST, IST, Single Link dan Complete Link (Jain,1988). Berikut ini ringkasan masingmasing teknik tersebut: Unweighted Pair Group Method Average similarity (UPGMA): Similaritas dua kluster diukur dengan rata-rata hitung similaritas antar seluruh pasangan titik antara kedua kluster. Centorid- Similarity Technique(CIST) : Jarak antar kluster ditentukan dengan jarak antar pusat kluster. Intra-Cluster Similarity (IST) : Dua kluster digabungkan jika selisih similaritas dua cluster gabungan dengan similaritas masingmasing kluster adalah maksimal. Single Link (SL) : jarak terbaik dua kluster diwakili oleh jarak terdekat (similaritas tertinggi) dari dua titik dari dua kluster. Complete Link(CL) : jarak terbaik dua kluster diwakili oleh jarak terjauh (similaritas terendah) dari dua titik dari dua kluster. Secara teknis masukan bagi algoritma hierarchical clustering adalah matriks similaritas antar dokumen yang berukuran NxN. Iterasi yang setiap tahapnya melakukan penggabungan kluster dilakukan dengan melakukan update pada matrik similaritas. Hal inilah yang menyebabkan algoritma ini memiliki kompleksitas waktu dan ruang O(N 2 ). K-Means Clustering Algoritma K-means clustering merupakan algortima iteratif dengan meminimalkan jumlah kuadrat error antara vektor objek dengan pusat kluster terdekatnya (Jain, 1988), yaitu : K n j SSE= xi m j j1 i1 2 (9) di mana m j adalah pusat kluster (mean vector) dalam kluster ke j. Selanjutnya algoritma K- means standard dapat dituliskan sebagai : [1]. Ambil K objek sebagai seed dari K pusat kluster [2]. Untuk semua objek: cari kluster dengan jarak terdekat, dan tetapkan objek masuk dalam kluster tersebut. [3]. Hitung ulang pusat kluster dengan rata-rata objek dalam kluster tersebut [4]. Hitung fungsi kriteria dan lakukan evaluasi. Jika fungsi kriteria berubah cukup kecil algoritma berhenti. Fungsi kriteria yang dimaksud dalam langkah [4] dapat diambil SSE persamaan (9). Bisecting K-Means Clustering Metode Bisecting K-means Steinbach et.al. (2000) mencoba menggabungkan penden partitional dengan divisive hierarchical, yaitu mula-mula seluruh dokumen dibagi dua dengan cara K-means (bisectingstep). Selanjutnya cara itu dikenakan pada suatu kluster yang dipilih dengan cara tertentu sampai diperoleh K buah kluster. Berikut ini algoritmanya : [1]. Ambil satu kluster untuk displit dengan K- means (bisecting step) [2]. Ulangi langkah [1] sebanyak ITER kali, dan ambil hasil terbaik yang memiliki overal similarity terbesar. 14

8 [3]. Ulangi langkah [1] dan [2] sampai didapatkan K buah kluster. Overall similarity pada langkah [2] ditentukan sebagai rata-rata similaritas setiap titik terhadap pusat klusternya masing-masing. Sedangkan pemilihan kluster pada langkah satu pada setiap iterasinya dapat digunakan cara memilih kluster dengan ukuran cacah objek terbesar atau memilih kluster yang memiliki variance terbesar. Buckshot Clustering Algoritma Buckshot menggunakan penden hierarchie agglomerative untuk mendapatkan k buah vektor sebagai pusat kluster awal (Cutting et.al.,1992). Langkah Buckshot mula-mula mengambil sampel acak sebesar kn buah dokumen, yang dikluster dengan cluster subroutine, yaitu prosedur hierarchie agglomerative untuk mendapatkan k buah kluster. Selanjutnya dengan partisi awal yang didapat dari Buckshot proses refinement dilakukan sebagaimana dalam K-means clustering. Validitas Clustering (Cluster validity) Untuk mengevaluasi hasil dari suatu algoritma clustering diusulkan konsep yang disebut dengan validitas clustering (cluster validity). Validitas yang dapat digunakan antar lain Confusion Matrix yaitu matriks yang disusun berdasarkan berapa banyak objek yang diklasifikasikan dengan benar oleh proses clustering (Halkidi et.al.,2001) Dua pengukuran kualitas clustering yang dapat diturunkan dari confusion matrix yang umum digunakan untuk document clustering adalah F-measure (persamaan (10) dan entropy (E-measure) (persamaan 11) : F-measure = E-measure = 1-2PR P R 2PR P R Eksperimen yang dilakukan (10) (11) Bahan eksperimen berupa test-collection dokumen teks yang diambil dari koleksi (Asian, 2004) dikemas menjadi 6 koleksi yang masingmasing telah dikluster secara manual. Statistik koleksi tes tersaji dalam Tabel Tabel 1. Koleksi Dokumen Untuk Pengujian algoritma clustering Colec Name doc clus Clust Size uniqw ord avg word/ doc K Sama K Sama K Beda K Beda K Beda K Beda K Beda K Beda Setiap koleksi terdiri dari sejumlah dokumen dengan format tiap dokumen seperti gambar 1. <DOC> <DOCNO>news035-html</DOCNO> eriksson akan ijinkan tim piala dunia inggris mencicipi bir london media tim piala dunia inggris akan diijinkan untuk sekali-sekali mencicipi bir maupun anggur dalam final di korea selatan dan jepang tahun ini satu gelas minuman tak akan membuat seseorang menjadi pemain yang lebih baik atau buruk pelatih sven goran eriksson di london </DOC> Gambar 1. Format koleksi dokumen untuk Tes Alat penelitian berupa seperangkat komputer dengan perangkat keras Processor Intel Pentium IV 2.8 GHz, RAM 1 GB, dan Hard Disk 80 GB dan perangkat lunak MS- WINDOWS, MATLAB for WINDOW, J2SDK dan SPSS for WINDOWS Tahapan eksperimen dimulai dengan preprocessing dokumen dengan ekstrak dengan menggunakan treshold minimal disesuaikan dengan koleksi, yaitu 3 untuk K100, K200, K300 dan K400, dan berturut-turut 4,5,6 dan 7 untuk koleksi K500, K600, K700 dan K800. Perlakukan stemming terhadap feature dilakukan untuk meningkatkan kinerja clusterin g dan menurunkan jumlah feature terindeks. Proses stemming dilakukan dengan algoritma Tala (2004). Penyusunan matrik dokumen dengan pembobotan ternormalisasi seperti rumus pada persamaan (5). Program dirancang dengan coding bahasa Java. Selanjutnya metode-metode clustering yang akan diujikan, yaitu : UPGMA, CST, IS, SL dan CL dan metode partitional (K-means,

9 bisecting k-means, Buckshot) dibuat kodingnya menggunakan script MATLAB. Hasil evaluasi kinerja clustering yang diwakili oleh ukuran F-measure untuk setiap algoritmanya kemudian dianalisis. Perbandingan kinerja juga dilakukan dengan melihat kompleksitas waktu clustering. Pengujian statistik dikakukan dengan one way anova test untuk pengamatan berpasangan dengan paket statistik SPSS. PEMBAHASAN Penyunan matrik -dokumen Penyusunan matrik- dokumen dengan melakukan ekstrak dengan batas minimal disesuaikan dengan besar koleksi dan stop-word filtering dengan menggunakan stoplist dari Tala(2004) yang berupa 764 daftar. Hasil statistik tersaji dalam Tabel 2. Sesuai dengan teori frekuensi dari Luhn(1958) bahwa distribusi dalam koleksi akan didominasi dengan frekuensi rendah, Tabel 2 memperlihatkan bahwa hampir pada seluruh koleksi 75% lebih dalam koleksi adalah memiliki frekuensi kemunculan maksimal 5 kali. Penyusunan matrik dokumen selanjutnya berdasarkan yang telah dibatasi frekuensinya, yaitu sebanyak seperti pada kolom terakhir Tabel 2 Kinerja algoritma hierarchical Untuk melihat kinerja algoritma hierarchical dalam clustering disajikan hasil rangkuman nilai F-measure dari clustering dengan lagoritma tersebut untuk seluruh koleksi yang ada ( Tabel 3 ). Terlihat dari rata-rata nilai F-measure bahwa dua metode yang terbaik adalah metode UPGMA dan CL. Untuk koleksi K100 dan K200 yang terbaik adalah CL, sedangkan untuk koleksi K300 sampai K800 adalah metode UPGMA. Grafik rata-rata kinerja clustering disajikan dalam Gambar 2. Secara keseluruhan kinerja algoritma akan menurun dengan semakin banyaknya dokumen yang dikluster. Metode hierarchi akan sangat peka terhadap pertambahan dokumen karena kompleksitas waktu komputasinya kuadratis terhadap jumlah dokumen. Dari lima metode komputasi similaritas metode Single Link menunjukkan kinerja yang paling buruk meskipun waktu komputasi ralatif sama dengan algoritma yang lain. Tabel 2. Statistik ekstraksi feature berdasar minimum frekuensi kemunculan Koleksi f=1 f=2 f=3 f=4 f=5 f>5 f <=5 % f<=5 min f f>min K % K % K % K % K % K % K % K %

10 F-measure Waktu (detik) JURNAL TEKNOLOGI ACADEMIA ISTA ISSN: Tabel 3. Nilai F-measure algoritma hierarchical untuk seluruh koleksi dan rata-ratanya Metode K100 K200 K300 K400 K500 K600 K700 K800 rerata UPGMA 0,9600 0,9236 0,9278 0,8543 0,8083 0,6167 0,6695 0,6261 0,7983 CST 0,6843 0,5004 0,2558 0,3040 0,1747 0,2194 0,2171 0,1870 0,3178 IST 0,9252 0,7193 0,7494 0,5846 0,8029 0,8130 0,6456 0,4256 0,6857 SL 0,5596 0,2792 0,1870 0,1847 0,1649 0,2181 0,2115 0,1870 0,2490 CL 0,9694 0,9453 0,8553 0,7842 0,5215 0,6021 0,6523 0,5320 0,7577 Catatan : cetak tebal = nilai terbesar Tabel 4. Nilai Rata-rata F-measure algoritma partitional untuk seluruh koleksi dan rata-ratanya Metode K10 0 K200 K300 K400 K500 K600 K700 K800 a rerat K-Mean 0,7095 0,7342 0,6890 0,6197 0,4196 0,5558 0,4523 0,5269 0,5884 BSC-KM 0,8761 0,8967 0,8711 0,8739 0,7869 0,6498 0,6012 0,6200 0,7720 Buckshot 0,8612 0,7427 0,7061 0,6546 0,5447 0,5625 0,4952 0,4135 0,6178 Catatan : cetak tebal = nilai terbesar 1,00 0,80 0,60 0,40 0,20 0,00 UPGMA CST IST SL CL 1200,0 1000,0 800,0 600,0 400,0 200,0 0,0 UPGM A CST IST SL CL Metode Jumlah Dokumen Gambar 2. F-measure rata-rata hierarchical Gambar 3. Waktu komputasi metode hierarchical Perbandingan waktu komputasi dari ke lima metode hierarchi dapat disajikan dalam tabel berikut. Terlihat dari gamabr /tabel bahwa mulai koleksi K500 terjadi lonjakan waktu komputasi hampir pada semua metode kecuali metode CST. Metode CST mengalami lonjakan waktu yang relatif kecil dibandingkan 4 metode yang lain. Hal ini berkaitan dengan metode perhitungan jarak antar cluster pada CST, dimana kesamaan dua kluster dihitung sebagai kesamaan antar pusat klusternya. Pada metode ini tidak diperlukan perhitungan similaritas antar pasangan data dari dua kluster sebagaimana 4 metode yang lain. Kinerja algoritma Partitional Karena algoritma partitional tidak menghasilkan hasil clustering yang bersifat pasti maka nilai F-measure sebagai ukuran kinerja diperoleh dari nilai rata-rata 5 kali eksekusi ( 5 run ) program. Hasil rangkuman kinerja clustering metode partitional disajikan seperti Tabel 4. Secara konsisten terlihat bahwa algoritma partitional yang memiliki kinerja terbaik adalah Bisecting K-Mean. Sedangkan urutan kedua adalah Buckshot dan yang paling buruk adalak K-Mean murni (Gambar 4). Disini terlihat bahwa algoritma K-Mean tanpa 17

11 Waktu clustering (detik) F-measure F-measure JURNAL TEKNOLOGI ACADEMIA ISTA ISSN: modifikasi menghasilkan clusteirng yang sangat buruk meskipun waktu komputasinya paling cepat. Sesuai dengan karakteristik algortima partitonal yang bersifat linear terhadap jumlah dokumen algoritma ini tidak bermasalah besar dengan berjumlahnya dokumen yang dikluster. Gambar 5 menunjukkan grafik yang landai untuk koleksi dari 100 sampai 800 jika dibandingkan dengan grafik waktu komputasi pada hierarchical pada gambar 3. 1,0000 0,8000 0,6000 0,4000 0, K-Mean1 Bisct-KM Bucksht Metode Gambar 4. Kinerja rata-rata metode partitional 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 - Cacah dokumen K-Mean Bisect- KM Bucksh ot Gambar 5. Waktu clustering partitional Perbandingan kinerja algoritma hierarchical dan partitional. Untuk penggunaan 100% term Jika kinerja clustering hiararchical dan patitional dibandingkan kinerjanya melalui F-measure, terlihat bahwa kinerja partitional Bisect K-Mean masih lebih baik dari kinerja algoritma hierarchical metode CST danm Single Link (SL) dan sedikit dibawah metode UPGMA dan CL yang merupakan metode terbaik dari hierarchical (Gambar 6). Penggunaan 100% term memiliki kinerja yang cenderung kurang baik karena tingginya dimensi umumnya mempengaruhi kualitas perhitungan karena efek curse of dimensionality, yaitu nilai jarak 2 objek dalam dimensi tinggi cenderung bernilai sama (Hinneburg,1999). 1,00 0,80 0,60 0,40 0,20 0,00 UPGMA CST IST SL CL Metode KM BKM BSH Gambar 6. Perbandingan Kinerja clustering Penggunaan feature yang lebih rendah pada jumlah yang tepat dapat memperbaiki kinerja. Sebagai contoh untuk koleksi K400 yang terdiri dari 400 dokumen telah dipilih feature dengan menggunakan metode analisis variance frekeunsi kemunculan seperti rumus (8) kemudian dipilih 20%,15%,10% dan 5% dengan variansi terbesar. Hasil clustering dapat disajikan seperti dalam Tabel 5 berikut. Tabel 5. Efek seleksi feature pada F-measure Persentase penggunaan feature Metode 100% 20% 15% 10% 5% UPGMA 0,854 0,804 0,822 0,810 0,800 CST 0,304 0,375 0,401 0,597 0,583 IST 0,585 0,642 0,865 0,716 0,768 SL 0,185 0,238 0,204 0,238 0,235 CL 0,784 0,891 0,878 0,905 0,845 K-MEA 0,620 0,695 0,746 0,660 0,622 BSC-K 0,874 0,870 0,880 0,856 0,838 BSHOT 0,655 0,758 0,803 0,751 0,654 rerata 0,608 0,659 0,692 0,691 0,668 Catatan: printbold = terbesar tiap metode/rerata Pengujian statistik dengan one-way anova dengan persentase feature sebagai treatment dan metode sebagai ulangan menunjukkan bahwa rerata perbedaan setiap persentase feature tidak berbeda signifikan (lihat analisis SPSS Tabel 6). Hal ini menunjukkan bahwa dengan melakukan seleksi feature kinerja clustering tidak menjadi turun, bahkan cenderung naik meskipun kenaikan tidak signifikan. Dari Tabel 5 tyerlihat rerata F- measure tertinggi adalah pada penggunaan 15%, yaitu sedikit diatas penggunaan 10%. Pada koleksi-koleksi yang lain, jika seleksi feature dilakukan hasilnya kurang lebih sama dengan hasil pada koleksi K400, misalnya pada 18

12 F-measure JURNAL TEKNOLOGI ACADEMIA ISTA ISSN: koleksi K300 (Tabel 7) dan koleksi K500(Tabel pada prosentase 5%-10%. 8), kinerja clustering terbaik justru kebanyakan Tabel 6. Anova untuk efek seleksi feature terhadap F-measure pada koleksi 400 dok Sum of Squares df Mean Square F Sig. Between Groups,042 4,011,201,936 Within Groups 1,848 35,053 Total 1, ,000 0,800 0,600 0,400 0,200 - UPGMA CST IST SL CL K-MEA BSC-K BSHOT 100% 20% 15% 10% 5% Metode Gambar 7. Efek seleksi feature pada kinerja clustering untuk seluruh metode Tabel 7. Efek seleksi Feature pada F-measure Untuk koleksi 300 dokumen Persentase penggunaan feature Metode 100% 20% 15% 10% 5% UPGMA 0,028 0,780 0,783 0,777 0,841 CST 0,056 0,527 0,597 0,682 0,674 IST 0,049 0,758 0,877 0,848 0,890 SL 0,087 0,254 0,186 0,185 0,187 CL 0,055 0,834 0,842 0,903 0,778 K-MEA 0,089 0,774 0,634 0,538 0,773 BSC-K 0,071 0,956 0,877 0,977 0,908 BSHOT 0,006 0,889 0,700 0,753 0,761 rerata 0,055 0,722 0,687 0,708 0,726 Catatan: printbold = terbesar tiap metode/rerata Tabel 8. Efek seleksi Feature pada F-measure Untuk koleksi 500 dokumen Persentase penggunaan feature Metode 100% 20% 15% 10% 5% UPGMA 0,808 0,804 0,803 0,801 0,820 CST 0,175 0,662 0,662 0,789 0,733 IST 0,803 0,933 0,920 0,953 0,950 SL 0,165 0,211 0,282 0,421 0,169 CL 0,522 0,831 0,890 0,826 0,833 K-MEA 0,420 0,458 0,782 0,520 0,575 BSC-K 0,787 0,773 0,802 0,851 0,822 BSHOT 0,545 0,464 0,548 0,676 0,602 rerata 0,528 0,642 0,711 0,730 0,688 Catatan: printbold = terbesar tiap metode/rerata Dari gambar 7 juga terlihat bahwa feature yang tidak 100% justru memperlihatkan kinerja clustering yang lebih baik dari feature 100%, misalnya pada metode CST, CL dan Buckshot. Pada gambar tersebut juga terlihat kinerja Bisecting K-Mean sebanding dengan kinerja UPGMA dan CL. KESIMPULAN Beberapa kesimpulan yang dapat ditarik dari penelitian ini adalah : Kinerja algoritma clustering hierarchical yang terbaik adalah metode UPGMA dan Complet Link. Kinerja algoritma partitional yang terbaik adalah metode Bisecting K-Means Metode bisecting K-Means jika dibandingkan dengan kinerja dua metode terbaik dari algoritma hierchical menunjukkan hasil yang tidak kalah, terutama jika menggunakan seleksi feature terlebih dahulu, akan tetapi memiliki kelebihan berupa kompleksitas waktu dan memori yang jauh lebih kecil. 19

13 Waktu clustering algoritma hierarchicel seluruh metode jauh lebih besar dengan algoritma partitional. Perbedaan waktu ini semakin mencolok jika jumlah koleksi dokumen semakin besar. Algoritma partitioanal Bisecting K-Mean memiliki kelebihan jika dokumen dalam koleksi cenderung membesar. Seleksi akan memperbaiki kinerja clustering dan rata-rata pada 10 sampai 15% memberikan hasil yang lebih baik dari pada menggunakan 100%. DAFTAR PUSTAKA Asian, J., H. E. Williams, and S. M. M. Tahaghoghi, 2004, Tesbed for Indonesian Text Retrieval, 9th Australian Document Computing Symposiom, Melbourne December, 13. Asian, J., H. E. Williams, and S. M. M. Tahaghoghi, 2005, Stemming Indonesian, 28th Australian Computer Science Conference (ACS2005). Bifet, A., C. Castillo, P. A. Chirita and I. Weber, 2005, An Analysis of Factors Used in Search Engine Ranking. airweb.cse.lehigh.edu/2005/bifet.pdf Chisholm, E. and T. G. Kolda, 1999, New Term Weighting Formula for the Vector Space Method in Information Retrieval, Research Report, Computer Science and Mathematics Division, Oak Ridge National Library, Oak Ridge, TN , March Cutting, D. R., D. R. Karger, J. O. Pederson, and J. W. Tukey,1992, Scatter/Gather:A Cluster-based Approach to Browsing Large Document Collection, Procedding 15 th Annual Int 7ACM SIGIR Conference on R&D in IR, June Dhillon, I., J. Kogan, and C. Nicholas, 2002, Feature Selection and Document Clustering, m/koghan.pdf Halkidi, M., Y. Batistakis, and M. Vazirgiannis, 2001, On Clustering Validation Techniques, Journal of Intelligent Information System17:2/3, Hamzah, A,2006, Pengaruh Stemming Kata Dalam Peningn Unjuk Kerja Document Clustering Untuk Dokumen Berbahasa Indonesia, Proseding Seminar Nasional Riset Teknologi Informasi, AKAKOM, yogyakarta. Hinneburg, A. and D.K. Keim, 1999, Optimal Grid-Clustering: Towards Breaking the Curse of Dimensionality in High- Dimensional Clustering, Proceeding of 25 th VLDB Conference, Edinburg, Scotland. Jain, A.K. and R. C. Dubes, 1988, Algorithms for Clustering Data, Prentice-Hall Luhn, H.P.,1958, The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 2: Nazief, B., 2000, Development of Computational Linguistic Research: a Challenge for Indonesia, Computer Science Center, University of Indonesia Porter, M., 1980, An Algorithm for Suffix Stripping, Program 13(3), Rijsbergen, C. J.,1979, Information Retrieval, Information Retrieval Group, University of Glasgow, UK Steinbach, M., G. Karypis, and V. Kumar, 2000, A Comparison of Document Clustering Techniques, KDD Workshop on Text Mining, arison.html Strehl, A., J. Ghosh, and R. Mooney, 2000, Impact of Similarity Measures on Web- Page Clustering, Proceeding of the Workshop of Artificial Intelligent for Web Search, 17 th National Conference on Artificial Intelligence, July Tala, F. Z., 2004, A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia, Master Thesis, Universiteit van Amsterdam, The Netherlands Zamir, O.E., 1999, Clustering Web Document : A Phrase-Based Method for Grouping Search Engine Result, PhD. Dissertation, University of Washington. 20

CLUSTERING UNTUK PENINGKATAN EFEKTIVITAS PENYAJIAN INFORMASI DARI MESIN PENCARI TEKS

CLUSTERING UNTUK PENINGKATAN EFEKTIVITAS PENYAJIAN INFORMASI DARI MESIN PENCARI TEKS CLUSTERING UNTUK PENINGKATAN EFEKTIVITAS PENYAJIAN INFORMASI DARI MESIN PENCARI TEKS Amir Hamzah 1, Adhi Susanto 2, F. Soesianto 2, Jazi Eko Istiyanto 3 1 Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI DAN BISNIS

JURNAL TEKNOLOGI INFORMASI DAN BISNIS Volume 7. No 3 Novemb r 2006 tssn 1411.4453 SKNo 23a / DIKT /XBp/2004 JURNAL TEKNOLOGI INFORMASI DAN BISNIS Seleksi f?,ure Xala Berdasarli+n!?.ia!si l{cmrn.olan Kala Dalam P6ningkatan Unj!k l

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

1. Pendahuluan. 1.1 Latar belakang

1. Pendahuluan. 1.1 Latar belakang 1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen

Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen Dyah Herawatie Prodi Sistem Informasi Fakultas Sains dan Teknologi Universitas Airlangga Surabaya, Indonesia dy4h_h3r4@yahoo.com

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #9 Text Clustering (Ch.16 & 17) Clustering Pengelompokan, penggerombolan Proses pengelompokan sekumpulan obyek ke dalam kelas-kelas obyek yang memiliki sifat sama.

Lebih terperinci

PRESENTASI TUGAS AKHIR KI091391

PRESENTASI TUGAS AKHIR KI091391 PRESENTASI TUGAS AKHIR KI091391 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering)

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM Achmad Maududie 1), Wahyu Catur Wibowo 2) 1) Program Studi Sistem Informasi, Universitas Jember 2) Fakultas Ilmu Komputer,

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB III Landasan Teori

BAB III Landasan Teori BAB III Landasan Teori 3.1 Sistem Rekomendasi Sistem rekomendasi merupakan suatu aplikasi untuk menyediakan dan merekomendasikan suatu item dalam membuat suatu keputusan yang diinginkan oleh pengguna (Ungkawa,

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING

TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

K-Means Clustering. Tim Asprak Metkuan. What is Clustering?

K-Means Clustering. Tim Asprak Metkuan. What is Clustering? K-Means Clustering Tim Asprak Metkuan What is Clustering? Also called unsupervised learning, sometimes called classification by statisticians and sorting by psychologists and segmentation by people in

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;

Lebih terperinci

Clustering. Virginia Postrel

Clustering. Virginia Postrel 8 Clustering Most of us cluster somewhere in the middle of most statistical distributions. But there are lots of bell curves, and pretty much everyone is on a tail of at least one of them. We may collect

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi

Lebih terperinci

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity Adi Wiboo, Andreas Handoo, Minardi Taliang adi@petra.ac.id, handoo@petra.ac.id,

Lebih terperinci

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM Achmad Maududie 1 Wahyu Catur Wibowo 2 1 Program Studi Sistem Informasi, Universitas Jember 2 Fakultas Ilmu Komputer, Universitas Indonesia,

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

METODE WEIGHTED MAXIMUM CAPTURING UNTUK KLASTERISASI DOKUMEN BERBASIS FREQUENT ITEMSETS

METODE WEIGHTED MAXIMUM CAPTURING UNTUK KLASTERISASI DOKUMEN BERBASIS FREQUENT ITEMSETS Vol. 6, No. 2, September 2013 ISSN 1979-5661 METODE WEIGHTED MAXIMUM CAPTURING UNTUK KLASTERISASI DOKUMEN BERBASIS FREQUENT ITEMSETS Gede Aditra Pradnyana 1, Arif Djunaidy 2 1 Jurusan Teknik Informatika,

Lebih terperinci

KLASTERING BERITA ONLINE TENTANG BENCANA DENGAN ALGORITMA SINGLE PASS CLUSTERING Herny Februariyanti, Eri Zuliarso, Mardi Siswo Utomo

KLASTERING BERITA ONLINE TENTANG BENCANA DENGAN ALGORITMA SINGLE PASS CLUSTERING Herny Februariyanti, Eri Zuliarso, Mardi Siswo Utomo KLASTERING BERITA ONLINE TENTANG BENCANA DENGAN ALGORITMA SINGLE PASS CLUSTERING Herny Februariyanti, Eri Zuliarso, Mardi Siswo Utomo Abstract Too many type of natural disaster that came and went over

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning CLUSTERING DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk yang paling umum digunakan adalah unsupervised learning # Unsupervised learning

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Traveling Salesmen Problem (TSP) Travelling Salesman Problem (TSP) merupakan sebuah permasalahan optimasi yang dapat diterapkan pada berbagai kegiatan seperti routing. Masalah

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Perpustakaan Digital Menurut Putu Laxman Pendit dalam bukunya Perpustakaan Digital dari a- z, fenomena perpustakaan digital memperlihatkan perluasan upaya manusia di bidang informasi

Lebih terperinci

BAB 4 IMPLEMENTASI DAN EVALUASI

BAB 4 IMPLEMENTASI DAN EVALUASI BAB 4 IMPLEMENTASI AN EVALUASI Pada bab ini, disajikan spesifikasi sistem yang digunakan, pengujian program serta hasil pengujian. Pengujian dilakukan dengan melakukan pencarian kata kunci terhadap sejumlah

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Clustering Analysis Clustering analysis merupakan metode pengelompokkan setiap objek ke dalam satu atau lebih dari satu kelompok,sehingga tiap objek yang berada dalam satu kelompok

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

ANALISIS DAN IMPLEMENTASI CLUSTER-SMOOTHED PADA COLLABORATIVE FILTERING ANALYSIS AND IMPLEMENTATION OF CLUSTER-SMOOTHED FOR

ANALISIS DAN IMPLEMENTASI CLUSTER-SMOOTHED PADA COLLABORATIVE FILTERING ANALYSIS AND IMPLEMENTATION OF CLUSTER-SMOOTHED FOR ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6490 ANALISIS DAN IMPLEMENTASI CLUSTER-SMOOTHED PADA COLLABORATIVE FILTERING ANALYSIS AND IMPLEMENTATION OF CLUSTER-SMOOTHED

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Implementasi automatic clustering menggunakan particle swarm optimization dan genetic algorithm pada data kemahasiswaan

Implementasi automatic clustering menggunakan particle swarm optimization dan genetic algorithm pada data kemahasiswaan Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Implementasi automatic clustering menggunakan particle swarm optimization dan genetic algorithm pada data kemahasiswaan

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP) FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP) Ratna Pertiwi¹, Deni Saepudin², Intan Nurma Yulita³ ¹Teknik Informatika,, Universitas Telkom Abstrak Berkembangnya

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga

Lebih terperinci

ALGORITMA SINGLE PASS CLUSTERING UNTUK KLASTERING HALAMAN WEB

ALGORITMA SINGLE PASS CLUSTERING UNTUK KLASTERING HALAMAN WEB ALGORITMA SINGLE PASS CLUSTERING UNTUK KLASTERING HALAMAN WEB Herny Februariyanti ), Eri Zuliarso 2) ) Sistem Informasi, Unisbank Semarang 2) Teknik Informatika, Unisbank Semarang herny@unisbank.ac.id,

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING

MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING ANALISA CLUSTERING MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING (STUDI KASUS : DOKUMEN SKRIPSI JURUSAN KIMIA, FMIPA, UNIVERSITAS SEBELAS MARET) Lynda Rahmawati Jurusan Informatika Universitas

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci