2. TINJAUAN PUSTAKA. teori, model dan teknik yang terkait dengan representasi, penyimpanan,

Ukuran: px
Mulai penontonan dengan halaman:

Download "2. TINJAUAN PUSTAKA. teori, model dan teknik yang terkait dengan representasi, penyimpanan,"

Transkripsi

1 . TINJAUAN PUSTAKA A. Temu Kembali Informasi Temu kembali informasi merupakan disiplin ilmu yang mempelajari teori, model dan teknik yang terkait dengan representasi, penyimpanan, organisasi dan pengambilan informasi sehingga dapat bermanfaat bagi manusia (Taylor, 1999). Sejak tahun 1940-an, masalah pada penyimpanan dan temu-kembali informasi mendapat banyak perhatian. Permasalahannya sederhana, limpahan informasi menyebabkan kecepatan dan akurasi akses menjadi lebih sulit. Hal ini menyebabkan relevansi informasi menjadi kurang terungkap dan akibatnya banyak duplikasi pekerjaan. Dengan adanya komputer, muncullah pemikiranpemikiran untuk membuat sistem pengambilan informasi yang cerdas dan cepat dengan memanfaatkan kemampuan komputer (Rijsbergen, 1979). Proses penyimpanan dan pengambilan informasi pada prinsipnya sederhana. Misalkan ada koleksi dokumen dan pengguna koleksi yang memformulasikan pertanyaan (permintaan atau query) dengan jawaban berupa satu set dokumen yang memenuhi kebutuhan informasi. Pencari informasi dapat memperoleh jawaban dengan membaca seluruh koleksi dokumen satuper-satu, menyimpan informasi yang relevan dan mengabaikan yang lainnya. Secara naluri, hal tersebut merupakan proses pengambilan informasi yang sempurna, akan tetapi tidak praktis. Pencari informasi tentu tidak punya cukup waktu atau tidak ingin menghabiskan waktu dengan membaca seluruh koleksi dokumen dan secara fisik hal tersebut tidak mungkin dilakukan. 6

2 Ketika komputer berkecepatan tinggi tersedia untuk pekerjaan nonnumerik, banyak yang meramalkan bahwa komputer akan mampu menyamai kemampuan manusia dalam membaca seluruh koleksi dokumen dan mengekstrak dokumen yang relevan. Seiring dengan waktu, lambat laun terlihat bahwa proses pembacaan dan ekstraksi dokumen tidak hanya melibatkan proses penyimpanan dan pencarian, tetapi juga proses karakterisasi isi dokumen yang jauh lebih rumit. Proses karakterisasi dokumen secara otomatis oleh perangkat lunak yang coba didekati dengan meniru cara manusia membaca masih sulit sulit dilakukan. Membaca melibatkan proses ekstraksi informasi (secara sintaks dan semantik) dari teks dan menggunakannya untuk menentukan apakah dokumen relevan atau tidak dengan permintaan. Kesulitan bukan hanya pada ekstraksi dokumen, tetapi juga pada proses penentuan relevansi dokumen. Tujuan dari strategi temu-kembali informasi otomatis adalah menemukan semua dokumen yang relevan dan pada saat yang bersamaan mengurangi jumlah dokumen terambil yang tidak-relevan semaksimal mungkin. Bagi manusia, membuat keterkaitan dokumen dengan query dapat dengan mudah dilakukan. Tetapi kalau mau dilakukan oleh komputer, kita harus membangun model matematika yang dapat menghitung relevansi dokumen dan banyak riset pada temu kembali informasi berkonsentrasi pada aspek ini. Sistem temu-kembali informasi memiliki dua fungsi utama : menilai tingkat relevansi dokumen-dokumen dengan query pengguna dan 7

3 menampilkan dokumen yang dinilai memuaskan. Untuk mendapatkan hasil yang baik, query harus tepat menangkap keinginan pengguna (Horng et. al., 005). Untuk mencapai hal tersebut, beberapa alternatif pendekatan dalam melakukan organisasi dokumen telah dikembangkan beberapa tahun belakangan ini. Kebanyakan pendekatan dilakukan berdasarkan visualisasi dan presentasi dari keterkaitan antar dokumen, istilah (term) dan query pengguna. Salah satu pendekatan adalah document clustering (Leuski, 001). B. Dokumen Berbahasa Indonesia Bahasa Indonesia secara historis merupakan varian bahasa melayu yang kini juga digunakan di wilayah yang luas meliputi Indonesia, Singapura, Brunei Darussalam, Malaysia, bagian selatan Thailand, bagian selatan Filipina, dan beberapa tempat di Afrika Selatan. Bahasa melayu diangkat menjadi bahasa persatuan di Indonesia pada 8 Oktober 198 dalam peristiwa yang disebut Sumpah Pemuda. Sejak saat itu, bahasa melayu yang digunakan di wilayah Indonesia sekarang mulai dinamai Bahasa Indonesia. Namun, secara resmi penyebutan bahasa Indonesia sebagai bahasa resmi di Indonesia baru muncul pada 18 Agustus 1945 ketika konstitusi Indonesia diresmikan. Saat ini bahasa Indonesia mengalami perkembangan yang sangat luas. secara sosial, jumlah penutur bahasa Indonesia saat ini telah mencapai juta jiwa. Secara fungsional bahasa Indonesia telah digunakan di lingkungan baik secara lisan maupun tulisan di masyarakat luas, secara formal dan informal di institusi pemerintahan dan swasta. Dokumen berbahasa Indonesia digunakan secara luas dibidang pemerintahan, perekonomian, hukum, pendidikan, iptek, seni budaya dan lain-lain (Arifin & Tasai, 004). Oleh 8

4 karena itu, dokumen berbahasa Indonesia sangat banyak jumlahnya. Untuk menemukan dokumen dalam bahasa Indonesia, mesin pencari memegang peranan sangat penting. Penelitian dalam sistem temu kembali informasi banyak dilakukan pada dokumen bahasa Inggris. Walaupun sama-sama menggunakan huruf latin, bahasa Indonesia memiliki tata bahasa yang berbeda dengan bahasa Inggris. Sehingga perlu dilakukan penelitian yang lebih mengkhususkan pada bahasa Indoenesia. Penelitian sistem temu kembali informasi dalam bahasa Indonesia sudah banyak dilakukan, antara lain : Arifin (00) Jika pada riset IR banyak yang fokus pada algoritma untuk mengklasifikasikan dokumen, Arifin melakukan penelitian pada upaya penghematan memori dan waktu dalam proses pembobotan dokumen. Dalam hal ini, Arifin menerapkan algoritma Digital Tree Hibrida pada algoritma pembobotan Tf-Idf yang ternyata berhasil mengurangi waktu pembobotan. Arifin & Setiono (00) Arifin & Setiono membahas penggunaan algoritma Single Pass Clustering dalam bahasa Indonesia. Berdasarkan hasil perocobaan, algoritma Single-Pass ternyata cukup handal untuk mengelompokkan berita kejadian (event) dalam bahasa Indonesia. Penelitian sudah menggunakan algoritma Porter untuk steming, hanya tidak dilakukan perbandingan dengan algoritma lainnya. Tala (003) Merupakan sebuah tesis membahas efektifitas penggunaan algoritma stemming Porter dalam bahasa Indonesia beserta efeknya, terutama dalam 9

5 temu kembali informasi. Hasil penelitian menemukan adanya beberapa masalah dalam penerapan algoritma Porter dalam bahasa Indonesia yang ditimbulkan karena ambiguitas beberapa kata dalam bahasa Indonesia. Selain itu, ditemukan bukti bahwa stemming tidak meningkatkan kinerja (precision & recall) temu kembali informasi. Tala juga membuat daftar kata buangan (stop list) yang disusun berdasarkan hasil analisa frekuensi kemunculan kata dalam bahasa Indonesia. Fahmi (004) Penelitian yang dilakukan Fahmi bertujuan untuk mengetahui apakah Machine Learning cocok digunakan pada dokumen berbahasa Indonesia. Fahmi membandingkan 3 algoritma Pembelajaran Mesin (Machine Learning) untuk mengklasifikasikan dokumen. Adapun algoritma yang dibandingkan adalah ID3, Instance Based Learning dan Naïve Bayes. Hasil penelitian menunjukkan algoritma Instance Based memiliki kinerja yang paling baik. C. Clustering Clustering adalah proses pengelompokan data ke dalam cluster berdasarkan parameter tertentu sehingga obyek-obyek dalam sebuah cluster memiliki tingkat kemiripan yang tinggi satu sama lain dan sangat tidak mirip dengan obyek lain pada cluster yang berbeda (Kantardzic, 001). Berbeda dengan klasifikasi, clustering tidak memerlukan kelas yang telah didefinisikan sebelumnya atau kelas hasil training, dengan demikian clustering dinyatakan sebagai bentuk pembelajaran berdasarkan observasi dan bukan berdasarkan contoh (Jiawei & Kamber, 001). 10

6 Tahapan Clustering Clustering secara umum memiliki tahapan sebagai berikut (Jain et. al, 1999) : 1. Representasi Pola. Pengukuran Kedekatan Pola (Pattern Proximity) 3. Clustering 4. Abstraksi Data (jika dibutuhkan) 5. Penilaian Output (jika dibutuhkan). Adapun penjelasan dari tahapan-tahapan di atas adalah sebagai berikut : 1. Representasi Pola Ada beberapa model yang dapat digunakan untuk merepresentasikan dokumen dan secara umum dibagi menjadi dua kelompok, yaitu model klasik dan model alternatif. Model klasik terdiri dari model Boolean, model Ruang Vektor dan model Probabilistik. Model alternatif yang merupakan pengembangan dari model klasik, terdiri atas : Model Himpunan Fuzzy, Extended Boolean, Model Ruang Vektor General dan Jaringan Bayes (Baeza-Yates & Ribeiro-Neto, 1999). Pada penelitian ini, digunakan dua model representasi, yaitu model Boolean untuk menemukan dokumen dan model Ruang Vektor untuk representasi dokumen. a. Model Boolean Model boolean merepresentasikan dokumen sebagai suatu himpunan kata-kunci (set of keywords). Sedangkan query direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi 11

7 boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari model boolean adalah himpunan dokumen yang relevan. Kekurangan dari model boolean ini antara lain : 1. Hasil pencarian dokumen berupa himpunan, sehingga tidak dapat dikenali dokumen-dokumen yang paling relevan atau agak relevan (partial match).. Query dalam ekspresi boolean dapat menyulitkan pengguna yang tidak mengerti tentang ekpresi boolean. Walaupun demikian, karena sifatnya yang sederhana, hingga saat ini model Boolean masih dipergunakan oleh sistem temu kembali informasi modern, antara lain oleh (Dominich, 003). Kekurangan dari model boolean diperbaiki oleh model ruang vektor yang mampu menghasilkan dokumen-dokumen terurut berdasarkan kesesuaian dengan query. Selain itu, pada model ruang vektor query dapat berupa sekumpulan kata-kata dari penguna dalam ekspresi bebas. b. Model Ruang Vektor Pada Model Ruang Vektor, teks direpresentasikan oleh vektor dari term (kata atau frase). Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms index). Kata-kata ini akan membentuk ruang vektor yang memiliki 1

8 dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n. Sebagai contoh terdapat 3 buah kata (T1, T dan T3), buah dokumen (D1 dan D) serta sebuah query Q. Masing-masing bernilai : D1 = T1+3T+5T3 D = 3T1+7T+0T3 Q = 0T1+0T+T3 Maka representasi grafis dari ketiga vektor ini adalah : Gambar.1 Representasi dokumen dan query dalam ruang vektor Koleksi dokumen direpresentasi pula dalam ruang vektor sebagai matriks kata dokumen (terms-documents matrix). Nilai dari elemen matriks wij adalah bobot kata idalam dokumen j 13

9 Misalkan terdapat sekumpulan kata T sejumlah n, yaitu T = (T1, T,, Tn) dan sekumpulan dokumen D sejumlah m, yaitu D = (D1, D,, Dm) serta wi j adalah bobot kata i pada dokumen j (Gambar ). Gambar. Matriks Representasi Dokumen Untuk memberikan bobot numerik terhadap dokumen yang diquery, model mengukur vektor query dan vektor dokumen. Ada beberapa teknik untuk menghitung bobot. Yang paling banyak digunakan adalah Term Frekuensi (TF), Term Frekuensi Inverse Document Frequency (TFIDF) dan Salton. Pada Tf, bobot kata dinyatakan sebagai nilai log dari frekuensi kata pada dokumen. Tf d = log (1 + t d ), (1) Tf d = Nilai kata t pada dokumen d t d = frekuensi kata t pada dokumen d. Tf-Idf merupakan pengembangan dari formula Tf, dengan memasukkan unsur frekuensi dokumen. Frekuensi dokumen adalah jumlah dokumen yang memiliki term t minimal 1. Formula Tf-Idf adalah : 14

10 TfIdf N = Tf log () dft N = Jumlah seluruh dokumen dft = Jumlah dokumen yang memiliki kata t Dibandingkan Tf dan TfIdf, formula Salton merupakan formula yang memiliki unsur paling lengkap. Selain nilai frekuensi dan dokumen frekuensi kata, Salton juga memasukkan jumlah kata pada dokumen dan nilai frekuensi maksimum kata pada dokumen. Secara lengkap, formula Salton dinyatakan sebagai : w _ term _ doc( t, d ) = i k f ti N log Max f ki d ft k = 1,,..., L f ji Max = L log 1,,..., Max f ki k = 1,,..., L N d fj (3) f it = frekuensi kemunculan istilah t pada dokumen d i d ft = jumlah dokumen yang mengandung istilah t L = jumlah istilah yang terdapat pada dokumen d i N = jumlah dokumen Semakin besar nilai w_term_doc(t,d i ), semakin penting istilah t pada dokumen d i. Nilai w_term_doc(t,d i ) dinormalkan sehingga bernilai antara 0 dan 1. Setelah bobot istilah pada setiap dokumen dihitung, dokumen d i dapat direpresentasikan sebagai vektor dokumen : dimana w ij = w_term_doc(t j, d i ) d = w w,..., w i, i1 i is merupakan bobot istilah t j pada dokumen d i ( 0 w 1) dan s adalah jumlah istilah dari semua dokumen. Sehingga akhirnya kita ij 15

11 memiliki matriks U berukuran n x s dimana n adalah jumlah dokumen. Penentuan relevansi dokumen dengan query dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor query. Semakin sama suatu vektor dokumen dengan vektor query maka dokumen dapat dipandang semakin relevan dengan query. Salah satu pengukuran kesesuaian yang baik adalah dengan memperhatikan perbedaan arah (direction difference) dari kedua vektor tersebut. Perbedaan arah kedua vektor dalam geometri dapat dianggap sebagai sudut yang terbentuk oleh kedua vektor. Gambar 3 mengilustrasikan kesamaan antara dokumen D1dan D dengan query Q. Sudut θ 1 menggambarkan kesamaan dokumen D1 dengan query sedangkan sudut θ mengambarkan kesamaan dokumen D dengan query. Gambar.3 Representasi grafis sudut antara vektor dokumen dan query 16

12 Jika Q adalah vektor query dan D adalah vektor dokumen, yang merupakan dua buah vektor dalam ruang berdimensi-n, dan θ adalah sudut yang dibentuk oleh kedua vektor tersebut. Maka Q D = Q D cos θ Q D adalah hasil perkalian dalam (inner product) kedua vektor, n D = Di dan Q = i= 1 n Qi merupakan panjang vektor atau i= 1 jarak Euclidean suatu vektor dengan titik nol. Perhitungan kesamaan kedua vektor adalah sebagai berikut : Sim(Q,D) = cos(q,d) = n Q D 1 = Qi Di Q D D Q i= 1 Metode pengukuran kesesuaian ini memiliki beberapa keuntungan, yaitu adanya normalisasi terhadap panjang dokumen. Hal ini memperkecil pengaruh panjang dokumen. Jarak Euclidean (panjang) kedua vektor digunakan sebagai faktor normalisasi. Hal ini diperlukan karena dokumen yang panjang cenderung mendapatkan nilai yang besar dibandingkan dengan dokumen yang lebih pendek. Proses pemeringkatan dokumen dapat dianggap sebagai proses pengukuran vektor dokumen terhadap vektor query, ukuran kedekatan ditentukan oleh kosinus sudut yang dibentuk. Semakin besar nilai kosinus, maka dokumen dianggap semakin sesuai query. Nilai kosinus sama dengan 1 mengindikasikan dokumen sesuai dengan dengan query. 17

13 Model Ruang Vektor memiliki keunggulan antara lain : (1) skema pembobotan term dapat meningkatkan kinerja pengambilan () strategi partial matching memungkinkan penemuan dokumen yang mendekati query (3) formula kosinus dapat memberikan peringkat dokumen yang terambil berdasarkan kemiripan dengan query. Adapun kekurangan dari model ini adalah belum menangani term yang memiliki relasi dan proses perhitungan terhadap seluruh koleksi dokumen dapat memperlambat proses pencarian. c. Model Probabilistik Model probabilistik mencoba menangkap masalah IR melalui prinsip peluang. Jika ada query q dan sebuah dokumen dj pada koleksi, model probabilistik mencoba menduga peluang pengguna menemukan dokumen dj yang dicari. Model berasumsi bahwa peluang relevansi hanya ditentukan oleh query dan representasi dokumen. Selanjutnya, model berasumsi bahwa ada subset himpunan dokumen yang pengguna lebih pilih sebagai jawaban query q. Jawaban ideal ini diberi label R dan bernilai maksimum diantara keseluruhan peluang relevansi dokumen. Dokumen pada R diduga relevan dan yang selainnya disebut tidak relevan. Nilai kemiripan sebauh dokumen dj terhadap query q dinyatakan dalam : Sim(d j,q) t w xw _ P( ki R) 1 P( ki R) x log + log _ 1 P( ki R) P( ki R i, q i, j i = 1 ) 18

14 P( k i R) merupakan peluang term k i ada pada dokumen yang dipilih secara acak dari himpunan R. Karena pada awalnya kita tidak mengetahui himpunan R, maka dibutuhkan sebuah metode untuk menentukan nilai awal P( k i R) dan P( k i R). Pada saat permulaan _ sekali, diasumsikan nilai P( k i R) = 0.5 dan _ P( ki R) = ni N dengan ni = jumlah dokumen yang mengandung term ki dan N adalah total seluruh dokumen. Selanjutnya nilai peringkat dapat diperbaiki menjadi : Vi P( ki R) = dan V _ ni Vi P( ki R) = N V Formula terakhir untuk P( k i R) dan P( k i R) untuk nilai Vi dan V yang sangat kecil (misalkan V = 1 dan Vi = 0) adalah : _ ni Vi + P( k R) = N i dan V + 1 P( k i ni _ ni Vi + R) = N N V + 1 Model probabilistik memiliki keunggulan : dokumen dapat diberikan peringkat secara menurun berdasarkan peluang sebuah dokumen relevan terhadap query. Adapun kekurangannya adalah (1) perlu menduga pembagian awal dokumen terhadap himpunan yang relevan dan non-relevan. () tidak memperhitungkan frekuensi term pada dokumen (3) asumis bahwa term saling independen satu sama lain 19

15 d. Model Alternatif Ketiga model tersebut di atas merupakan model klasik yang sudah cukup lama dikembangkan. Selain model tersebut, juga terdapat model alternatif yang merupakan pengembangan dari model klasik, antara lain : Model Himpunan Fuzzy, Extended Boolean, Model Ruang Vektor General dan Jaringan Bayes (Baeza-Yates & Ribeiro-Neto, 1999).. Pengukuran Kedekatan Pola (Pattern proximity) Kedekatan pola diukur berdasarkan fungsi jarak antara dua ciri. Jarak digunakan untuk mengukur ke(tidak)miripan antara dua obyek data. Kemiripan merupakan salah satu landasan dari definisi cluster. Ada banyak cara untuk menghitung jarak, namun pada tesis ini hanya akan dibahas tiga jarak yang paling banyak digunakan. Dan diantara ketiga jarak tersebut, yang paling populer adalah jarak Euclid. a. Jarak Minkowski Didefinisikan sebagai : d q q q q ( i, j) = ( xi x j1 + xi x j xip x jp ) 1 (4) dengan d(i,j) = jarak Minkowski antara data ke-i dan data ke-j, x = obyek data, p = banyaknya atribut data, dan q adalah bilangan bulat positif, b. Jarak Manhattan Jarak Manhattan merupakan kasus khusus (q=1)dari Jarak Minkowski. 0

16 d ( i j) = xi x j + xi x j xip x jp, 1 1, (5) c. Jarak Euclid Sama seperti Jarak Manhattan, jarak Euclid merupakan kasus khusus dari jarak Minkowsi dengan q= d ( i, j) ( xi 1 x j1 + xi x j xip x jp ) =. (6) 3. Clustering Dilihat dari struktur data yang dihasilkan, metode clustering dapat dikelompokkan menjadi berjenjang (hierarcy) dan partisi (partition). Algoritma clustering berjenjang dibagi dua, agglomerative (bottom-up) dan divisive (top-down). Algoritma aglomerative (Agglomerative Hierarchical Clustering (AHC) merupakan salah satu algoritma berjenjang yang banyak dipakai untuk document clustering (Mendes & Sacks, 003). Pembagian metode clustering selengkapnya dapat dilihat pada Gambar.1. Pada level yang paling atas, ada pendekatan hirarki dan partisi (metode hirarki menghasilkan partisi yang bertingkat, sedangkan metode partisi hanya menghasilkan satu tingkat). 1

17 Clustering Hirarki Partisi Single Link Complete Link Error Kuadrat Teori Graf Mixture Resolving Mode Seeking K-means Expectation Maximation Gambar.4 Taksonomi Metode Clustering (Jain et. al., 1999). 3.1 Algoritma Clustering Hirarki Kebanyakan algoritma clustering hirarki merupakan variasi dari algoritma Single-Link dan Complete-Link. Kedua algoritma ini memiliki perbedaan pada cara menentukan jarak antara dua cluster. Pada metode single-link, jarak antara dua cluster adalah jarak minimum antara sepasang pola (satu pola dari satu cluster dan lainnya dari cluster kedua). Pada algoritma complete-link, jarak antara dua cluster adalah jarak maksimum antara sepasang pola pada dua cluster. Algoritma Clustering Agglomerative Hirarki : 1. Jadikan setiap dokumen sebagai cluster, sehingga jika ada n data, akan dihasilkan cluster sebanyak n.. Gabungkan dua cluster yang memiliki derajat kemiripan paling besar (jarak terkecil) menjadi satu cluster 3. Jika derajat kemiripan antara dua cluster kurang dari ambang batas α, dengan nilai α [0,1] maka berhenti, bila tidak maka kembali ke langkah

18 3. Algoritma Clustering Partisi Algoritma clustering partisi menghasilkan partisi satu level dan bukan struktur cluster berjenjang seperti Dendogram yang dihasilkan oleh algoritma hirarki. Metode partisi memiliki keunggulan pada aplikasi yang melibatkan data yang sangat besar yang apabila menggunakan Dendogram sangat memakan waktu komputasi. Masalah yang muncul pada saat menggunakan algoritma clustering adalah menentukan jumlah cluster yang diinginkan. Metode partisi biasanya menghasilkan cluster dengan mengoptimalkan fungsi kriteria yang didefinisikan secara lokal (pada sub pola) atau secara global (pada seluruh pola). a. Error Kuadrat Fungsi kriteria yang paling sering digunakan pada metode clustering partisi adalah fungsi error kuadrat (e ). Tujuan dari algoritma ini adalah meminimalkan fungsi error kuadrat : K n j j e = xi c j, (7) j= 1 i= 1 dengan j xi adalah pola i pada cluster j dan c j adalah pusat (centroid) cluster j. K-Means adalah algoritma yang menerapkan fungsi error kuadrat yang paling sederhana dan paling banyak dipakai. Algoritma K-Mean populer karena : (a) implementasinya mudah (b) kompleksitas waktunya adalah O(n), dengan n adalah jumlah pola dan (c) kompleksitas ruang memori adalah O(k+n). 3

19 Permasalahan pada algoritma ini adalah sangat peka terhadap partisi awal (inisial) dan jika partisi inisial tidak dipilih secara tepat, algoritma dapat konvergen pada lokal minimum. Kekurangan Algoritma K-Means lainnya adalah (a) hanya bisa diterapkan jika rataan (mean) dapat didefinisikan, (b) perlu menentukan nilai k (jumlah cluster) dan (c) tidak dapat menangani data yang noisy dan pencilan. Algoritma K-Means : 1. Pilih titik sebanyak K sebagai pusat inisial (K = jumlah cluster). Letakkan semua titik pada pusat terdekat 3. Tentukan kembali pusat pada setiap cluster 4. Ulangi langkah dan 3 hingga centroid tidak berubah b. Teori Graf Algoritma clustering teori graf dibangun berdasarkan pembentukan Minimum Spanning Tree (MST) data dan cluster dibentuk dengan memutus rusuk MST dengan panjang terbesar. Gambar. menggambarkan MST yang dihasilkan dari 9 titik berdimensi dua. Dengan memutus link CD dengan panjang 6 unit (rusuk dengan jarak Euclid terbesar) akan diperoleh dua cluster ({A,B,C}) dan {D,E,F,G,H,I}). Cluster kedua, selanjutnya dapat dibagi lagi menjadi dua cluster dengan memutus rusuk EF, yang memiliki panjang 5 unit. Algoritma clustering teori graf termasuk algoritma divisive. 4

20 G.3 H I 1 F 5 A B C 6 E 1 D Rusuk dengan panjang maksimum Gambar.5 Penggunaan MST untuk membentuk cluster (Jain et al, 1999). c. Mixture Resolving Pendekatan Mixture-Resolving untuk clustering memiliki asumsi bahwa pola yang akan dijadikan cluster berasal dari satu atau beberapa sebaran (Normal, Poisson dan (paling banyak) Gaussian). Tujuan dari algoritma ini adalah untuk mengidentifikasi parameter-parameter dari sebaran-sebaran ini. (Grira et. al., 004). Taksonomi clustering (Gambar.1) juga memerlukan pembahasan aspek-aspek lain yang dapat mempengaruhi metode-metode clustering tanpa memperhatikan posisi metode clustering pada taksonomi (Jain et. al., 1999). Antara lain : a. Agglomerative vs divisive: Aspek ini berkaitan dengan struktur algoritma dan operasi. Pendekatan agglomerative diawali dengan menjadikan setiap pola sebagai sebuah cluster dan terus-menerus menggabungkan cluster hingga kriteria pemberhentian terpenuhi. Metode divisive diawali dengan menggabungkan semua pola sebagai 5

21 satu cluster dan dilakukan pemecahan hingga kriteria pemberhentian terpenuhi. b. Monothetic vs polythetic: aspek ini berkaitan dengan penggunaan ciri pada proses clustering secara bersamaan atau satu persatu. Kebanyakan algoritma bersifat polythetic, artinya semua ciri dimasukkan dalam perhitungan jarak antara pola dan keputusan diambil berdasarkan jarak tersebut. Sedangkan monothetic, ciri diambil satu persatu untuk membentuk cluster. Masalah utama dengan algoritma ini adalah ia menghasilkan d cluster (d adalah dimensi pola). Pada aplikasi temu-kembali informasi, untuk nilai d yang besar (d > 100), jumlah cluster yang dihasilkan oleh algoritma monothetic sangat banyak sehingga data terpecah menjadi cluster yang kecil. c. Hard vs fuzzy: algoritma clustering tegas menempatkan setiap pola pada sebuah cluster baik selama proses maupun sebagai hasil akhir. Metode fuzzy clustering memberikan pola derajat keanggotaan pada beberapa cluster. Metode fuzzy clustering dapat diubah menjadi clustering yang tegas dengan menjadikan pola sebagai anggota sebuah cluster yang memiliki derajat keanggotaan terbesar. d. Supervised vs unsupervised: Aspek ini penentuan jumlah cluster. Algoritma terawasi (supervised) adalah algoritma clustering yang jumlah cluster yang akan dihasilkan sudah ditentukan sebelumnya (melalui input manual). Sedangkan algoritma tak-terawasi (unsupervised), banyaknya cluster tidak ditentukan (algoritma yang menentukan). 6

22 e. Incremental vs non-incremental: isu ini muncul ketika pola yang akan dikelompokan sangat besar ukurannya dan ada pembatasan waktu eksekusi atau ruang memori yang mempengaruhi arsitektur algoritma. 4. Representasi Cluster Merupakan proses deskripsi atau pemberian nama kepada cluster yang dihasilkan. Ada tiga cara atau skema representasi cluster : (a) representasi cluster dengan pusat (centroid) cluster atau sejumlah titik yang berjauhan pada cluster (Gambar.3), (b) representasi cluster menggunakan nodes pada pohon klasifikasi dan (c) Representasi cluster menggunakan ekspresi logika conjunctive (Gambar.4). Dari ketiga skema representasi cluster, penggunaan centroid merupakan teknik yang paling populer (Michalski et. al., 1981). Representasi cluster memiliki fungsi antara lain untuk : (a) memberikan deskripsi cluster yang sederhana dan intuitive sehingga memudahkan pemahaman manusia, (b) membantu kompresi data yang dapat dieksploitasi oleh komputer (c) meningkatkan efisiensi pengambilan keputusan (Jain et. al., 1999). X1 Dengan Centroid X Dengan tiga titik berjauhan Gambar.6 Representasi cluster menggunakan titik (Jain et. al., 1999). 7

23 Gambar.7 (a) Representasi cluster menggunakan Pohon Klasifikasi dan (b) Pernyataan Conjunctive (Jain et. al., 1999). D. Sistem Fuzzy 1. Gugus Fuzzy Gugus Fuzzy pertama kali diperkenalkan oleh Prof. L. A. Zadeh dari Berkley pada tahun Pada 10 tahun pertama. Gugus fuzzy merupakan pengembangan dari gugus biasa. Rerpresentasi abstrak dari sebuah gugus universal tampak seperti pada Gambar.5. X x Gambar.8 Anak Gugus Fuzzy (Marimin, 005) Bingkai persegi panjang merepresentasikan gugus universal X, dan lingkaran yang terputus-putus menggambarkan batas ambigous dari elemen yang terdapat di dalam atau diluar X, sedangkan A adalah gugus fuzzy dalam X. 8

24 Teori gugus fuzzy mendefinisikan derajat di mana elemen x dari gugus univerasal X berada (tercakup) di dalam gugus fuzzy A. Fungsi yang memberikan derajat terhadap sebuah elemen mengenai keberadaannya dalam sebuah gugus disebut fungsi keanggotaan. Dalam kasus ini, anggota dari gugus X adalah elemen x. Sebagai contoh, derajat keanggotaan dari elemen x dalam area A diekspresikan oleh : µ A (x 1 ) = 1, µ A (x ) = 0.8 µ A (x 3 ) = 0.3, µ A (x 4 ) = 0 µ A adalah fungsi keanggotaan yang memberikan derajat keanggotaan yang berada pada suatu selang tertentu, yaitu selang [0,1]. Tulisan subscript di sebelah µ, yaitu A, menunjukkan bahwa µ A adalah fungsi keanggotaan dari A (Marimin, 005).. Fungsi Keanggotaan Salah satu cara yang dapat digunakan untuk mendapatkan nilai keanggotaan adalah dengan melalui pendekatan fungsi. Beberapa fungsi yang dapat digunakan adalah sebagai berikut (Kusumadewi, 003): a. Kurva Triangular Fungsi keanggotaan dari kurva triangular adalah seperti pada persamaan (6) dan gambar kurvanya seperti pada Gambar.6. 0, x a atau x c µ, a x b (8) [ x] = ( ) ( ) x a / b a ( c x) /( c b), b x c 9

25 Gambar.9 Kurva triangular untuk a=3, b=6, dan c=8 b. Kurva Trapezoidal Kurva trapezoidal mempunyai fungsi keanggotaan sebagai berikut: 0, x a atau x d ( x a), a x b [ ] ( b a) µ x = (9) 1, b x c ( d x), c x d ( d c) Gambar.10 Kurva trapezoidal untuk a=1, b=5, c=7, dan d=8 c. Kurva Generalizzed bell Untuk kurva Generalzzed bell, fungsi keanggotaannya terlihat pada persamaan (8) dengan gambar kurva pada Gambar.8. 30

26 1 µ [ x] = (10) b x c 1+ a Gambar.11 Kurva Generalizzed bell untuk a=, b=4, dan c=6 d. Kurva Gaussian Fungsi keanggotaan Gaussion seperti terlihat pada persamaan (9) dengan gambar kurva seperti terlihat pada Gambar.9. µ [ x] ( x c) σ = e (11) Gambar.1 Kurva Gaussian untuk σ= dan c=5 31

27 e. Kurva Two-sided Gaussian Kurva Two-sided Gaussian mempunyai fungsi keanggotaan seperti pada persamaan (10) dan gambar kurva seperti pada Gambar.10. µ [ x] ( x c ) σ = e (1) Fungsi Two-sided Gaussian merupakan kombinasi dua kurva Gaussian. Kurva pertama dengan parameter σ1 dan c1 berada disebelah kiri. Kurva kedua ada dengan parameter σ dan c berada disebelah kanan. Daerah antara c1 dan c harus bernilai 1. Gambar.13 Kurva Two-sided Gaussian untuk σ1=, c1=4 dan σ=1, c=8 f. Kurva S Kurva S mempunyai fungsi keanggotaan seperti pada persamaan (11) dengan gambar kurva pada Gambar.11. 3

28 33 [ ] + + = b x b x b a a b x b b a x a a b a x a x x, 1, 1,, 0 µ (13) Gambar.14 Kurva S untuk a=1 dan b=8 E. Fuzzy Clustering Proses clustering pada dasarnya merupakan proses pembuatan gugus atau himpunan yang memiliki anggota elemen-elemen yang akan dicluster. Pada algoritma clustering non-fuzzy, nilai keanggotaan suatu elemen terhadap gugus atau cluster dinyatakan sebagai 0 atau 1, artinya setiap dokumen hanya bisa menjadi anggota satu cluster (1 sebagai anggota dan 0 bukan anggota). Padahal, pada temu kembali informasi, dokumen dapat memiliki informasi yang relevan (dengan derajat tertentu) dengan beberapa cluster yang berbeda. Dengan fuzzy clustering, dokumen dapat menjadi anggota beberapa cluster sekaligus. Algoritma fuzzy clustering untuk document clustering masih menjadi salah satu topik yang menarik untuk dieksplorasi.

29 1. Fuzzy C-Means (FCM) Ada beberapa algoritma fuzzy clustering, salah satu diantaranya adalah Algoritma Fuzzy C-Means (FCM). FCM adalah suatu teknik clustering data dengan keberadaan setiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Teknik ini pertama kali diperkenalkan oleh Jim Bezdek (Bezdek, 1981). Algoritma FCM diawali dengan menentukan derajat keanggotaan (secara acak) setiap titik data terhadap cluster. Berdasarkan derajat keanggotaan, kemudian ditentukan pusat cluster. Pada kondisi awal, pusat cluster tentu saja masih belum akurat. Derajat keanggotaan selanjutnya diperbaiki berdasarkan fungsi jarak antara titik data dengan pusat cluster (Nascimento et. al., 003). Dengan memperbaiki pusat cluster dan derajat keanggotaan tiap titik data secara berulang dan terus menerus, maka pusat cluster akan bergeser ke titik yang tepat (dengan kondisi total jarak antara titik data dengan pusat cluster telah mencapai nilai yang diinginkan). Output FCM adalah deretan pusat cluster dan derajat keanggotaan data terhadap setiap cluster (Kusumadewi dan Purnomo, 004). Algoritma FCM Algoritma FCM adalah sebagai berikut (Kusumadewi & Purnomo, 004) : 1 Tentukan X sebagai input data yang akan dijadikan cluster dalam bentuk matriks berukuran n x m; dimana n = jumlah sampel data dan 34

30 m = jumlah atribut setiap data. X ij = data sample ke-i (i= 1,,3, n), atribut ke-j (j = 1,,3,,m). Tentukan : - Jumlah cluster = c; - Pangkat = w; - Maksimum iterasi = MaxIter; - Error terkecil yang diinginkan = ξ ; - Fungsi obyektif awal = P 0 = 0; - Iterasi awal = t = 1; 3 Bangkitkan bilangan random u ik, i = 1,,..,n; k=1,,...,c; sebagai elemen-elemen matriks partisi awal U. Hitung jumlah setiap kolom (atribut) : c Q j = u ik k = 1 j=1,,,m (14) uik µ ik = Kemudian hitung : Q (15) 4 Hitung pusat cluster ke-k : V kj, dengan k=1,,,c; dan j=1,,,m. V n ik i= 1 kj = n w ( µ ) * X ) ( µ ik ) i= 1 w ij j (16) 5 Hitung fungsi keanggotaan pada iterasi ke-t, Pt : µ ik = m ( X ij Vkj ) c m ( X ij Vkj ) k = 1 j= 1 j= 1 1 w 1 1 w 1 (17) 35

31 6 Hitung perubahan matriks partisi : n c m P t = ij kj µ ik i= 1 k = 1 j= 1 w ( X V ) ( ) (18) dengan: i=1,,...,n; dan k=1,,...,c. 7 Periksa kondisi berhenti : - Jika: ( Pt Pt-1 < ξ) atau (t > maxiter) maka berhenti; - Jika tidak: t = t + 1, ulangi langkah ke-4. Hyperspherical Fuzzy C-Means Jarak Euclid yang sering digunakan pada algoritma FCM, ternyata bukan merupakan ukuran yang paling cocok untuk membandingkan vector dokumen. Adapun penjelasannya adalah sebagai berikut : misalkan ada dua dokumen X A dan X B yang terdiri dari set term T sebanyak k dengan asumsi kebanyakan term pada T (k ) tidak muncul pada X A dan X B. Diasumsikan juga vektor X A dan X B tidak memiliki term yang sama. Sehingga X A dan X B memiliki banyak memiliki nilai 0 dan jarak Euclid antara keduanya relatif kecil. XA dan XB dinyatakan mirip, padahal yang sesungguhnya tidak. Masalah pada fungsi Euclid adalah ketiadaan term pada dua dokumen dianggap sama dengan kehadiran term yang sama pada dua dokumen. Oleh karena itu, perlu dipikirkan cara atau metode lain yang lebih baik dari jarak Euclid. Mendez & Sacks (003), mencoba menggunakan Ukuran Kemiripan Kosinus (Cosine Similarity) untuk menggantikan jarak Euclid. Ukuran Kosinus ( ) adalah inner product dari vektor ( dan ) 36

32 setelah dinormalisasi ( ). Semakin tinggi nilai kosinus, semakin tinggi derajat kemiripan antar dokumen. (19) memiliki sifat : dan Dengan transformasi sederhana, diperoleh ukuran ketidakmiripan : (0) dan Berdasarkan eksperimen, Mendes & Sacks (003) berhasil membuktikan bahwa Ukuran Kemiripan Kosinus menghasilkan hasil cluster yang lebih baik dibandingkan dengan Jarak Euclid. Adapun fungsi obyektif yang digunakan adalah : Karena tidak mencerminkan derajat keanggotaan ( ), maka perlu dihitung dengan menggunakan rumus : (1) () 37

33 Fungsi Keanggotaan FCM dan H-FCM Data menjadi anggota sebuah cluster berdasarkan fungsi keanggotaan. Sebagai contoh, diberikan sekelompok data berdimensi tunggal (Gambar.1), Gambar.15 Sebaran data pada dimensi tunggal Misalkan teridentifikasi dua cluster (A dan B). Pada algoritma K-Means, fungsi keanggotaan menjadi : Gambar.16 Kurva S untuk a=1 dan b=8 Pada algoritma FCM & H-FCM, sebuah data tidak secara eksklusif menjadi anggota sebuah cluster. Dalam hal ini, kurva fungsi keanggotaan berbentuk sigmoid untuk menyatakan bahwa setiap data dapat menjadi anggota beberapa cluster dengan derajat keanggotaan yang berbeda (Gambar.14). 38

34 Gambar.17 Fungsi keanggotaan algoritma FCM & H-FCM 3. Fuzzy Substractive Clustering (FSC) FCM adalah algoritma clustering yang terawasi, sebab pada FCM kita harus terlebih dahulu menentukan banyaknya cluster yang akan dibentuk. Menentukan banyaknya cluster yang tepat merupakan permasalahan utama dalam pendekatan ini (Geva, 1999). Apabila banyaknya cluster belum diketahui, maka kita harus menggunakan algoritma yang tak-terawasi (banyaknya cluster ditentukan oleh algoritma). FSC merupakan algoritma clustering yang tak-terawasiyang diperkenalkan pertama kali oleh Chiu pada tahun 1994 (Chiu, 1994). Algoritma Subtractive Clustering dibangun berdasarkan ukuran kepadatan (density) titik data dalam suatu ruang (peubah). Konsep dasar subtractive clustering adalah menentukan daerah peubah yang memiliki kepadatan data yang tinggi. Titik dengan jumlah tetangga terbanyak akan dipilih sebagai pusat cluster. Titik yang terpilih akan dikurangi tingkat kepadatannya. Kemudian algoritma akan memilih titik lain yang memiliki 39

35 tingkat kepadatan tertinggi lainnya untuk dijadikan sebagai pusat cluster yang lain (Kusumadewi & Purnomo, 004). Apabila terdapat N buah data: X 1, X,.., X n dan dengan menganggap data sudah dalam keadaan normal, maka densitas titik X k dapat dihitung sebagai : D k N = ( ) = exp X k X j j 1 r (3) Dengan X X adalah jarak antara X k dengan X j, dan r adalah k j konstanta positif yang kemudian akan dikenal dengan nama jari-jari (influence range) r. Jari-jari adalah vektor yang akan menentukan seberapa besar pengaruh pusat cluster pada tiap-tiap variabel. Dengan demikian, suatu titik data akan memiliki nilai kepadatan yang besar jika dia memiliki banyak tetangga didekatnya. Setelah menghitung nilai kepadatan setiap titik, maka titik dengan kepadatan tertinggi akan dipilih sebagai pusat cluster. Misalkan X c1 adalah titik yang terpilih sebagai pusat cluster, sedangkan D c1 adalah ukuran kepekatannya. Selanjutnya kepekatan dari titik-titik disekitarnya akan dikurangi menjadi X k X c1 ( ) D = k Dk Dc 1 exp (4) rb dengan r b = q*r a (biasanya squash factor (q) = 1.5). Artinya titiktitik yang ada dekat dengan cluster X c1 akan mengalami pengurangan kepekatan cukup besar. Hal ini menyebabkan titik tersebut akan sulit 40

36 menjadi pusat cluster berikutnya. Biasanya nilai r b bernilai lebih besar dari jari-jari (r). Setelah kepekatan tiap titik disesuaikan, maka selanjutnya akan dicari pusat cluster yang kedua, yaitu X c. Sesudah X c didapat, ukuran kepekatan tiap titik disekitarnya disesuaikan kembali, demikian seterusnya. Penerimaan dan penolakan suatu titik data menjadi pusat cluster ditentukan oleh nilai Rasio, Rasio Terima dan Rasio Tolak. Rasio adalah perbandingan nilai kepekatan suatu data pada perulangan ke-i (i > 1) dengan nilai kepekatan data pada perulangan pertama (i=1). RasioTerima dan RasioTolak merupakan konstanta bernilai antara 0 dan 1 yang digunakan sebagai ukuran untuk menerima dan menolak sebuah titik data kandidat pusat cluster menjadi pusat cluster. Ada 3 kondisi yang mungkin terjadi: a. Jika Rasio > RasioTerima, maka titik data tersebut diterima sebagai pusat cluster baru b. Jika RasioTolak < Rasio < RasioTerima, maka kandidat dapat diterima sebagai pusat cluster jika kandidat memiliki jarak yang cukup jauh dengan pusat cluster terdekat (rasio + jarak dengan pusat cluster terdekat 1). Sebaliknya jika rasio + jarak dengan pusat data terdekat < 1, maka dia ditolak sebagai pusat cluster. c. Jika Rasio RasioTolak, maka sudah tidak ada lagi titik data yang akan dipertimbankan sebagai kandidat pusat cluster, perulangan dihentikan. 41

37 Algoritma Fuzzy Subtractive Clustering Algoritma Fuzzy Subtractive Clustering adalah sebagai berikut (Kusumadewi & Purnomo, 004) : 1 Tentukan X ij sebagai input data yang akan dicluster i=1,,...,n; j=1,,...,m (n = jumlah sampel data dan m = jumlah atribut setiap data) Tetapkan nilai : a. r j (jari-jari setiap atribut data); j=1,,...,m b. q (squash factor); c. Accept ratio d. Reject Ratio e. XMin (minimum data diperbolehkan) f. XMax (maksimum data diperbolehkan). 3 Normalisasi : X ij X ij XMin j =, i = 1,,...,n; j=1,,...,m; (5) XMax XMin j j 4 Tentukan potensi awal setiap titik data a. i = 1; b. Kerjakan hingga i = n : T i = X ij j=1,,...,m Hitung : T j X kj Dist = kj j=1,,...,m; k=1,,...,n; (6) r Potensi awal : Jika m = 1, maka 4

38 D 1 = n k = 1 e ( ) 4 Dist k 1 (7) Jika m > 1, maka D i = n k= 1 e 4 ( Dist ) kj (8) i = i Cari titik dengan potensi tertinggi a. M = max[di i=1,,...,n] b. H = i, sedemikian sehingga Di = M; 5 Tentukan pusat cluster dan kurangi potensinya terhadap titik-titik di sekitarnya a. Center =[] b. Vj = X hj ; j=1,,...,m c. C = 0 (jumlah cluster) d. Kondisi = 1; e. Z = m f. Kerjakan jika (kondisi 1) dan (z 0) Rasio = z/m Jika Rasio > accept_ratio : - Md = -1; - Kerjakan untuk i=1 sampai i = C: i. G ij V j Centerij = j=1,,...,m (9) r m ii. Sd i = ( G ij ) j= 1 (30) 43

39 iii. Jika (Md < 0) atau (Sd < Md), maka Md = Sd; - Smd = Md - Jika rasio + Smd 1, maka kondisi = 1; (Data diterima sebagai pusat cluster) - Jika rasio + Smd < 1, maka kondisi = ; (Data tidak akan dipertimbangkan kembali sebagai pusat cluster). Jika Kondisi = 1 lakukan : - C = C + 1; - Centerc = V; - Kurangi potensi dari titik-titik dekat pusat cluster : S ij V j X ij = ; j=1,,...,m; i=1,,...,n; (31) r j* q D ci = M m 4 ( S ij ) j = 1 * e i=1,,...,n (3) i. D ci = M *e ; i=1,,...,n. (33) ii. D = D D c (34) iii. Jika D i 0, maka D i = 0; i =1,,...,n. iv. Z = max[d i i=1,,...,n] v. Pilih h = 1, sedemikian sehingga Di=Z Jika kondisi = - Dh = 0; - Z = max[di i=1,,...,n] - Pilih h = i, sedemikian sehingga Di=Z; 6 Kembalikan pusat cluster dari bentuk normal ke bentuk semula 44

40 Center ij = Center ij * (Xmax j Xmin j ) + Xmin j ; (35) 7 Hitung nilai sigma cluster σ = r ( XMax XMin ) / 8 (36) j j * j j Hasil dari algoritma Subtractive Clustering ini adalah matriks pusat cluster (C) dan sigma (σ ) yang akan digunakan untuk menentukan nilai parameter fungsi keanggotaan Gauss, seperti terlihat pada Gambar.1. µ [ x] = 0. 5 σ c σ Gambar.18 Fungsi keanggotaan kurva Gauss (Kusumadewi & Purnomo, 004) Dengan kurva Gauss pada Gambar.1, maka derajat keanggotaan titik data X i pada cluster k dapat ditentukan sebagai : µ j= = ki e 1 m ( x ) ij C kj σ j (37) F. Clustering dalam Sistem Temu Kembali Informasi Tujuan dari setiap algoritma clustering adalah untuk mengelompokkan elemen data berdasarkan ukuran ke(tidak)miripan sehingga relasi dan struktur data yang tidak terlihat dapat diungkapkan. Document clustering untuk temukembali informasi telah mulai dipelajari beberapa dekade yang lalu untuk 45

41 meningkatkan kinerja pencarian dan efisiensi pengambilan (Mendes dan Sacks, 003). Penggunaan clustering didasarkan pada hipotesis cluster yaitu : dokumen yang relevan dengan query yang diberikan, cenderung mirip satu sama lain dibandingkan dengan dokumen yang tidak relevan, oleh karena dokumen yang relevan dapat dikelompokkan dalam cluster (Rijsbergen, 1979). Selain itu, clustering juga dapat digunakan untuk browsing koleksi dokumen yang sangat besar dan sebagai alat untuk mengatur senarai dokumen hasil query menjadi kelompok-kelompok yang memiliki makna (Cutting at. al, 199). Penelitian Leuski juga berhasil menunjukkan bahwa ternyata metode clustering lebih efektif dalam membantu pengguna untuk menemukan informasi dibandingkan dengan metode senarai (Leuski, 001). Dilihat dari urutan pengerjaannya, clustering dalam temu-kembali informasi dibagi dua jenis, sebelum pencarian (static clustering) dan sesudah pencarian (post-retrieval clustering) (Tombros, 00). Penelitian Terdahulu Berdasarkan kajian literatur yang penulis lakukan, penelitian untuk meningkatkan efektifitas temu-kembali informasi kebanyakan menggunakan model document clustering. Model clustering yang paling banyak digunakan adalah model hirarki dan partisi (Tabel 1). 1. Penelitian pada temu-kembali informasi fuzzy yang lebih komprehensif dilakukan oleh Horng et. al. (005). Pertama kali, Horng et. al. menggunakan algoritma Fuzzy Agglomerative Hierarchical Clustering untuk membentuk document cluster. Kemudian berdasarkan document 46

42 cluster dan pusat dokumen, dibangun aturan logika fuzzy logic. Terakhir, mereka mengaplikasikan aturan logika fuzzy untuk mengembangkan query pengguna untuk menemukan dokumen yang relevan dengan permintaan pengguna. Implementasi aturan logika fuzzy pada query pengguna menjadikan metode temu-kembali informasi fuzzy lebih efektif, fleksibel dan cerdas. Tabel.1 Penelitian tentang document clustering Pustaka Algoritma Clustering Jenis Fuzzy 1 Horng et. al. 005 Fuzzy Agglomerative Hierarchical Hirarki Ya Lian et. al. 004 S-Grace Hirarki & Tidak Graf 3 Shyu et. al. 004 PAM, Single-Link, Group Average- Partisi & Tidak Link & Complete-Link Hirarki 4 Fung et. al. 003 Frequent Itemset-based Hirarki Tidak Hierarchical Clustering (FIHC) 5 Wallace et. al. 003 Fuzzy Agglomerative Hierarchical Hirarki Ya 6 Mendes & Sacks. Hyperspherical Fuzzy c-means (H- Partisi Ya 003 FCM) 7 Leuski. 001 ε-insentive Fuzzy C-Means (ε- Partisi Ya FCM) 8 Maarek et. al. 000 Agglomerative Hierarchical Hirarki Tidak 9 Rüger & Gauch. 000 Buckshot Partisi Tidak. Lian et. al. (004) melakukan clustering terhadap dokumen XML dengan mengusulkan algoritma S-Grace. Pada algoritma S-Grace, digunakan Teori Graf untuk mengukur jarak antara dokumen dengan sekelompok dokumen. Walaupun masih sangat memakan waktu, algoritma S-Grace efektif untuk meng-cluster dokumen XML. 3. Shyu et. al. (004) menggunakan pola akses pengguna pada web untuk meng-cluster dokumen. Pola akses diperoleh dari log server yang 47

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007 SURAT PERNYATAAN Saya menyatakan dengan

Lebih terperinci

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning CLUSTERING DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk yang paling umum digunakan adalah unsupervised learning # Unsupervised learning

Lebih terperinci

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi 3. METODOLOGI A. Kerangka Pemikiran Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi dan Pembuatan Prototipe Sistem (Gambar 3.1). Tahap Persiapan terdiri dari pengumpulan dokumen, input

Lebih terperinci

1. PENDAHULUAN. Perkembangan teknologi informasi, khususnya teknologi Internet. mudah dan gratis, mengakibatkan informasi berlimpah.

1. PENDAHULUAN. Perkembangan teknologi informasi, khususnya teknologi Internet. mudah dan gratis, mengakibatkan informasi berlimpah. 1. PENDAHULUAN A. Latar Belakang Perkembangan teknologi informasi, khususnya teknologi Internet sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara mudah dan gratis, mengakibatkan informasi

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #9 Text Clustering (Ch.16 & 17) Clustering Pengelompokan, penggerombolan Proses pengelompokan sekumpulan obyek ke dalam kelas-kelas obyek yang memiliki sifat sama.

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

Clustering. Virginia Postrel

Clustering. Virginia Postrel 8 Clustering Most of us cluster somewhere in the middle of most statistical distributions. But there are lots of bell curves, and pretty much everyone is on a tail of at least one of them. We may collect

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007 SURAT PERNYATAAN Saya menyatakan dengan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan Sebuah aplikasi berupa Sistem Pendukung Keputusan (Decision Support System) mulai dikembangkan pada tahun 1970. Decision Support Sistem (DSS) dengan

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

FUZZY SUBTRACTIVE CLUSTERING BERDASARKAN KEJADIAN BENCANA ALAM PADA KABUPATEN/KOTA DI JAWA TENGAH

FUZZY SUBTRACTIVE CLUSTERING BERDASARKAN KEJADIAN BENCANA ALAM PADA KABUPATEN/KOTA DI JAWA TENGAH FUZZY SUBTRACTIVE CLUSTERING BERDASARKAN KEJADIAN BENCANA ALAM PADA KABUPATEN/KOTA DI JAWA TENGAH 1 Diah Safitri, 2 Rita Rahmawati, 3 Onny Kartika Hitasari 1,2,3 Departemen Statistika FSM Universitas Diponegoro

Lebih terperinci

PENGENALAN POLA TIDAK TERBIMBING DENGAN METODE FUZZY SUBSTRACTIVE CLUSTERING

PENGENALAN POLA TIDAK TERBIMBING DENGAN METODE FUZZY SUBSTRACTIVE CLUSTERING JURNAL LOGIC. VOL. 15. NO. 3. NOPEMBER 2015 188 PENGENALAN POLA TIDAK TERBIMBING DENGAN METODE FUZZY SUBSTRACTIVE CLUSTERING Putu Manik Prihatini Jurusan Teknik Elektro, Politeknik Negeri Bali Bukit Jimbaran,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

DATA MINING DAN WAREHOUSE A N D R I

DATA MINING DAN WAREHOUSE A N D R I DATA MINING DAN WAREHOUSE A N D R I CLUSTERING Secara umum cluster didefinisikan sebagai sejumlah objek yang mirip yang dikelompokan secara bersama, Namun definisi dari cluster bisa beragam tergantung

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

II. TINJAUAN PUSTAKA

II. TINJAUAN PUSTAKA II. TINJAUAN PUSTAKA A. Temu Kembali Citra Temu kembali citra adalah salah satu metodologi untuk penemuan kembali citra berdasarkan isi (content) citra. Citra memiliki informasi karakteristik visual berupa

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini berisi penjelasan mengenai image clustering, pengukuran kemiripan dan pengukuran jarak, representasi citra, ruang warna, algoritma clustering, dan penelitian yang berhubungan.

Lebih terperinci

CLUSTERING KARYAWAN BERDASARKAN KINERJA DENGAN MENGGUNAKAN LOGIKA FUZZY C-MEAN

CLUSTERING KARYAWAN BERDASARKAN KINERJA DENGAN MENGGUNAKAN LOGIKA FUZZY C-MEAN CLUSTERING KARYAWAN BERDASARKAN KINERJA DENGAN MENGGUNAKAN LOGIKA FUZZY C-MEAN Fitri Wulandari, Rinto Setiawan Jurusan Teknik Informatika Fakultas Sains dan Teknologi Universitas Islam Negeri Sultan Syarif

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Ratnadira Widyasari 13514025 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

APLIKASI SISTEM PAKAR UNTUK MENENTUKAN OBAT PERAWATAN KULIT WAJAH BERBASIS ANDROID

APLIKASI SISTEM PAKAR UNTUK MENENTUKAN OBAT PERAWATAN KULIT WAJAH BERBASIS ANDROID APLIKASI SISTEM PAKAR UNTUK MENENTUKAN OBAT PERAWATAN KULIT WAJAH BERBASIS ANDROID Muhammad Imaduddin 1 Arie Surya Chandra 2 Denny Chancra 3 Teknik Informatika Universitas Bina Nusantara Jl. K. H. Syahdan

Lebih terperinci

BAB II LANDASAN TEORI. Pada bab ini akan dibahas mengenai teori-teori yang akan digunakan untuk menunjang dalam proses pembuatan tugas akhir ini.

BAB II LANDASAN TEORI. Pada bab ini akan dibahas mengenai teori-teori yang akan digunakan untuk menunjang dalam proses pembuatan tugas akhir ini. BAB II LANDASAN TEORI Pada bab ini akan dibahas mengenai teori-teori yang akan digunakan untuk menunjang dalam proses pembuatan tugas akhir ini. 2.1 CLUSTERING Clustering adalah proses pengelompokkan suatu

Lebih terperinci

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means, K- Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Traveling Salesmen Problem (TSP) Travelling Salesman Problem (TSP) merupakan sebuah permasalahan optimasi yang dapat diterapkan pada berbagai kegiatan seperti routing. Masalah

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

Pengenalan Pola. Klasterisasi Data

Pengenalan Pola. Klasterisasi Data Pengenalan Pola Klasterisasi Data PTIIK - 2014 Course Contents 1 Konsep Dasar 2 Tahapan Proses Klasterisasi 3 Ukuran Kemiripan Data 4 Algoritma Klasterisasi Konsep Dasar Klusterisasi Data, atau Data Clustering

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering Analisis Cluster Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan

Lebih terperinci

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN :

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN : Clustering Data Status Tugas Belajar Dan Ijin Belajar Menggunakan Metode Fuzzy C-Means (Studi Kasus : Di Lingkungan Pemerintah Provinsi Kalimantan Timur) Fevin Triyas Rantika 1, Indah Fitri Astuti, M.Cs

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

Pemanfaatan Algoritma FCM Dalam Pengelompokan Kinerja Akademik Mahasiswa

Pemanfaatan Algoritma FCM Dalam Pengelompokan Kinerja Akademik Mahasiswa Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Pemanfaatan Algoritma FCM Dalam Pengelompokan Kinerja Akademik Mahasiswa Aidina Ristyawan 1), Kusrini 2), Andi Sunyoto

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Clustering Analysis Clustering analysis merupakan metode pengelompokkan setiap objek ke dalam satu atau lebih dari satu kelompok,sehingga tiap objek yang berada dalam satu kelompok

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:

Lebih terperinci

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS WULAN ANGGRAENI wulangussetiyo@gmail.com Program Studi Pendidikan Matematika Universitas Indraprasta PGRI Abstract. The purpose of this study was to

Lebih terperinci

PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA

PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA Trevi Meri Andriyani 1, Lilik Linawati 2, Adi Setiawan 3 1 Mahasiswa Program Studi Matematika

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN Fauziah Nur1, Prof. M. Zarlis2, Dr. Benny Benyamin Nasution3 Program Studi Magister Teknik Informatika, Universitas

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

KLASIFIKASI DATA MULTIDIMENSI MENGGUNAKAN SUBTRACTIVE CLUSTERING DAN K-NEAREST NEIGHTBOR

KLASIFIKASI DATA MULTIDIMENSI MENGGUNAKAN SUBTRACTIVE CLUSTERING DAN K-NEAREST NEIGHTBOR KLASIFIKASI DATA MULTIDIMENSI MENGGUNAKAN SUBTRACTIVE CLUSTERING DAN K-NEAREST NEIGHTBOR (Classification Multidimension Data Using Subtractive Clustering and K-Nearest Neightbor) Nur Wakhidah Fakultas

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

BAB 3 ANALISA DAN PERANCANGAN

BAB 3 ANALISA DAN PERANCANGAN BAB 3 ANALISA AN PERANCANGAN 3.1 Gambaran Umum Pada masa sekarang ini, proses pencarian dokumen dalam web seperti Google, Yahoo, dan sebagainya dilakukan dengan menginput query yang diinginkan pada kotak

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA

PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA PENERAPAN ALGORITMA FUZZY C-MEANS (FCM) PADA PENENTUAN LOKASI PENDIRIAN LOKET PEMBAYARAN AIR PDAM SALATIGA Trevi Meri Andriyani 1, Lilik Linawati 2, Adi Setiawan 1 Mahasiswa Program Studi Matematika FSM

Lebih terperinci

Fuzzy C-means Clustering menggunakan Cluster Center Displacement

Fuzzy C-means Clustering menggunakan Cluster Center Displacement Fuzzy C-means Clustering menggunakan Cluster Center Displacement Fitri Hidayah Sundawati 1), Jadi Suprijadi 2), Titi Purwandari 3) 1) Mahasiswa Statistika Terapan, UniversitasPadjadjaran-Indonesia 2) Pengajar

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

PENGKLASIFIKASIAN LULUSAN JURUSAN TEKNIK ELEKTRO BERDASARKAN NILAI IPK DENGAN METODE FUZZY CLUSTERING. M. Rodhi Faiz

PENGKLASIFIKASIAN LULUSAN JURUSAN TEKNIK ELEKTRO BERDASARKAN NILAI IPK DENGAN METODE FUZZY CLUSTERING. M. Rodhi Faiz Rodhi Faiz, Pengklasifikasian Lulusan Jurusan Teknik Elektro Berdasarkan Nilai Ipk Dengan Metode Fuzzy Clustering PENGKLASIFIKASIAN LULUSAN JURUSAN TEKNIK ELEKTRO BERDASARKAN NILAI IPK DENGAN METODE FUZZY

Lebih terperinci

PRESENTASI TUGAS AKHIR KI091391

PRESENTASI TUGAS AKHIR KI091391 PRESENTASI TUGAS AKHIR KI091391 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering)

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 7 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan penerapan algoritma hierarchical clustering dan k-means untuk pengelompokan desa tertinggal.

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) Shofi Nur Fathiya (13508084) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Jalan

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval

Sistem Temu Kembali Informasi/ Information Retrieval Sistem Temu Kembali Informasi/ Information Retrieval Pemodelan IR Imam Cholissodin S.Si., M.Kom. Table Of Content 1. Boolean Retrieval Model Boolean Index Inverted Index 2. Boolean Query Retrieval 3. Vector

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

Data Mining dengan Algoritma Fuzzy C-Means Clustering Dalam Kasus Penjualan di PT Sepatu Bata

Data Mining dengan Algoritma Fuzzy C-Means Clustering Dalam Kasus Penjualan di PT Sepatu Bata Data Mining dengan Algoritma Fuzzy C-Means Clustering Dalam Kasus Penjualan di PT Sepatu Bata Cakra Ramadhana 1, Yohana Dewi Lulu W 2, Kartina Diah K. W. 3 1,2 Program Studi Sistem Informasi, Politeknik

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Pola pengaksesan pengguna terhadap sebuah situs web biasanya tergambarkan dalam sebuah pola sekuensial. Pola sekuensial mengindikasikan bahwa transaksi biasanya terjadi secara

Lebih terperinci

CLUSTERING LULUSAN MAHASISWA MATEMATIKA FMIPA UNTAN PONTIANAK MENGGUNAKAN ALGORITMA FUZZY C-MEANS

CLUSTERING LULUSAN MAHASISWA MATEMATIKA FMIPA UNTAN PONTIANAK MENGGUNAKAN ALGORITMA FUZZY C-MEANS Buletin Ilmiah Mat. Stat. Dan Terapannya (Bimaster) Volume 02, No.1(2013), hal. 21-26 CLUSTERING LULUSAN MAHASISWA MATEMATIKA FMIPA UNTAN PONTIANAK MENGGUNAKAN ALGORITMA FUZZY C-MEANS Cary Lineker Simbolon,

Lebih terperinci

BAB I PENDAHULUAN. Sekarang ini penelitian sering kali melibatkan beberapa variabel

BAB I PENDAHULUAN. Sekarang ini penelitian sering kali melibatkan beberapa variabel BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Sekarang ini penelitian sering kali melibatkan beberapa variabel pengamatan. Data yang diperoleh dengan mengukur lebih dari satu variabel pengamatan pada setiap

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Mobilitas adalah hal yang tidak dapat dipisahkan dalam gaya hidup masyarakat sekarang ini. Serangkaian aktifitas menuntut seseorang untuk berada di suatu tempat bahkan

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Pada penelitian yang dilakukan oleh (Chen, Sain, & Guo, 2012) berfokus untuk mengetahui pola penjualan, pelanggan mana yang paling berharga, pelanggan mana yang

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Perpustakaan Digital Menurut Putu Laxman Pendit dalam bukunya Perpustakaan Digital dari a- z, fenomena perpustakaan digital memperlihatkan perluasan upaya manusia di bidang informasi

Lebih terperinci

IMPLEMENTASI FUZZY CLUSTERING UNTUK PREDIKSI PEMILIHAN KETUA OSIS

IMPLEMENTASI FUZZY CLUSTERING UNTUK PREDIKSI PEMILIHAN KETUA OSIS Cogito Smart Journal/VOL. 1/NO. 1/DESEMBER 2015CCSSSN: 1978-1520 24 IMPLEMENTASI FUZZY CLUSTERING UNTUK PREDIKSI PEMILIHAN KETUA OSIS Intan Nur Farida 1, Yosia Septi Lestyaningtyas 2 1,2 Universitas Nusantara

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA 4 BAB 2 TINJAUAN PUSTAKA 2.1 Metode Clustering Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data

Lebih terperinci

dengan Algoritma K Means

dengan Algoritma K Means K Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan

Lebih terperinci

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015 1 MODEL DATA MINING N. Tri Suswanto Saptadi CAPAIAN PEMBELAJARAN Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 1 3 Definisi Mining : proses atau usaha untuk mendapatkan sedikit barang

Lebih terperinci

FUZZY-NEURO LEARNING VECTOR QUANTIZATION (FNLVQ)

FUZZY-NEURO LEARNING VECTOR QUANTIZATION (FNLVQ) BAB 2 FUZZY-NEURO LEARNING VECTOR QUANTIZATION (FNLVQ) Bab ini akan menjelaskan algoritma pembelajaran FNLVQ konvensional yang dipelajari dari berbagai sumber referensi. Pada bab ini dijelaskan pula eksperimen

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan Perkembangan teknologi informasi yang semakin pesat berdampak pada terjadinya penurunan substansial dalam biaya penyimpanan data, peningkatan pesat

Lebih terperinci

BAB 2 PENELITIAN TERKAIT DAN LANDASAN TEORI

BAB 2 PENELITIAN TERKAIT DAN LANDASAN TEORI BAB 2 PENELITIAN TERKAIT DAN LANDASAN TEORI 2.1 Penelitian Terkait Ada beberapa penelitian terkait dengan penggunaan Data Mining metode cluster dengan menggunakan Algoritma Fuzzy C-Means untuk dapat mengelompokkan

Lebih terperinci

IMPLEMENTASI PENGENALAN POLA UNTUK MENGEVALUASI HASIL PEMBELAJARAN DENGAN METODE FUZZY C-MEANS

IMPLEMENTASI PENGENALAN POLA UNTUK MENGEVALUASI HASIL PEMBELAJARAN DENGAN METODE FUZZY C-MEANS SYSTEMIC Vol. 02, No. 02, Desember 2016, 23-28 IMPLEMENTASI PENGENALAN POLA UNTUK MENGEVALUASI HASIL PEMBELAJARAN DENGAN METODE FUZZY C-MEANS Ilham Program Studi Sistem Informasi, Jurusan Teknologi, Fakultas

Lebih terperinci

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA Aseptian Nugraha, Acep Irham Gufroni, Rohmat Gunawan Teknik Informatika Fakultas

Lebih terperinci

KOM341 Temu Kembali Informasi

KOM341 Temu Kembali Informasi KOM341 Temu Kembali Informasi KULIAH #4 Pemodelan IR Boolean model Vector space model Proses Temu-Kembali 1 Konsep IR Pemodelan IR o Model IR didefinisikan sebagai empat komponen [D, F, Q, R(q, d j )]

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Sponge atau poriferans berasal dari bahasa Latin yaitu porus yang artinya pori dan ferre yang artinya memiliki. Sponge adalah hewan berpori, pada umumnya terdapat di lautan,

Lebih terperinci

KLASIFIKASI USAHA KECIL DAN MENENGAH (UKM) SEKTOR INDUSTRI DENGAN METODE FUZZY C-MEANS CLUSTERING WILAYAH KOTA CILEGON

KLASIFIKASI USAHA KECIL DAN MENENGAH (UKM) SEKTOR INDUSTRI DENGAN METODE FUZZY C-MEANS CLUSTERING WILAYAH KOTA CILEGON Seminar Nasional IENACO 213 ISSN: 2337-39 KLASIFIKASI USAHA KECIL DAN MENENGAH (UKM) SEKTOR INDUSTRI DENGAN METODE FUZZY C-MEANS CLUSTERING WILAYAH KOTA CILEGON Ratna Ekawati 1),Nurul Yulis 2) 1) Jurusan

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING Yoga Bhagawad Gita 1, Ahmad Saikhu 2 1,2 Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember

Lebih terperinci

BAB II LANDASAN TEORI. papernya yang monumental Fuzzy Set (Nasution, 2012). Dengan

BAB II LANDASAN TEORI. papernya yang monumental Fuzzy Set (Nasution, 2012). Dengan BAB II LANDASAN TEORI 2.. Logika Fuzzy Fuzzy set pertama kali diperkenalkan oleh Prof. Lotfi Zadeh, 965 orang Iran yang menjadi guru besar di University of California at Berkeley dalam papernya yang monumental

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci