SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING SKRIPSI

Transkripsi

1 SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING SKRIPSI Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Teknik Informatika (S.Kom.) Program Studi Teknik Informatika Disusun Oleh : AGUSTINUS AGRI ARDYAN NIM : PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 206

2 CLUSTER BASED INFORMATION RETRIEVAL SYSTEM FOR SCIENTIFIC PAPER RETRIEVAL USING G-MEANS CLUSTERING THESIS Presented as partial fulfillment of the requirements To obtain the Bachelor Degree of Computer (S.Kom.) In Informatics Engineering Written by : AGUSTINUS AGRI ARDYAN NIM : DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 206

3

4

5

6 HALAMAN MOTTO - Ad maiorem Dei gloriam - vi

7 HALAMAN PERSEMBAHAN Penelitian ini dipersembahkan untuk : Allah Bapa, Putera dan Roh Kudus atas berkat dan bimbingannya Kedua orangtuaku, Mikael Pae Santosa dan Fransiska Ibuk Tasri Aryani yang dengan sabar selalu membimbing langkahku Adikku, Philipus Bro' Agri Adhiatma, yang selalu menghibur setiap saat Teman-teman Teknik Informatika yang selalu suportif dan memberikan banyak sekali pengalaman dan ilmu baru. Kepada segenap masyarakat yang terpanggil dan ikut berkontribusi dalam kemajuan ilmu pengetahuan. Semoga penelitian ini bisa ikut memberikan kontribusi yang baik bagi ilmu pengetahuan. Amin. vii

8 DAFTAR ISI SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING... i CLUSTER BASED INFORMATION RETRIEVAL SYSTEM FOR SCIENTIFIC PAPER RETRIEVAL USING G-MEANS CLUSTERING... ii HALAMAN PERSETUJUAN SKRIPSI... iii HALAMAN PENGESAHAN SKRIPSI... iv PERNYATAAN KEASLIAN KARYA... v HALAMAN MOTTO... vi HALAMAN PERSEMBAHAN... vii DAFTAR ISI... viii DAFTAR GAMBAR... xii DAFTAR TABEL... xiv DAFTAR PERSAMAAN... xviii ABSTRAK... xix ABSTRACT... xx LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI... xxi KATA PENGANTAR... xxii BAB I PENDAHULUAN..... Latar Belakang Rumusan Masalah Tujuan Penelitian Batasan Masalah Metodologi Penelitian Sistematika Penulisan... 5 BAB II LANDASAN TEORI Konsep Pemerolehan Informasi Operasi Teks Stopword Stemming Tokenisasi... 0 viii

9 2..2. Term-Document Matrix TF-IDF sebagai Metode Pembobotan Evaluasi Pemerolehan Informasi Konsep Pengelompokan Dokumen Clustering dalam Pemerolehan Informasi Hipotesis Cluster K-Means G-Means Evaluasi Cluster Purity... 8 BAB III ANALISIS DAN PERANCANGAN SISTEM Analisis Sistem Deskripsi Sistem Sub Sistem Pengelompokan Dokumen Sub Sistem Pencarian Dokumen Data yang Digunakan Analisis Kebutuhan Pengguna Perancangan Sistem Data Flow Diagram Diagram Konteks Overview DFD DFD Level Diagram Berjenjang Deskripsi Proses Deskripsi Proses : Pengelompokan Dokumen Deskripsi Proses 2 : Pencarian Dokumen Rancangan Basis Data Desain Konseptual Desain Logikal Desain Fisikal Rancangan Antarmuka Pengguna Antarmuka Pengelompokan Dokumen Antarmuka Pencarian Dokumen ix

10 BAB IV IMPLEMENTASI SISTEM Struktur Data Implementasi Basis Data Implementasi Pengelompokan Dokumen Implementasi G-Means Implementasi Pencarian Dokumen Implementasi Preprocessing Query Implementasi Pencarian Berbasis Cluster dan Konvensional Implementasi Antarmuka Pengguna Implementasi Antarmuka Pengelompokan Dokumen Implementasi Antarmuka Pencarian Dokumen BAB V ANALISIS HASIL PENELITIAN Analisis Hasil Sistem Hasil Pengelompokan Dokumen Hasil Pengujian Pencarian Dokumen berdasar Kueri Pengguna Pencarian dengan query data Pencarian dengan query Pencarian dengan query klasifikasi Pencarian dengan query siste Pencarian dengan query jari ga ko puter Pencarian dengan query data Pencarian dengan query kesehata Pencarian dengan query diag osa pe yakit Pencarian dengan query t p udp Pencarian dengan query i i g aï e ayes pe duku g keputusa i i g e ggu aka k- ea s a usia ireless Pembahasan Rerata Interpolasi Titik Recall Precision Sistem Pemerolehan Informasi berbasis Cluster Sistem Pemerolehan Informasi Konvensional Purity Waktu Eksekusi Kelebihan dan Kekurangan Sistem Kelebihan Sistem x

11 Kekurangan Sistem BAB VI KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA xi

12 DAFTAR GAMBAR Gambar 2.. Visualisasi term-document matrix... Gambar 2.2. Pseudocode algoritma K-Means (Manning et al, 2008)... 3 Gambar 2.3. Visualisasi proses yang terjadi dalam algoritma K-Means (Manning et al, 2008)... 4 Gambar 2.4. Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 000 point. Algoritma G-Means mencoba mencari normalitas dalam sebaran titik pada suatu cluster (Hamerly et al., 2004)... 5 Gambar 3.. Alur proses pengklusteran dokumen Gambar 3.2. Alur proses pencarian dokumen Gambar 3.3. Sistem Pemerolehan Informasi Konvensional (Baeza, 999) Gambar 3.4. Sistem Pemerolehan Informasi Berbasis Cluster Gambar 3.5. Diagram konteks dari sistem yang akan dibangun Gambar 3.6. Overview DFD dari sistem yang akan dibangun Gambar 3.7. DFD level 2 dari proses pengelompokan dokumen Gambar 3.8. DFD level 2 dari proses pencarian dokumen Gambar 3.9. Diagram berjenjang dari sistem yang akan dikembangkan Gambar 3.0. ERD untuk sistem yang akan dibangun Gambar 3.. Model relasional untuk sistem yang akan dibangun Gambar 3.2. Rancangan antarmuka pengguna untuk proses pengelompokan dokumen Gambar 3.3. Rancangan antarmuka pengguna untuk proses pencarian dokumen Gambar 4. Struktur data untuk term list yang menggunakan LinkedList dan document list yang menggunakan ArrayList Gambar 4.2. Struktur data untuk master term list yang berupa HashMap Gambar 4.3 Capture screen antarmuka subsistem pengelompokan dokumen ()... 5 Gambar 4.4. Capture screen antarmuka subsistem pengelompokan dokumen (2) Gambar 4.5. Capture screen antarmuka subsistem pencarian dokumen Gambar 4.6. Implementasi antarmuka pengguna subsistem pencarian dokumen berbasis cluster Gambar 4.7. Implementasi antarmuka pengguna subsistem pencarian dokumen berbasis cluster Gambar 5.. Grafik interpolasi titik recall precision terhadap query data i i g pada Sistem Pemerolehan Informasi berbasis Cluster... 6 Gambar 5.2. Grafik interpolasi titik recall precision terhadap query data i i g pada Sistem Pemerolehan Informasi Konvensional Gambar 5.3. Grafik interpolasi titik recall precision terhadap query aï e ayes pada Sistem Pemerolehan Informasi berbasis Cluster Gambar 5.4. Grafik interpolasi titik recall precision terhadap query aï e ayes pada Sistem Pemerolehan Informasi Konvensional xii

13 Gambar 5.5. Grafik interpolasi titik recall precision terhadap query klasifikasi pada Sistem Pemerolehan Informasi berbasis Cluster Gambar 5.6. Grafik interpolasi titik recall precision terhadap query klasifikasi pada Sistem Pemerolehan Informasi Konvensional Gambar 5.7. Grafik interpolasi titik recall precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi er asis Cluster Gambar 5.8. Grafik interpolasi titik recall precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I formasi Konvensional Gambar 5.9. Grafik interpolasi titik recall precision terhadap query jari ga ko puter pada iste Pe eroleha I for asi er asis Cluster Gambar 5.0. Grafik interpolasi titik recall precision terhadap query jari ga ko puter pada iste Pe eroleha I for asi Ko e sio al Gambar 5.. Grafik interpolasi titik recall precision terhadap query aï e ayes pada Sistem Pemerolehan Informasi berbasis Cluster Gambar 5.2. Grafik interpolasi titik recall precision terhadap query data i i g menggunakan k- ea s pada iste Pe eroleha I for asi Ko e sio al Gambar 5.3. Grafik interpolasi titik recall precision terhadap query kesehata a usia pada iste Pe eroleha I for asi er asis Cluster Gambar 5.4. Grafik interpolasi titik recall precision terhadap query aï e ayes pada Sistem Pemerolehan Informasi Konvensional Gambar 5.5. Grafik interpolasi titik recall precision terhadap query diag osa pe yakit pada iste Pe eroleha I for asi er asis Cluster Gambar 5.6. Grafik interpolasi titik recall precision terhadap query diag osa pe yakit pada iste Pe eroleha I for asi Ko e sio al Gambar 5.7. Grafik interpolasi titik recall precision terhadap query t p udp pada Sistem Pemerolehan Informasi berbasis Cluster Gambar 5.8. Grafik interpolasi titik recall precision terhadap query t p udp pada Sistem Pemerolehan Informasi Konvensional Gambar 5.9. Grafik interpolasi titik recall precision terhadap query ireless pada Sistem Pemerolehan Informasi berbasis Cluster Gambar Grafik interpolasi titik recall precision terhadap query ireless pada Sistem Pemerolehan Informasi Konvensional Gambar 5.2. Grafik rerata interpolasi titik recall precision kedua jenis sistem Gambar 5.22 Grafik rerata waktu retrieval kedua jenis sistem () Gambar Grafik rerata waktu retrieval kedua jenis sistem (2) xiii

14 DAFTAR TABEL Tabel 2.. Tabel kombinasi awalan dan akhiran yang tidak diijinkan... 8 Ta el 2.2. Cara Me e tuka Tipe A ala U tuk a ala te Tabel 2.3. Awalan yang diijinkan dihapus berdasarkan Tipe Awalannya... 0 Tabel 2.4. Perancangan term document matrix... 0 Tabel 3.. Kebutuhan fungsional pengguna sistem Tabel 3.2. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Cluster Tabel 3.3. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Documents Tabel 3.4. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Centroid Tabel 3.5. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Term Tabel 3.6. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Term_Document Tabel 3.7. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Stopword_Ina Tabel 3.8. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Rootword_Ina Tabel 5.. Hasil pengelompokan dokumen yang dilakukan oleh sistem Tabel 5.2. Hasil penghitungan dokumen-dokumen yang sesuai dengan cluster yang ditempati Tabel 5.3. Hasil pencarian dengan query data i i g pada iste Pe eroleha Informasi berbasis Cluster Tabel 5.4. Penghitungan recall - precision terhadap query data i i g pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.5. Interpolasi titik recall precision terhadap query data i i g pada iste Pemerolehan Informasi berbasis Cluster... 6 Tabel 5.6. Hasil pencarian dengan query data i i g pada iste Pe eroleha Informasi Konvensional Tabel 5.7. Penghitungan recall - precision terhadap query data i i g pada iste Pemerolehan Informasi Konvensional Tabel 5.8. Interpolasi titik recall precision terhadap query data i i g pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.9. Hasil pencarian dengan query aï e ayes pada iste Pe eroleha Informasi berbasis Cluster Tabel 5.0. Penghitungan recall - precision terhadap query aï e ayes pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.. Interpolasi titik recall precision terhadap query aï e ayes pada iste Pemerolehan Informasi berbasis Cluster xiv

15 Tabel 5.2. Hasil pencarian dengan query aï e ayes pada iste Pe eroleha Informasi Konvensional Tabel 5.3. Penghitungan recall - precision terhadap query aï e ayes pada iste Pemerolehan Informasi Konvensional Tabel 5.4. Interpolasi titik recall precision terhadap query aï e ayes pada iste Pemerolehan Informasi Konvensional Tabel 5.5. Hasil pencarian dengan query klasifikasi pada iste Pe eroleha Informasi berbasis Cluster Tabel 5.6. Penghitungan recall - precision terhadap query klasifikasi pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.7. Interpolasi titik recall precision terhadap query klasifikasi pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.8. Hasil pencarian dengan query klasifikasi pada iste Pe eroleha Informasi Konvensional... 7 Tabel 5.9. Penghitungan recall - precision terhadap query klasifikasi pada iste Pemerolehan Informasi Konvensional Tabel Interpolasi titik recall precision terhadap query klasifikasi pada Sistem Pemerolehan Informasi Konvensional Tabel 5.2. Hasil pencarian dengan query siste pe duku g keputusa pada iste Pemerolehan Informasi berbasis Cluster Tabel Penghitungan recall - precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi er asis Cluster Tabel Interpolasi titik recall precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi er asis Cluster Tabel Hasil pencarian dengan query siste pe duku g keputusa pada iste Pemerolehan Informasi Konvensional Tabel Penghitungan recall - precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi Ko e sio al Tabel Interpolasi titik recall precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi Ko e sio al Tabel Hasil pencarian dengan query jari ga ko puter pada iste Pemerolehan Informasi berbasis Cluster Tabel Penghitungan recall - precision terhadap query jari ga ko puter pada Sistem Pemerolehan Informasi berbasis Cluster Tabel Interpolasi titik recall precision terhadap query jari ga ko puter pada Sistem Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query jari ga ko puter pada iste Pemerolehan Informasi berbasis Cluster... 8 Tabel 5.3. Penghitungan recall - precision terhadap query jari ga ko puter pada Sistem Pemerolehan Informasi Konvensional... 8 Tabel Interpolasi titik recall precision terhadap query jari ga ko puter pada Sistem Pemerolehan Informasi Konvensional Tabel Hasil pencarian dengan query data i i g e ggu aka k- ea s pada Sistem Pemerolehan Informasi berbasis Cluster xv

16 Tabel Penghitungan recall - precision terhadap query data i i g e ggu aka kea s pada iste Pe eroleha I for asi erbasis Cluster Tabel Interpolasi titik recall precision terhadap query data i i g menggunakan k- ea s pada iste Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query data i i g e ggu aka k- ea s pada Sistem Pemerolehan Informasi Konvensional Tabel Penghitungan recall - precision terhadap query data i i g e ggu aka kmeans pada iste Pe eroleha I for asi Ko e sio al Tabel Interpolasi titik recall precision terhadap query data i i g menggunakan k- ea s pada iste Pe eroleha I for asi Ko e sio al Tabel Hasil pencarian dengan query kesehata a usia pada iste Pemerolehan Informasi berbasis Cluster Tabel Penghitungan recall - precision terhadap query kesehata a usia pada Sistem Pemerolehan Informasi berbasis Cluster Tabel 5.4. Interpolasi titik recall precision terhadap query kesehata a usia pada Sistem Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query kesehata a usia pada iste Pemerolehan Informasi Konvensional Tabel Penghitungan recall - precision terhadap query kesehata a usia pada Sistem Pemerolehan Informasi Konvensional Tabel Interpolasi titik recall precision terhadap query aï e ayes pada iste Pemerolehan Informasi Konvensional Tabel Hasil pencarian dengan query diag osa pe yakit pada iste Pe eroleha Informasi berbasis Cluster Tabel Penghitungan recall - precision terhadap query diag osa pe yakit pada Sistem Pemerolehan Informasi berbasis Cluster... 9 Tabel Interpolasi titik recall precision terhadap query diag osa pe yakit pada Sistem Pemerolehan Informasi berbasis Cluster... 9 Tabel Hasil pencarian dengan query diag osa pe yakit pada iste Pe eroleha Informasi Konvensional Tabel Penghitungan recall - precision terhadap query diag osa pe yakit pada Sistem Pemerolehan Informasi Konvensional Tabel Interpolasi titik recall precision terhadap query diag osa pe yakit pada Sistem Pemerolehan Informasi Konvensional Tabel 5.5. Hasil pencarian dengan query t p udp pada iste Pe eroleha I for asi berbasis Cluster Tabel Penghitungan recall - precision terhadap query t p udp pada iste Pemerolehan Informasi berbasis Cluster Tabel Interpolasi titik recall precision terhadap query t p udp pada iste Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query t p udp pada iste Pe eroleha I for asi Konvensional Tabel Penghitungan recall - precision terhadap query t p udp pada iste Pemerolehan Informasi Konvensional xvi

17 Tabel Interpolasi titik recall precision terhadap query t p udp pada iste Pemerolehan Informasi Konvensional Tabel Hasil pencarian dengan query ireless pada iste Pe eroleha I for asi berbasis Cluster Tabel Penghitungan recall - precision terhadap query ireless pada iste Pemerolehan Informasi berbasis Cluster Tabel Interpolasi titik recall precision terhadap query ireless pada iste Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query ireless pada iste Pe eroleha I for asi Konvensional... 0 Tabel 5.6. Penghitungan recall - precision terhadap query ireless pada iste Pemerolehan Informasi Konvensional... 0 Tabel Interpolasi titik recall precision terhadap query ireless pada iste Pemerolehan Informasi Konvensional... 0 Tabel Interpolasi titik recall precision dari pengujian dengan 0 query pencarian dengan menggunakan Sistem Pemerolehan Informasi berbasis Cluster Tabel Interpolasi titik recall precision dari pengujian dengan 0 query pencarian dengan menggunakan Sistem Pemerolehan Informasi Konvensional Tabel Rata-rata interpolasi titik recall precision dari pengujian dengan 0 query pencarian dari kedua sistem Tabel Hasil penghitungan rerata waktu eksekusi dalam satuan detik dari kedua sistem xvii

18 DAFTAR PERSAMAAN Persamaan 2.. Rumus pembobotan TF-IDF (Savoy, 993)... Persamaan 2.2. Rumus penghitungan skor dan perankingan dokumen terhadap query 2 Persamaan 2.3. Rumus penghitungan nilai recall (Manning et al, 2008)... 2 Persamaan 2.4. Rumus penghitungan nilai precision (Manning et al, 2008)... 2 Persamaan 2.5. Rumus Uji Statistik Anderson Darling... 6 Persamaan 2.6. Rumus Uji Statistik Anderson Darling... 7 Persamaan 2.7. Rumus mencari anak cluster (Hamerly et al., 2004)... 7 Persamaan 2.8. Rumus proyeksi vektor-vektor di X ke vektor v... 7 Persamaan 2.9. Rumus penghitungan nilai purity... 8 Persamaan 3.. Rumus penghitungan normalisasi z-score pada suatu data xviii

19 ABSTRAK Dalam kurun waktu terakhir, pertambahan jumlah dokumen karya ilmiah berbahasa Indonesia meningkat sangat pesat. Tanpa ada pengubahan dalam sistem pemerolehan informasi, volume data yang meningkat dapat mengakibatkan turunnya performa sistem pemerolehan informasi, terutama dalam hal waktu retrieval. Salah satu metode yang diusulkan untuk mempersingkat waktu retrieval adalah pengelompokan koleksi. Dalam tugas akhir ini, G-Means dipilih sebagai algoritma pemodelan cluster. Keuntungan implementasi G-Means adalah kemampuan algoritma ini untuk memilih jumlah cluster yang paling optimal. Hasil pengelompokan koleksi kemudian diuji dalam lingkungan sistem pemerolehan informasi untuk melihat seberapa baik pengelompokan koleksi dalam mempersingkat waktu retrieval, dan seberapa besar pengaruhnya terhadap precision. Data yang digunakan adalah karya ilmiah berbahasa Indonesia sebanyak 00 karya. Dari hasil pengujian, ditemukan bahwa waktu retrieval lebih singkat hingga 6,3%, dengan rerata waktu retrieval sebesar 2,88 detik dan precision sebesar 47%. Kata Kunci:pemerolehan informasi, clustering, g-means, dokumen karya ilmiah xix

20 ABSTRACT In recent years, Indonesian-written scientific papers grow significantly in term of number. Without any improvement in information retrieval systems, increasing data volume could lead to poor system performance, especially in its retrieval time. One proposed method to improve retrieval time is collection clustering. GMeans was chosen for cluster modeling algorithm, as it can determine number of generated clusters automatically. Clustering collection results are tested in information retrieval system to find how significant clustering can reduce retrieval time, and whether it has impact to system s average precision. We use 00 Indonesian scientific papers as collection. Based from the results, retrieval time gain 6.3% faster, with average retrieval time is about 2,88 seconds and average precision is about 47%. Keyword: information retrieval, clustering, g-means, scientific paper xx

21

22 KATA PENGANTAR Puji dan Syukur saya panjatkan kepada Tuhan Yang Maha Esa, atas berkat dan kuasa-nya yang diberikan sehingga penelitian ini dapat berhasil dan selesai. Penelitian ini tidak mungkin diselesaikan tanpa adanya keterlibatan dan dukungan dari banyak pihak. Dalam penyelesaian penelitian ini, saya ingin mengucapkan terima kasih sebesar-besarnya kepada pihak-pihak tersebut, antara lain :. Bapak Sudi Mungkasi, S.Si, M.Sc.Math., Ph.D. selaku dekan Fakultas Sains dan Teknologi, Universitas Sanata Dharma. 2. Ibu Dr. Anastasia Rita Widiarti selaku Ketua Program Studi Teknik Informatika, Universitas Sanata Dharma 3. Bapak J.B. Budi Darmawan, M.Sc. selaku dosen pembimbing penelitian. Beliau memberikan banyak masukan dan saran serta pembelajaran yang amat sangat berharga dalam penelitian ini. 4. Bapak Puspaningtyas Sanjoyo Adi, S.T., M.T., selaku dosen penguji skripsi, atas saran dan kritik yang diberikan untuk menunjang skripsi ini. 5. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku dosen penguji skripsi, atas saran dan kritik yang diberikan untuk menunjang skripsi ini. 6. Keluarga yang tercinta, Bapak, Mikael Santosa, Ibu, Fransiska Tasri Aryani, dan Adik, Philipus Agri Adhiatma yang selalu memberi dukungan terbaik dan kasih sayang. 7. Adika Dwi Ananda Putra (Dika), yang telah berbaik hati meminjami unit komputer untuk menyelesaikan penelitian ini. 8. Seluruh teman-teman Teknik Informatika angkatan 202 yang sangat suportif. xxii

23

24 BAB I PENDAHULUAN.. Latar Belakang Jumlah publikasi karya ilmiah dari Indonesia terus bertambah dari tahun ke tahun. Dari tahun 20 hingga 206, prosiding KNSI menampung 590 karya ilmiah, SRITI menampung 5 karya ilmiah pada tahun 206. Sementara itu, terdapat 0 karya ilmiah dipublikasikan di JUTI, jurnal teknologi informasi ITS, sejak 200 hingga 206 dan 5 karya ilmiah pada JURTEK Akprind dari tahun 204 hingga 206. Jumlah karya ilmiah yang tidak termasuk dalam publikasi tersebut tentunya jauh lebih besar lagi. Dengan pertambahan jumlah karya ilmiah yang tersebut, permasalahan yang muncul berasal dari besarnya volume data yang ada. semakin besar suatu koleksi dokumen, maka proses pemerolehan informasi cenderung makin membutuhkan waktu yang lebih banyak (Grossman et al., 2004). Untuk itu, diperlukan pengembangan dalam sistem pemerolehan informasi. Salah satu pengembangan yang dapat dilakukan antara lain dengan mengelompokkan koleksi dokumen yang ada. Antar dokumen dalam satu kelompok memiliki kemiripan yang semirip-miripnya, dan antar dokumen dalam kelompok yang berbeda memiliki ketidakmiripan yang sejauh-jauhnya. Sehingga sistem tidak membutuhkan waktu eksekusi yang lama, karena tiap koleksi sudah dibagi menjadi kelompok-kelompok yang seragam, atau yang disebut juga dengan cluster.

25 Tiap cluster direpresentasikan dengan satu centroid. Pengelompokan akan dilakukan dengan algoritma G-Means. Keuntungan menggunakan algoritma GMeans adalah selain melakukan pengelompokan, algoritma ini juga dapat menghitung jumlah cluster yang optimum dengan melihat apakah suatu cluster sudah terdistribusi normal atau belum. Setelah terbentuk kelompok-kelompok dokumen, maka tiap query dari user akan dicocokan dengan centroid tiap cluster saja. Kluster yang memiliki skor paling tinggi dengan query pencarian akan dicatat, lalu isi dari cluster itulah yang akan diberikan skor terhadap query dari pengguna, lalu kemudian ditampilkan..2. Rumusan Masalah. Bagaimana hasil dan kualitas cluster yang dihasilkan dari proses pengelompokan dokumen oleh sistem? 2. Bagaimana pengaruh pengelompokan dokumen dalam sistem pemerolehan informasi berbasis cluster terhadap waktu retrieval dan dampaknya terhadap precision?.3. Tujuan Penelitian. Mengetahui hasil evaluasi dan kualitas cluster yang dihasilkan dari proses pengelompokan dokumen oleh sistem. 2

26 2. Mengetahui seberapa baik sistem pemerolehan informasi berbasis cluster dalam menurunkan waktu retrieval, dan seberapa besar pengaruhnya terhadap precision..4. Batasan Masalah. Dokumen yang digunakan sebagai korpus adalah karya ilmiah dalam bentuk digital yang diambil dari prosiding berbagai seminar. 2. Dokumen yang digunakan sebagai korpus adalah dokumen yang menggunakan bahasa Indonesia. 3. Dokumen yang digunakan sebagai korpus untuk penelitian ini diambil secara acak. 4. Dokumen digital yang digunakan sebagai korpus dalam penelitian ini telah diubah menjadi format TXT. 5. Pengelompokan dokumen dalam karya tulis ini tidak menggunakan data training..5. Metodologi Penelitian Langkah-langkah metodologi penelitian yang dilakukan dalam penelitian ini adalah sebagai berikut :. Studi Pustaka Studi pustaka dilakukan untuk mengumpulkan teori-teori yang mendukung penelitian ini. Teori tersebut antara lain mengenai pemerolehan informasi (information retrieval), clustering dokumen dengan menggunakan G-Means, dan informasi lain yang mendukung implementasian pemerolehan informasi berbasis cluster ini. 3

27 2. Pembangunan Sistem Pemerolehan Informasi berbasis Cluster Pembangunan sistem pemerolehan informasi berbasis cluster ini menggunakan metode Framework for the Application System Technique (FAST) dengan tahap sebagai berikut: a. Analisis Sistem ) Analisis Masalah Hal yang dilakukan dalam tahap ini adalah analisis masalah yang dapat dipecahkan dengan pembangunan sistem. 2) Analisis Kebutuhan Hal yang dilakukan dalam tahap ini adalah identifikasi kebutuhan sistem dengan mengumpulkan data kebutuhan pengguna sistem yang kemudian dimodelkan dalam diagram Use Case. b. Desain Sistem ) Logical Design Hal yang dilakukan dalam tahap ini adalah penggambaran model data, proses dan antarmuka dalam bentuk logical. 2) Physical Design and Integration Implementasi secara teknis dengan pembuatan desain antarmuka pengguna secara fisik dan desain basis data apabila diperlukan. 3) Construction and Testing Pengembangan rancangan ke dalam program dengan menggunakan bahasa pemrograman Java, dan MySQL sebagai pengelola basis datanya. 3. Uji Coba Relevansi terhadap Pengguna Uji coba terhadap pengguna dilakukan untuk melihat unjuk kerja sistem yang telah dibangun. Parameter yang diberikan adalah tingkat relevansi untuk 4

28 uji relevansi. Hasil dari uji coba ini akan menjadi sumber data untuk analisis hasil uji coba. 4. Analisis Hasil Uji Coba Relevansi Analisis hasil uji coba dilakukan dengan melihat data yang didapatkan dari uji coba pengguna. Tujuan dari analisis ini adalah untuk mendapatkan kesimpulan dari tujuan penelitian..6. Sistematika Penulisan. BAB I : PENDAHULUAN Berisi pendahuluan berupa permasalahan yang melatarbelakangi penelitian ini, tujuan dari penelitian ini, batasan-batasan yang ada dalam penelitian, serta sistematika dokumen proposal ini. 2. BAB II : TINJAUAN PUSTAKA Berisi jabaran konsep dan hasil penelitian dari peneliti lain yang berkaitan dengan penelitian ini. Isinya antara lain konsep dasar pemerolehan informasi, stemming, eliminasi stopword, term weighting, evaluasi hasil pemerolehan informasi, serta konsep dasar pengelompokan teks, dan algoritma G-Means untuk pemodelan data dan pemilihan jumlah cluster optimum. 3. BAB III : ANALISIS DAN PERANCANGAN Bab ini berisi gambaran umum dari sistem yang akan dibangun, analisis kebutuhan sistem dan rancangan basis data untuk sistem tersebut. 4. BAB IV : IMPLEMENTASI Bab ini berisi jabaran dari implementasi pemodelan G-Means dalam bahasa pemrograman Java. 5

29 5. BAB V : ANALISIS HASIL PENELITIAN Bab ini berisi hasil pengujian sistem, serta pembahasan dari hasil pengujian tersebut. 6. DAFTAR PUSTAKA Berisi referensi pustaka yang digunakan dalam penulisan karya ilmiah ini. 7. LAMPIRAN Lampiran lain apabila diperlukan. 6

30 BAB II LANDASAN TEORI 2.. Konsep Pemerolehan Informasi Pemerolehan informasi (Information Retrieval) adalah kumpulan berbagai algoritma dan teknologi untuk melakukan pemrosesan, penyimpanan, dan temu kembali informasi pada suatu koleksi data yang besar dan tidak terstruktur (Manning et al, 2008). Jenis informasi tersebut beragam, bisa berupa teks dokumen, halaman web, maupun objek multimedia seperti foto dan video Operasi Teks 2... Stopword Stopword adalah suatu kata yang sangat sering muncul dalam berbagai dokumen adalah diskriminator yang buruk dan tidak berguna dalam temu kembali informasi. Stopword perlu dieliminasi untuk mengurangi waktu eksekusi query dengan cara menghindari proses list yang panjang (Butcher et al., 200). Pembuangan stopword ini akan mengurangi ukuran indeks, meningkatkan efisiensi dan keefektifan dari pemerolehan informasi (Croft et al., 200). Contoh stopword dalam bahasa Indonesia, yaitu kata ganti orang ( aku, kamu, kita, dsb.), konjungsi ( dan, atau, dsb.), dan beberapa kata lainnya Stemming Stemming adalah proses pengenalan suatu kata. Stemming sering melibatkan pemisahan kata dari imbuhan dan tanda baca (Göker et al, 2009). Menurut Agusta (200), pola suatu kata dalam bahasa Indonesia adalah sebagai berikut : Prefiks I + Prefiks II + kata dasar + Sufiks III + Sufiks II + Sufiks I 7

31 Algoritma Nazief Adriani sebagai Algoritma Stemming Algoritma Stemming Nazief Adriani diperkenalkan oleh Nazief dan Adriani (996). Algoritma ini memiliki tahap-tahap sebagai berikut ini :. Cari kata yang akan diistem dalam basis data kata dasar. Jika ditemukan maka diasumsikan kata adalah root word. Maka algoritma berhenti. 2. Selanjutnya adalah pembuangan Inflection Suffixes ( -lah, -kah, -ku, mu, atau -nya ). Jika berupa particles ( -lah, -kah, -tah atau -pun ) dan terdapat Possesive Pronouns ( -ku, -mu, atau -nya ), maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns. 3. Hapus Derivation Suffixes ( -i, -an atau -kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a berikut ini : a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an atau -kan ) dikembalikan, lanjut ke langkah Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan pada Tabel 2.. Jika ditemukan maka algoritma berhenti, jika tidak, pergi ke langkah 4b. Tabel kombinasi awalan-akhiran yang tidak diijinkan ditampilkan pada tabel berikut ini : Awalan bedikemese- Akhiran yang tidak diizinkan -i -an -i, -kan -an -i, -kan Tabel 2.. Tabel kombinasi awalan dan akhiran yang tidak diijinkan b. Tentukan tipe awalan kemudian hapus awalan. Jika awalan kedua sama dengan awalan pertama algoritma berhenti. 8

32 c. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti.. 5. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Tipe awalan ditentukan melalui langkah-langkah berikut:. Jika awalannya adalah: di-, ke-, atau se- maka tipe awalannya secara berturut-turut adalah di-, ke-, atau se-. 2. Jika awalannya adalah te-, me-, be-, atau pe- maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya. 3. Jika dua karakter pertama bukan di-, ke-, se-, te-, be-, me-, atau pe- maka berhenti. 4. Dengan melihat Tabel 2.2, jika tipe awalan adalah none maka berhenti. Jika tipe awalan adalah bukan none maka awalan dapat dilihat pada Tabel 2.4. Hapus awalan jika ditemukan. Tipe-tipe awalan dapat dilihat dalam tabel berikut ini : Karakter huruf setelah awalan Set Set 2 -r- -r- -r- -r- -r- not (vowel or -r- ) not (vowel or -r- ) Set 3 -r- not (vowel or -r- ) -er- not (vowel or -r- ) -er- not (vowel or -r- ) not -er- -er- vowel -er- not vowel Tipe awalan Set 4 vowel not vowel None ter-luluh Ter terter None Te Tabel 2.2. Cara Menentukan Tipe Awalan Untuk awalan te- Awalan yang diijinkan dihapus berdasarkan tipe awalannya ditunjukkan pada tabel berikut ini : Tipe Awalan Awalan yang harus dihapus didikekesesetete- 9

33 terter-luluh terter Tabel 2.3. Awalan yang diijinkan dihapus berdasarkan Tipe Awalannya Tokenisasi Tokenisasi adalah proses pemisahan kata dari kumpulannya, sehingga menghasilkan suatu kata yang berdiri sendiri, baik dalam bentuk perulangan maupun tunggal. Proses ini juga akan menghilangkan tanda baca maupun karakter yang ada pada kata tersebut dan semua huruf menjadi huruf kecil. (Manning et al, 2008). Contoh dari input dan output dari tokenisasi adalah sebagai berikut : Input : Suatu deret angka genap Output : suatu, deret, angka, genap Term-Document Matrix Term-document matrix adalah matriks yang memperlihatkan frekuensi kemunculan suatu term didalam suatu dokumen. Dalam term-document matrix, baris-baris menunjukkan term dalam suatu koleksi dan kolom menunjukkan dokumen. (Manning et al, 2008). Contoh perancangan matriks term-document diperlihatkan seperti berikut ini : doc doc 2 doc 3 doc 4 doc 5 doc 6 term term term term term term Tabel 2.4. Perancangan term document matrix Sehingga matriks term-documentnya (matriks M) akan menjadi seperti berikut ini : 0

34 [ ] Gambar 2.. Visualisasi term-document matrix TF-IDF sebagai Metode Pembobotan Terms Frequency Inverse Documents Frequency (TF-IDF) adalah skema pembobotan term yang paling populer dalam ranah pemerolehan informasi (Baeza Yates, 999). Rumus pembobotan TF-IDF menurut Savoy (993) adalah sebagai berikut : Persamaan 2.. Rumus pembobotan TF-IDF (Savoy, 993) Dimana,, dan Keterangan : w = bobot term (Tj) pada dokumen Di tfij = frekuensi kemunculan term (Tj) pada dokumen Di m = jumlah dokumen Di pada kumpulan dokumen dfj = jumlah dokumen yang mengandung term (Tj) idfj = invers frekuensi dokumen (inverse document frequency) max tfi = frekuensi term terbesar dalam suatu dokumen Dari penghitungan nilai TF-IDF ini, scoring atau penilaian terhadap query didefinisikan sebagai berikut (Manning et al, 2008) :

35 Persamaan 2.2. Rumus penghitungan skor dan perankingan dokumen terhadap query Evaluasi Pemerolehan Informasi Pengukuran hasil relevansi dapat dilakukan dengan penghitungan recall dan precision. Recall digunakan untuk mengukur seberapa baik suatu sistem melakukan pencarian terhadap dokumen yang relevan terhadap suatu query pengguna. Sementara itu, precision digunakan untuk melihat seberapa baik sistem pemerolehan informasi mengeliminasi dokumen yang tidak relevan (Croft et al., 200). Rumus dari recall dan precision adalah sebagai berikut (Manning et al, 2008) : Persamaan 2.3. Rumus penghitungan nilai recall (Manning et al, 2008) Persamaan 2.4. Rumus penghitungan nilai precision (Manning et al, 2008) 2.2. Konsep Pengelompokan Dokumen Clustering dalam Pemerolehan Informasi Algoritma clustering mengelompokan sekumpulan dokumen ke dalam suatu subset atau cluster. Tujuan algoritma clustering dalam pemerolehan informasi bertujuan untuk mengelompokan sekumpulan dokumen yang koheren secara internal, namun memiliki perbedaan jauh dengan dokumen dari cluster yang lain. Dengan kata lain, antar dokumen di dalam satu cluster yang sama seharusnya memiliki tingkat kemiripan yang tinggi, dan antar dokumen di dalam 2

36 cluster yang berbeda seharusnya memiliki tingkat perbedaan yang setinggitingginya (Manning et al, 2008) Hipotesis Cluster Hipotesis cluster berisi tentang asumsi dasar yang dibuat ketika menerapkan clustering dalam pemerolehan informasi. Hipotesis cluster menyebutkan bahwa dokumen dalam cluster yang sama akan memiliki keidentikan sifat, berkenaan dengan relevansi terhadap kebutuhan informasi (Manning et al, 2008) K-Means K-Means adalah salah satu algoritma flat clustering yang paling penting (Manning et al, 2008). Tujuan K-Means adalah meminimalkan rata-rata kuadrat jarak Euclidean dokumen terhadap centroid (pusat cluster) dokumen tersebut (Manning et al, 2008). Algoritma k-means ditunjukkan dalam gambar berikut ini : Gambar 2.2. Pseudocode algoritma K-Means (Manning et al, 2008) Dalam bukunya, Manning (2008) menjabarkan langkah dari algoritma KMeans. Pertama-tama, dilakukan pemilihan pusat cluster K secara acak dari dokumen yang ada. Terjadi proses iteratif dimana pusat cluster bergerak terus 3

37 untuk meminimalkan RSS (residual sum of squares). Setelah itu, tiap dokumen ditempatkan pada cluster yang memiliki centroid terdekat dengan dokumen tersebut. Proses kembali lagi ke iterasi pergerakan pusat cluster. Visualisasi proses yang terjadi dalam k-means ditampilkan dalam gambar berikut ini : Gambar 2.3. Visualisasi proses yang terjadi dalam algoritma K-Means (Manning et al, 2008) 4

38 Ada beberapa cara penghentian iterasi, antara lain : Banyak iterasi I yang telah ditetapkan sebelumnya. Ketika iterasi telah mencapai langkah ke-i, maka proses akan berhenti. Penempatan dokumen dalam suatu cluster (fungsi partisi γ) tidak berubahubah lagi. Centroid µ k tidak berubah lagi. Hal ini sama dengan γ tidak berubah. Berhenti ketika nilai RSS dibawah batas yang ditentukan G-Means Algoritma G-Means diperkenalkan oleh Greg Hamerly dan Charles Elkan dari University of California pada tahun G-Means adalah algoritma pengembangan dari K-Means yang memiliki fitur penghitungan jumlah cluster yang optimum dengan menggunakan uji statistik untuk memutuskan apakah suatu pusat cluster perlu dipecah menjadi dua pusat cluster (Hamerly et al., 2004). Algoritma G-Means akan dimuai dari jumlah pusat cluster yang kecil, misalnya satu atau dua. Tiap iterasi dimulai dengan pengelompokan data menggunakan K-Means seperti biasa untuk mendapatkan himpunan anggota tiap cluster, selanjutnya algoritma ini akan memecah pusat cluster menjadi dua apabila suatu cluster nampak tidak terdistribusi normal. Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 000 point ditampilkan dalam gambar berikut ini : Gambar 2.4. Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 000 point. Algoritma GMeans mencoba mencari normalitas dalam sebaran titik pada suatu cluster (Hamerly et al., 2004) 5

39 Algoritma G-Means dapat dilihat sebagai berikut (Hamerly et al., 2004) :. Pilih C sebagai sekumpulan pusat cluster (centroid) awal 2. Lakukan K-Means pada dataset X dengan C sebagai pusat-pusat clusternya. 3. xi adalah sekumpulan datapoint yang menjadi member centroid cj, dimana { xi class(xi) = j 4. Gunakan uji statistik untuk melihat apakah tiap { xi class(xi) = j mengikuti distribusi normal (pada suatu confidence level α). 5. Jika data terlihat terdistribusi normal, maka cj tidak berubah. Namun jika sebaliknya, maka cj diganti menjadi dua pusat cluster 6. Ulangi langkah no. 2 hingga tidak ada lagi pusat cluster yang ditambahkan. Terdapat dua hipotesis dalam uji statistik pada no. 4, yaitu sebagai berikut (Hamerly et al., 2004) : H0 : data disekitar pusat cluster terdistribusi normal H : data disekitar pusat cluster tidak terdistribusi normal Jika H0 diterima, maka pusat cluster tidak perlu dipisah lagi menjadi dua. Sementara itu, jika H diterima, maka pusat cluster harus dipecah menjadi dua. Uji statistik yang digunakan adalah adalah uji Anderson-Darling, dengan formula sebagai berikut : Persamaan 2.5. Rumus Uji Statistik Anderson Darling dengan : 6

40 [ Persamaan 2.6. Rumus Uji Statistik Anderson Darling X adalah subset dengan pusat cluster C. Tiap instance dari X diwakili dengan xi, xi+,, xn-, xn. Sementara itu, zi adalah hasil dari fungsi distribusi kumulatif untuk distribusi normal baku terhadap nilai xi. Untuk melakukan uji statistik diatas, dilakukan langkah seperti berikut ini (Hamerly et al., 2004) :. Ambil suatu subset X 2. Pilih level signifikan α untuk uji. 3. Dari pusat cluster tersebut, ambil dua buah anak pusat cluster, dinotasikan dengan c dan c2. Caranya dengan menggunakan rumus c±m, dimana m adalah random atau dengan rumus berikut : Persamaan 2.7. Rumus mencari anak cluster (Hamerly et al., 2004) Dimana, m = vector anak s = eigenvalue terbesar yang didapat dari data λ = principal component utama, yaitu eigenvector dengan eigenvalue terbesar 4. Jalankan K-Means pada X dengan dua centroid tersebut (c dan c2). 5. Hitung nilai vektor v dengan v = c c2. 6. Proyeksikan X ke v, menjadi X, dengan rumus sebagai berikut Persamaan 2.8. Rumus proyeksi vektor-vektor di X ke vektor v 7. Normalisasi X` sehingga memiliki rerata 0 dan varian. 7

41 8. Hitung zi dengan rumus zi = F(xi). 9. Hitung. Apabila diterima. Sebaliknya apabila berada pada daerah non-kritis, maka H0 berada di dalam daerah kritis, maka H diterima dan pusat cluster yang baru adalah c dan c Evaluasi Cluster Purity Purity adalah salah satu pengukuran dalam evaluasi cluster. Untuk menghitung purity, tiap cluster diberikan label kelas berdasarkan label yang paling sering muncul dalam cluster tersebut, dan kemudian akurasi cluster dihitung dengan jumlah data yang benar dibagi dengan banyak data (Chen, 200). Rentang purity dari 0 hingga. Semakin besar nilai purity, semakin baik cluster tersebut. Formula purity adalah sebagai berikut (Chen, 200) : Persamaan 2.9. Rumus penghitungan nilai purity 8

42 BAB III ANALISIS DAN PERANCANGAN SISTEM 3.. Analisis Sistem 3... Deskripsi Sistem Sistem yang akan dikembangkan dalam penelitian ini adalah sebuah sistem pengelompokan koleksi dan pencarian dokumen berdasarkan input query pengguna. Sistem ini terdiri dari dua sub sistem, yaitu sub sistem pengelompokan dokumen dan sub sistem pencarian dokumen Sub Sistem Pengelompokan Dokumen Sub sistem pengelompokan dokumen bertindak sebagai modul clustering dokumen. Nantinya koleksi dokumen yang diunggah oleh User ke dalam sistem mula-mula diproses oleh subsistem ini. Proses yang terjadi adalah tokenisasi, eliminasi stopword, stemming, lalu dilanjutkan dengan pembangunan termdocument matrix. Dalam penelitian ini, kolom dalam term-document matrix akan merepresentasikan term, selanjutnya disebut atribut atau feature. Sementara baris dalam term-document matrix akan merepresentasikan dokumen. Dari termdocument matrix inilah akan dilakukan pengelompokan koleksi. Jumlah cluster optimum akan dicari secara otomatis oleh sistem menggunakan algoritma G-Means, yaitu pemodelan cluster dengan memperhitungkan kenormalan distribusi dari tiap anggota cluster terhadap pusatnya masing-masing. Dari situ, dapat diketahui berapa jumlah cluster yang optimum. 9

43 Normalitas distribusi tiap cluster akan dihitung dengan menggunakan test statistik, dimana akan digunakan uji Anderson-Darling untuk menentukan apakah cluster sudah terdistribusi normal atau belum. Apabila suatu cluster belum terdistribusi normal, maka suatu cluster akan dipecah menjadi dua, dan seterusnya hingga terdistribusi normal. Alur subsistem ini ditunjukkan dalam gambar berikut ini : Pengklusteran Dokumen Input dokumen karya ilmiah Operasi tokenizing Feature selection Operasi stopword Operasi stemming Penghitungan tf, df dan w Pembangunan term-document matrix Implementasi G-Means untuk pemodelan cluster Simpan data cluster dan membernya, serta centroidnya Gambar 3.. Alur proses pengklusteran dokumen 20

44 3... Clustering dengan G-Means Penggunaan algoritma G-Means serta parameter-parameter yang digunakan dalam penelitian ini adalah sebagai berikut :. Ambil suatu subset X Subset X pada saat ini adalah seluruh dataset yang ada. Dataset ini dianggap sebagai satu cluster. Karena hanya terdapat satu cluster saja, centroid dari cluster ini adalah rerata dari tiap atribut dari dataset tersebut. 2. Pilih level signifikan α untuk uji. Level signifikan α dalam penelitian ini diinisalisasi dengan nilai Nilai ini nantinya akan dibandingkan dengan p-value dari hasil penghitungan uji statistik Anderson Darling. 3. Dari pusat cluster (centroid) yang dibentuk pada point tadi, ambil dua buah anak pusat cluster, dinotasikan dengan c dan c2. Caranya dengan menggunakan rumus pada Persamaan Jalankan K-Means pada X dengan dua centroid tersebut (c dan c2). K-Means dilakukan pada cluster yang diobservasi. Parameter jumlah cluster (k) memiliki nilai 2, dan seed untuk centroid awal adalah c dan c2. Kriteria penghentian iterasi dalam tahap ini adalah sebagai berikut : a. Jumlah iterasi telah melewati batas iterasi yang ditentukan, yaitu 000 kali iterasi, atau, b. Salah satu cluster kehilangan seluruh anggotanya (empty cluster), atau, c. Cluster sudah konvergen, ditandai dengan centroid dan anggota cluster tidak mengalami perubahan. Dengan kata lain, memiliki nilai dan jumlah yang sama dengan iterasi sebelumnya. 5. Hitung nilai vektor v dengan v = c c2. 2

45 6. Proyeksikan X ke v, menjadi X, dengan rumus pada Persamaan Normalisasi X` sehingga memiliki rerata 0 dan varian. Normalisasi untuk mengubah X sehingga memiliki rerata 0 dan varian dilakukan dengan menggunakan normalisasi z-score, yaitu normalisasi dengan rumus berikut ini : Persamaan 3.. Rumus penghitungan normalisasi z-score pada suatu data Dimana, - si = nilai normalisasi di titik data ke i dalam suatu atribut - xi = nilai awal data di titik data ke i dalam suatu atribut - µ - = nilai atribut dari atribut dimana terdapat data i = nilai standar deviasi dari atribut dimana terdapat data i 8. Hitung zi dengan rumus zi = F(xi). Penghitungan Cummulative Distribution Function (CDF) menggunakan java library yang dikhususkan untuk statistika, yaitu jdistlib. 9. Hitung. Apabila diterima. Sebaliknya apabila berada pada daerah non-kritis, maka H0 berada di dalam daerah kritis, maka H diterima dan pusat cluster yang baru adalah c dan c2. Penghitungan p-value akan digunakan untuk mengetahui apakah nilai berada pada daerah kritis atau non-kritis. Penghitungan p-value dilakukan dengan java library yang dikhususkan untuk statistika, yaitu jdistlib. Apabila nilai p-value lebih besar sama dengan nilai α, maka H0 diterima, yang artinya cluster tidak perlu dipecah menjadi dua cluster. Begitu pula sebaliknya, maka H diterima, yang artinya cluster perlu dipecah menjadi dua cluster. 22

46 Sub Sistem Pencarian Dokumen Sub sistem pencarian dokumen berfungsi untuk mencari dokumen yang memiliki kemiripan atau relevan dengan query yang diberikan oleh pengguna sistem. Query hanya akan dicocokkan dengan centroid tiap cluster dengan menggunakan operator boolean AND, dengan menggunakan Persamaan 2.2 untuk menghitung skor. Cluster yang memiliki centroid dengan skor yang tertinggi terhadap query pencarian user akan dicatat oleh sistem. Apabila tidak ada kecocokan dengan semua centroid, maka dicoba pencocokan dengan menggunakan operator OR. Apabila sudah ditemukan cluster yang sesuai, dokumen yang berada dalam cluster tersebut akan dibobot ulang oleh sistem menggunakan TF-IDF untuk kemudian ditampilkan urut ke pengguna berdasarkan bobot terhadap query yang diberikan oleh pengguna. Jumlah dokumen untuk penghitungan IDF didasarkan pada jumlah dokumen yang berada pada cluster terpilih. Aktor yang terlibat dalam sistem ini adalah User. User adalah aktor yang memiliki wewenang untuk melakukan pencarian dokumen dengan memberikan input berupa query pencarian pada sistem. Selain itu, user memiliki wewenang untuk memulai proses clustering dokumen. Alur subsistem ini ditampilkan dalam gambar berikut : 23

47 Pencarian Input query pencarian Operasi tokenizing Operasi stopword Operasi stemming Penghitungan tf, df, w Pembangunan term-query matrix Pembobotan cluster terhadap kueri, dengan membandingkan centroid terhadap kueri, dapat ditemukan bobot yang paling besar (cluster yg paling mirip dgn kueri) Load document id dari cluster yang paling mirip Hitung ulang bobot document member cluster tadi terhadap kueri Tampilkan hasil pencarian ke user Gambar 3.2. Alur proses pencarian dokumen Subsistem ini memiliki dua opsi untuk retrieval, yaitu retrieval berbasis cluster dan retrieval tanpa cluster. Retrieval berbasis cluster selanjutnya disebut dengan Sistem Pemerolehan Informasi berbasis Cluster, sementara retrieval tanpa cluster disebut dengan Sistem Pemerolehan Informasi Konvensional. Perbedaan kedua jenis sistem tersebut ditampilkan dalam gambar berikut ini : 24

48 User interface Text User need Text feedback Text operation Logical operation Logical view Query operation Indexing query Inverted file Searching Index Index Ranked docs DB Manager Module Text database Retrieved docs Ranking Gambar 3.3. Sistem Pemerolehan Informasi Konvensional (Baeza, 999) User interface Text User need Text feedback Text operation Logical operation Logical view Query operation Indexing query Inverted file Ranked docs Searching Cluster Cluster Index Index (Centroid) (Centroid) Clustering Retrieved docs Cluster Cluster Member Member (Documents) (Documents) Ranking Gambar 3.4. Sistem Pemerolehan Informasi Berbasis Cluster 25 DB Manager Module Text database

Menunjukkan lagi