SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING SKRIPSI

Ukuran: px
Mulai penontonan dengan halaman:

Download "SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING SKRIPSI"

Transkripsi

1 SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING SKRIPSI Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Teknik Informatika (S.Kom.) Program Studi Teknik Informatika Disusun Oleh : AGUSTINUS AGRI ARDYAN NIM : PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 206

2 CLUSTER BASED INFORMATION RETRIEVAL SYSTEM FOR SCIENTIFIC PAPER RETRIEVAL USING G-MEANS CLUSTERING THESIS Presented as partial fulfillment of the requirements To obtain the Bachelor Degree of Computer (S.Kom.) In Informatics Engineering Written by : AGUSTINUS AGRI ARDYAN NIM : DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 206

3

4

5

6 HALAMAN MOTTO - Ad maiorem Dei gloriam - vi

7 HALAMAN PERSEMBAHAN Penelitian ini dipersembahkan untuk : Allah Bapa, Putera dan Roh Kudus atas berkat dan bimbingannya Kedua orangtuaku, Mikael Pae Santosa dan Fransiska Ibuk Tasri Aryani yang dengan sabar selalu membimbing langkahku Adikku, Philipus Bro' Agri Adhiatma, yang selalu menghibur setiap saat Teman-teman Teknik Informatika yang selalu suportif dan memberikan banyak sekali pengalaman dan ilmu baru. Kepada segenap masyarakat yang terpanggil dan ikut berkontribusi dalam kemajuan ilmu pengetahuan. Semoga penelitian ini bisa ikut memberikan kontribusi yang baik bagi ilmu pengetahuan. Amin. vii

8 DAFTAR ISI SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING... i CLUSTER BASED INFORMATION RETRIEVAL SYSTEM FOR SCIENTIFIC PAPER RETRIEVAL USING G-MEANS CLUSTERING... ii HALAMAN PERSETUJUAN SKRIPSI... iii HALAMAN PENGESAHAN SKRIPSI... iv PERNYATAAN KEASLIAN KARYA... v HALAMAN MOTTO... vi HALAMAN PERSEMBAHAN... vii DAFTAR ISI... viii DAFTAR GAMBAR... xii DAFTAR TABEL... xiv DAFTAR PERSAMAAN... xviii ABSTRAK... xix ABSTRACT... xx LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI... xxi KATA PENGANTAR... xxii BAB I PENDAHULUAN..... Latar Belakang Rumusan Masalah Tujuan Penelitian Batasan Masalah Metodologi Penelitian Sistematika Penulisan... 5 BAB II LANDASAN TEORI Konsep Pemerolehan Informasi Operasi Teks Stopword Stemming Tokenisasi... 0 viii

9 2..2. Term-Document Matrix TF-IDF sebagai Metode Pembobotan Evaluasi Pemerolehan Informasi Konsep Pengelompokan Dokumen Clustering dalam Pemerolehan Informasi Hipotesis Cluster K-Means G-Means Evaluasi Cluster Purity... 8 BAB III ANALISIS DAN PERANCANGAN SISTEM Analisis Sistem Deskripsi Sistem Sub Sistem Pengelompokan Dokumen Sub Sistem Pencarian Dokumen Data yang Digunakan Analisis Kebutuhan Pengguna Perancangan Sistem Data Flow Diagram Diagram Konteks Overview DFD DFD Level Diagram Berjenjang Deskripsi Proses Deskripsi Proses : Pengelompokan Dokumen Deskripsi Proses 2 : Pencarian Dokumen Rancangan Basis Data Desain Konseptual Desain Logikal Desain Fisikal Rancangan Antarmuka Pengguna Antarmuka Pengelompokan Dokumen Antarmuka Pencarian Dokumen ix

10 BAB IV IMPLEMENTASI SISTEM Struktur Data Implementasi Basis Data Implementasi Pengelompokan Dokumen Implementasi G-Means Implementasi Pencarian Dokumen Implementasi Preprocessing Query Implementasi Pencarian Berbasis Cluster dan Konvensional Implementasi Antarmuka Pengguna Implementasi Antarmuka Pengelompokan Dokumen Implementasi Antarmuka Pencarian Dokumen BAB V ANALISIS HASIL PENELITIAN Analisis Hasil Sistem Hasil Pengelompokan Dokumen Hasil Pengujian Pencarian Dokumen berdasar Kueri Pengguna Pencarian dengan query data Pencarian dengan query Pencarian dengan query klasifikasi Pencarian dengan query siste Pencarian dengan query jari ga ko puter Pencarian dengan query data Pencarian dengan query kesehata Pencarian dengan query diag osa pe yakit Pencarian dengan query t p udp Pencarian dengan query i i g aï e ayes pe duku g keputusa i i g e ggu aka k- ea s a usia ireless Pembahasan Rerata Interpolasi Titik Recall Precision Sistem Pemerolehan Informasi berbasis Cluster Sistem Pemerolehan Informasi Konvensional Purity Waktu Eksekusi Kelebihan dan Kekurangan Sistem Kelebihan Sistem x

11 Kekurangan Sistem BAB VI KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA xi

12 DAFTAR GAMBAR Gambar 2.. Visualisasi term-document matrix... Gambar 2.2. Pseudocode algoritma K-Means (Manning et al, 2008)... 3 Gambar 2.3. Visualisasi proses yang terjadi dalam algoritma K-Means (Manning et al, 2008)... 4 Gambar 2.4. Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 000 point. Algoritma G-Means mencoba mencari normalitas dalam sebaran titik pada suatu cluster (Hamerly et al., 2004)... 5 Gambar 3.. Alur proses pengklusteran dokumen Gambar 3.2. Alur proses pencarian dokumen Gambar 3.3. Sistem Pemerolehan Informasi Konvensional (Baeza, 999) Gambar 3.4. Sistem Pemerolehan Informasi Berbasis Cluster Gambar 3.5. Diagram konteks dari sistem yang akan dibangun Gambar 3.6. Overview DFD dari sistem yang akan dibangun Gambar 3.7. DFD level 2 dari proses pengelompokan dokumen Gambar 3.8. DFD level 2 dari proses pencarian dokumen Gambar 3.9. Diagram berjenjang dari sistem yang akan dikembangkan Gambar 3.0. ERD untuk sistem yang akan dibangun Gambar 3.. Model relasional untuk sistem yang akan dibangun Gambar 3.2. Rancangan antarmuka pengguna untuk proses pengelompokan dokumen Gambar 3.3. Rancangan antarmuka pengguna untuk proses pencarian dokumen Gambar 4. Struktur data untuk term list yang menggunakan LinkedList dan document list yang menggunakan ArrayList Gambar 4.2. Struktur data untuk master term list yang berupa HashMap Gambar 4.3 Capture screen antarmuka subsistem pengelompokan dokumen ()... 5 Gambar 4.4. Capture screen antarmuka subsistem pengelompokan dokumen (2) Gambar 4.5. Capture screen antarmuka subsistem pencarian dokumen Gambar 4.6. Implementasi antarmuka pengguna subsistem pencarian dokumen berbasis cluster Gambar 4.7. Implementasi antarmuka pengguna subsistem pencarian dokumen berbasis cluster Gambar 5.. Grafik interpolasi titik recall precision terhadap query data i i g pada Sistem Pemerolehan Informasi berbasis Cluster... 6 Gambar 5.2. Grafik interpolasi titik recall precision terhadap query data i i g pada Sistem Pemerolehan Informasi Konvensional Gambar 5.3. Grafik interpolasi titik recall precision terhadap query aï e ayes pada Sistem Pemerolehan Informasi berbasis Cluster Gambar 5.4. Grafik interpolasi titik recall precision terhadap query aï e ayes pada Sistem Pemerolehan Informasi Konvensional xii

13 Gambar 5.5. Grafik interpolasi titik recall precision terhadap query klasifikasi pada Sistem Pemerolehan Informasi berbasis Cluster Gambar 5.6. Grafik interpolasi titik recall precision terhadap query klasifikasi pada Sistem Pemerolehan Informasi Konvensional Gambar 5.7. Grafik interpolasi titik recall precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi er asis Cluster Gambar 5.8. Grafik interpolasi titik recall precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I formasi Konvensional Gambar 5.9. Grafik interpolasi titik recall precision terhadap query jari ga ko puter pada iste Pe eroleha I for asi er asis Cluster Gambar 5.0. Grafik interpolasi titik recall precision terhadap query jari ga ko puter pada iste Pe eroleha I for asi Ko e sio al Gambar 5.. Grafik interpolasi titik recall precision terhadap query aï e ayes pada Sistem Pemerolehan Informasi berbasis Cluster Gambar 5.2. Grafik interpolasi titik recall precision terhadap query data i i g menggunakan k- ea s pada iste Pe eroleha I for asi Ko e sio al Gambar 5.3. Grafik interpolasi titik recall precision terhadap query kesehata a usia pada iste Pe eroleha I for asi er asis Cluster Gambar 5.4. Grafik interpolasi titik recall precision terhadap query aï e ayes pada Sistem Pemerolehan Informasi Konvensional Gambar 5.5. Grafik interpolasi titik recall precision terhadap query diag osa pe yakit pada iste Pe eroleha I for asi er asis Cluster Gambar 5.6. Grafik interpolasi titik recall precision terhadap query diag osa pe yakit pada iste Pe eroleha I for asi Ko e sio al Gambar 5.7. Grafik interpolasi titik recall precision terhadap query t p udp pada Sistem Pemerolehan Informasi berbasis Cluster Gambar 5.8. Grafik interpolasi titik recall precision terhadap query t p udp pada Sistem Pemerolehan Informasi Konvensional Gambar 5.9. Grafik interpolasi titik recall precision terhadap query ireless pada Sistem Pemerolehan Informasi berbasis Cluster Gambar Grafik interpolasi titik recall precision terhadap query ireless pada Sistem Pemerolehan Informasi Konvensional Gambar 5.2. Grafik rerata interpolasi titik recall precision kedua jenis sistem Gambar 5.22 Grafik rerata waktu retrieval kedua jenis sistem () Gambar Grafik rerata waktu retrieval kedua jenis sistem (2) xiii

14 DAFTAR TABEL Tabel 2.. Tabel kombinasi awalan dan akhiran yang tidak diijinkan... 8 Ta el 2.2. Cara Me e tuka Tipe A ala U tuk a ala te Tabel 2.3. Awalan yang diijinkan dihapus berdasarkan Tipe Awalannya... 0 Tabel 2.4. Perancangan term document matrix... 0 Tabel 3.. Kebutuhan fungsional pengguna sistem Tabel 3.2. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Cluster Tabel 3.3. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Documents Tabel 3.4. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Centroid Tabel 3.5. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Term Tabel 3.6. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Term_Document Tabel 3.7. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Stopword_Ina Tabel 3.8. Desain basis data untuk Sistem Pemerolehan Informasi berbasis Cluster pada level fisikal untuk relasi Rootword_Ina Tabel 5.. Hasil pengelompokan dokumen yang dilakukan oleh sistem Tabel 5.2. Hasil penghitungan dokumen-dokumen yang sesuai dengan cluster yang ditempati Tabel 5.3. Hasil pencarian dengan query data i i g pada iste Pe eroleha Informasi berbasis Cluster Tabel 5.4. Penghitungan recall - precision terhadap query data i i g pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.5. Interpolasi titik recall precision terhadap query data i i g pada iste Pemerolehan Informasi berbasis Cluster... 6 Tabel 5.6. Hasil pencarian dengan query data i i g pada iste Pe eroleha Informasi Konvensional Tabel 5.7. Penghitungan recall - precision terhadap query data i i g pada iste Pemerolehan Informasi Konvensional Tabel 5.8. Interpolasi titik recall precision terhadap query data i i g pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.9. Hasil pencarian dengan query aï e ayes pada iste Pe eroleha Informasi berbasis Cluster Tabel 5.0. Penghitungan recall - precision terhadap query aï e ayes pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.. Interpolasi titik recall precision terhadap query aï e ayes pada iste Pemerolehan Informasi berbasis Cluster xiv

15 Tabel 5.2. Hasil pencarian dengan query aï e ayes pada iste Pe eroleha Informasi Konvensional Tabel 5.3. Penghitungan recall - precision terhadap query aï e ayes pada iste Pemerolehan Informasi Konvensional Tabel 5.4. Interpolasi titik recall precision terhadap query aï e ayes pada iste Pemerolehan Informasi Konvensional Tabel 5.5. Hasil pencarian dengan query klasifikasi pada iste Pe eroleha Informasi berbasis Cluster Tabel 5.6. Penghitungan recall - precision terhadap query klasifikasi pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.7. Interpolasi titik recall precision terhadap query klasifikasi pada iste Pemerolehan Informasi berbasis Cluster Tabel 5.8. Hasil pencarian dengan query klasifikasi pada iste Pe eroleha Informasi Konvensional... 7 Tabel 5.9. Penghitungan recall - precision terhadap query klasifikasi pada iste Pemerolehan Informasi Konvensional Tabel Interpolasi titik recall precision terhadap query klasifikasi pada Sistem Pemerolehan Informasi Konvensional Tabel 5.2. Hasil pencarian dengan query siste pe duku g keputusa pada iste Pemerolehan Informasi berbasis Cluster Tabel Penghitungan recall - precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi er asis Cluster Tabel Interpolasi titik recall precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi er asis Cluster Tabel Hasil pencarian dengan query siste pe duku g keputusa pada iste Pemerolehan Informasi Konvensional Tabel Penghitungan recall - precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi Ko e sio al Tabel Interpolasi titik recall precision terhadap query siste pe duku g keputusa pada iste Pe eroleha I for asi Ko e sio al Tabel Hasil pencarian dengan query jari ga ko puter pada iste Pemerolehan Informasi berbasis Cluster Tabel Penghitungan recall - precision terhadap query jari ga ko puter pada Sistem Pemerolehan Informasi berbasis Cluster Tabel Interpolasi titik recall precision terhadap query jari ga ko puter pada Sistem Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query jari ga ko puter pada iste Pemerolehan Informasi berbasis Cluster... 8 Tabel 5.3. Penghitungan recall - precision terhadap query jari ga ko puter pada Sistem Pemerolehan Informasi Konvensional... 8 Tabel Interpolasi titik recall precision terhadap query jari ga ko puter pada Sistem Pemerolehan Informasi Konvensional Tabel Hasil pencarian dengan query data i i g e ggu aka k- ea s pada Sistem Pemerolehan Informasi berbasis Cluster xv

16 Tabel Penghitungan recall - precision terhadap query data i i g e ggu aka kea s pada iste Pe eroleha I for asi erbasis Cluster Tabel Interpolasi titik recall precision terhadap query data i i g menggunakan k- ea s pada iste Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query data i i g e ggu aka k- ea s pada Sistem Pemerolehan Informasi Konvensional Tabel Penghitungan recall - precision terhadap query data i i g e ggu aka kmeans pada iste Pe eroleha I for asi Ko e sio al Tabel Interpolasi titik recall precision terhadap query data i i g menggunakan k- ea s pada iste Pe eroleha I for asi Ko e sio al Tabel Hasil pencarian dengan query kesehata a usia pada iste Pemerolehan Informasi berbasis Cluster Tabel Penghitungan recall - precision terhadap query kesehata a usia pada Sistem Pemerolehan Informasi berbasis Cluster Tabel 5.4. Interpolasi titik recall precision terhadap query kesehata a usia pada Sistem Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query kesehata a usia pada iste Pemerolehan Informasi Konvensional Tabel Penghitungan recall - precision terhadap query kesehata a usia pada Sistem Pemerolehan Informasi Konvensional Tabel Interpolasi titik recall precision terhadap query aï e ayes pada iste Pemerolehan Informasi Konvensional Tabel Hasil pencarian dengan query diag osa pe yakit pada iste Pe eroleha Informasi berbasis Cluster Tabel Penghitungan recall - precision terhadap query diag osa pe yakit pada Sistem Pemerolehan Informasi berbasis Cluster... 9 Tabel Interpolasi titik recall precision terhadap query diag osa pe yakit pada Sistem Pemerolehan Informasi berbasis Cluster... 9 Tabel Hasil pencarian dengan query diag osa pe yakit pada iste Pe eroleha Informasi Konvensional Tabel Penghitungan recall - precision terhadap query diag osa pe yakit pada Sistem Pemerolehan Informasi Konvensional Tabel Interpolasi titik recall precision terhadap query diag osa pe yakit pada Sistem Pemerolehan Informasi Konvensional Tabel 5.5. Hasil pencarian dengan query t p udp pada iste Pe eroleha I for asi berbasis Cluster Tabel Penghitungan recall - precision terhadap query t p udp pada iste Pemerolehan Informasi berbasis Cluster Tabel Interpolasi titik recall precision terhadap query t p udp pada iste Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query t p udp pada iste Pe eroleha I for asi Konvensional Tabel Penghitungan recall - precision terhadap query t p udp pada iste Pemerolehan Informasi Konvensional xvi

17 Tabel Interpolasi titik recall precision terhadap query t p udp pada iste Pemerolehan Informasi Konvensional Tabel Hasil pencarian dengan query ireless pada iste Pe eroleha I for asi berbasis Cluster Tabel Penghitungan recall - precision terhadap query ireless pada iste Pemerolehan Informasi berbasis Cluster Tabel Interpolasi titik recall precision terhadap query ireless pada iste Pemerolehan Informasi berbasis Cluster Tabel Hasil pencarian dengan query ireless pada iste Pe eroleha I for asi Konvensional... 0 Tabel 5.6. Penghitungan recall - precision terhadap query ireless pada iste Pemerolehan Informasi Konvensional... 0 Tabel Interpolasi titik recall precision terhadap query ireless pada iste Pemerolehan Informasi Konvensional... 0 Tabel Interpolasi titik recall precision dari pengujian dengan 0 query pencarian dengan menggunakan Sistem Pemerolehan Informasi berbasis Cluster Tabel Interpolasi titik recall precision dari pengujian dengan 0 query pencarian dengan menggunakan Sistem Pemerolehan Informasi Konvensional Tabel Rata-rata interpolasi titik recall precision dari pengujian dengan 0 query pencarian dari kedua sistem Tabel Hasil penghitungan rerata waktu eksekusi dalam satuan detik dari kedua sistem xvii

18 DAFTAR PERSAMAAN Persamaan 2.. Rumus pembobotan TF-IDF (Savoy, 993)... Persamaan 2.2. Rumus penghitungan skor dan perankingan dokumen terhadap query 2 Persamaan 2.3. Rumus penghitungan nilai recall (Manning et al, 2008)... 2 Persamaan 2.4. Rumus penghitungan nilai precision (Manning et al, 2008)... 2 Persamaan 2.5. Rumus Uji Statistik Anderson Darling... 6 Persamaan 2.6. Rumus Uji Statistik Anderson Darling... 7 Persamaan 2.7. Rumus mencari anak cluster (Hamerly et al., 2004)... 7 Persamaan 2.8. Rumus proyeksi vektor-vektor di X ke vektor v... 7 Persamaan 2.9. Rumus penghitungan nilai purity... 8 Persamaan 3.. Rumus penghitungan normalisasi z-score pada suatu data xviii

19 ABSTRAK Dalam kurun waktu terakhir, pertambahan jumlah dokumen karya ilmiah berbahasa Indonesia meningkat sangat pesat. Tanpa ada pengubahan dalam sistem pemerolehan informasi, volume data yang meningkat dapat mengakibatkan turunnya performa sistem pemerolehan informasi, terutama dalam hal waktu retrieval. Salah satu metode yang diusulkan untuk mempersingkat waktu retrieval adalah pengelompokan koleksi. Dalam tugas akhir ini, G-Means dipilih sebagai algoritma pemodelan cluster. Keuntungan implementasi G-Means adalah kemampuan algoritma ini untuk memilih jumlah cluster yang paling optimal. Hasil pengelompokan koleksi kemudian diuji dalam lingkungan sistem pemerolehan informasi untuk melihat seberapa baik pengelompokan koleksi dalam mempersingkat waktu retrieval, dan seberapa besar pengaruhnya terhadap precision. Data yang digunakan adalah karya ilmiah berbahasa Indonesia sebanyak 00 karya. Dari hasil pengujian, ditemukan bahwa waktu retrieval lebih singkat hingga 6,3%, dengan rerata waktu retrieval sebesar 2,88 detik dan precision sebesar 47%. Kata Kunci:pemerolehan informasi, clustering, g-means, dokumen karya ilmiah xix

20 ABSTRACT In recent years, Indonesian-written scientific papers grow significantly in term of number. Without any improvement in information retrieval systems, increasing data volume could lead to poor system performance, especially in its retrieval time. One proposed method to improve retrieval time is collection clustering. GMeans was chosen for cluster modeling algorithm, as it can determine number of generated clusters automatically. Clustering collection results are tested in information retrieval system to find how significant clustering can reduce retrieval time, and whether it has impact to system s average precision. We use 00 Indonesian scientific papers as collection. Based from the results, retrieval time gain 6.3% faster, with average retrieval time is about 2,88 seconds and average precision is about 47%. Keyword: information retrieval, clustering, g-means, scientific paper xx

21

22 KATA PENGANTAR Puji dan Syukur saya panjatkan kepada Tuhan Yang Maha Esa, atas berkat dan kuasa-nya yang diberikan sehingga penelitian ini dapat berhasil dan selesai. Penelitian ini tidak mungkin diselesaikan tanpa adanya keterlibatan dan dukungan dari banyak pihak. Dalam penyelesaian penelitian ini, saya ingin mengucapkan terima kasih sebesar-besarnya kepada pihak-pihak tersebut, antara lain :. Bapak Sudi Mungkasi, S.Si, M.Sc.Math., Ph.D. selaku dekan Fakultas Sains dan Teknologi, Universitas Sanata Dharma. 2. Ibu Dr. Anastasia Rita Widiarti selaku Ketua Program Studi Teknik Informatika, Universitas Sanata Dharma 3. Bapak J.B. Budi Darmawan, M.Sc. selaku dosen pembimbing penelitian. Beliau memberikan banyak masukan dan saran serta pembelajaran yang amat sangat berharga dalam penelitian ini. 4. Bapak Puspaningtyas Sanjoyo Adi, S.T., M.T., selaku dosen penguji skripsi, atas saran dan kritik yang diberikan untuk menunjang skripsi ini. 5. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku dosen penguji skripsi, atas saran dan kritik yang diberikan untuk menunjang skripsi ini. 6. Keluarga yang tercinta, Bapak, Mikael Santosa, Ibu, Fransiska Tasri Aryani, dan Adik, Philipus Agri Adhiatma yang selalu memberi dukungan terbaik dan kasih sayang. 7. Adika Dwi Ananda Putra (Dika), yang telah berbaik hati meminjami unit komputer untuk menyelesaikan penelitian ini. 8. Seluruh teman-teman Teknik Informatika angkatan 202 yang sangat suportif. xxii

23

24 BAB I PENDAHULUAN.. Latar Belakang Jumlah publikasi karya ilmiah dari Indonesia terus bertambah dari tahun ke tahun. Dari tahun 20 hingga 206, prosiding KNSI menampung 590 karya ilmiah, SRITI menampung 5 karya ilmiah pada tahun 206. Sementara itu, terdapat 0 karya ilmiah dipublikasikan di JUTI, jurnal teknologi informasi ITS, sejak 200 hingga 206 dan 5 karya ilmiah pada JURTEK Akprind dari tahun 204 hingga 206. Jumlah karya ilmiah yang tidak termasuk dalam publikasi tersebut tentunya jauh lebih besar lagi. Dengan pertambahan jumlah karya ilmiah yang tersebut, permasalahan yang muncul berasal dari besarnya volume data yang ada. semakin besar suatu koleksi dokumen, maka proses pemerolehan informasi cenderung makin membutuhkan waktu yang lebih banyak (Grossman et al., 2004). Untuk itu, diperlukan pengembangan dalam sistem pemerolehan informasi. Salah satu pengembangan yang dapat dilakukan antara lain dengan mengelompokkan koleksi dokumen yang ada. Antar dokumen dalam satu kelompok memiliki kemiripan yang semirip-miripnya, dan antar dokumen dalam kelompok yang berbeda memiliki ketidakmiripan yang sejauh-jauhnya. Sehingga sistem tidak membutuhkan waktu eksekusi yang lama, karena tiap koleksi sudah dibagi menjadi kelompok-kelompok yang seragam, atau yang disebut juga dengan cluster.

25 Tiap cluster direpresentasikan dengan satu centroid. Pengelompokan akan dilakukan dengan algoritma G-Means. Keuntungan menggunakan algoritma GMeans adalah selain melakukan pengelompokan, algoritma ini juga dapat menghitung jumlah cluster yang optimum dengan melihat apakah suatu cluster sudah terdistribusi normal atau belum. Setelah terbentuk kelompok-kelompok dokumen, maka tiap query dari user akan dicocokan dengan centroid tiap cluster saja. Kluster yang memiliki skor paling tinggi dengan query pencarian akan dicatat, lalu isi dari cluster itulah yang akan diberikan skor terhadap query dari pengguna, lalu kemudian ditampilkan..2. Rumusan Masalah. Bagaimana hasil dan kualitas cluster yang dihasilkan dari proses pengelompokan dokumen oleh sistem? 2. Bagaimana pengaruh pengelompokan dokumen dalam sistem pemerolehan informasi berbasis cluster terhadap waktu retrieval dan dampaknya terhadap precision?.3. Tujuan Penelitian. Mengetahui hasil evaluasi dan kualitas cluster yang dihasilkan dari proses pengelompokan dokumen oleh sistem. 2

26 2. Mengetahui seberapa baik sistem pemerolehan informasi berbasis cluster dalam menurunkan waktu retrieval, dan seberapa besar pengaruhnya terhadap precision..4. Batasan Masalah. Dokumen yang digunakan sebagai korpus adalah karya ilmiah dalam bentuk digital yang diambil dari prosiding berbagai seminar. 2. Dokumen yang digunakan sebagai korpus adalah dokumen yang menggunakan bahasa Indonesia. 3. Dokumen yang digunakan sebagai korpus untuk penelitian ini diambil secara acak. 4. Dokumen digital yang digunakan sebagai korpus dalam penelitian ini telah diubah menjadi format TXT. 5. Pengelompokan dokumen dalam karya tulis ini tidak menggunakan data training..5. Metodologi Penelitian Langkah-langkah metodologi penelitian yang dilakukan dalam penelitian ini adalah sebagai berikut :. Studi Pustaka Studi pustaka dilakukan untuk mengumpulkan teori-teori yang mendukung penelitian ini. Teori tersebut antara lain mengenai pemerolehan informasi (information retrieval), clustering dokumen dengan menggunakan G-Means, dan informasi lain yang mendukung implementasian pemerolehan informasi berbasis cluster ini. 3

27 2. Pembangunan Sistem Pemerolehan Informasi berbasis Cluster Pembangunan sistem pemerolehan informasi berbasis cluster ini menggunakan metode Framework for the Application System Technique (FAST) dengan tahap sebagai berikut: a. Analisis Sistem ) Analisis Masalah Hal yang dilakukan dalam tahap ini adalah analisis masalah yang dapat dipecahkan dengan pembangunan sistem. 2) Analisis Kebutuhan Hal yang dilakukan dalam tahap ini adalah identifikasi kebutuhan sistem dengan mengumpulkan data kebutuhan pengguna sistem yang kemudian dimodelkan dalam diagram Use Case. b. Desain Sistem ) Logical Design Hal yang dilakukan dalam tahap ini adalah penggambaran model data, proses dan antarmuka dalam bentuk logical. 2) Physical Design and Integration Implementasi secara teknis dengan pembuatan desain antarmuka pengguna secara fisik dan desain basis data apabila diperlukan. 3) Construction and Testing Pengembangan rancangan ke dalam program dengan menggunakan bahasa pemrograman Java, dan MySQL sebagai pengelola basis datanya. 3. Uji Coba Relevansi terhadap Pengguna Uji coba terhadap pengguna dilakukan untuk melihat unjuk kerja sistem yang telah dibangun. Parameter yang diberikan adalah tingkat relevansi untuk 4

28 uji relevansi. Hasil dari uji coba ini akan menjadi sumber data untuk analisis hasil uji coba. 4. Analisis Hasil Uji Coba Relevansi Analisis hasil uji coba dilakukan dengan melihat data yang didapatkan dari uji coba pengguna. Tujuan dari analisis ini adalah untuk mendapatkan kesimpulan dari tujuan penelitian..6. Sistematika Penulisan. BAB I : PENDAHULUAN Berisi pendahuluan berupa permasalahan yang melatarbelakangi penelitian ini, tujuan dari penelitian ini, batasan-batasan yang ada dalam penelitian, serta sistematika dokumen proposal ini. 2. BAB II : TINJAUAN PUSTAKA Berisi jabaran konsep dan hasil penelitian dari peneliti lain yang berkaitan dengan penelitian ini. Isinya antara lain konsep dasar pemerolehan informasi, stemming, eliminasi stopword, term weighting, evaluasi hasil pemerolehan informasi, serta konsep dasar pengelompokan teks, dan algoritma G-Means untuk pemodelan data dan pemilihan jumlah cluster optimum. 3. BAB III : ANALISIS DAN PERANCANGAN Bab ini berisi gambaran umum dari sistem yang akan dibangun, analisis kebutuhan sistem dan rancangan basis data untuk sistem tersebut. 4. BAB IV : IMPLEMENTASI Bab ini berisi jabaran dari implementasi pemodelan G-Means dalam bahasa pemrograman Java. 5

29 5. BAB V : ANALISIS HASIL PENELITIAN Bab ini berisi hasil pengujian sistem, serta pembahasan dari hasil pengujian tersebut. 6. DAFTAR PUSTAKA Berisi referensi pustaka yang digunakan dalam penulisan karya ilmiah ini. 7. LAMPIRAN Lampiran lain apabila diperlukan. 6

30 BAB II LANDASAN TEORI 2.. Konsep Pemerolehan Informasi Pemerolehan informasi (Information Retrieval) adalah kumpulan berbagai algoritma dan teknologi untuk melakukan pemrosesan, penyimpanan, dan temu kembali informasi pada suatu koleksi data yang besar dan tidak terstruktur (Manning et al, 2008). Jenis informasi tersebut beragam, bisa berupa teks dokumen, halaman web, maupun objek multimedia seperti foto dan video Operasi Teks 2... Stopword Stopword adalah suatu kata yang sangat sering muncul dalam berbagai dokumen adalah diskriminator yang buruk dan tidak berguna dalam temu kembali informasi. Stopword perlu dieliminasi untuk mengurangi waktu eksekusi query dengan cara menghindari proses list yang panjang (Butcher et al., 200). Pembuangan stopword ini akan mengurangi ukuran indeks, meningkatkan efisiensi dan keefektifan dari pemerolehan informasi (Croft et al., 200). Contoh stopword dalam bahasa Indonesia, yaitu kata ganti orang ( aku, kamu, kita, dsb.), konjungsi ( dan, atau, dsb.), dan beberapa kata lainnya Stemming Stemming adalah proses pengenalan suatu kata. Stemming sering melibatkan pemisahan kata dari imbuhan dan tanda baca (Göker et al, 2009). Menurut Agusta (200), pola suatu kata dalam bahasa Indonesia adalah sebagai berikut : Prefiks I + Prefiks II + kata dasar + Sufiks III + Sufiks II + Sufiks I 7

31 Algoritma Nazief Adriani sebagai Algoritma Stemming Algoritma Stemming Nazief Adriani diperkenalkan oleh Nazief dan Adriani (996). Algoritma ini memiliki tahap-tahap sebagai berikut ini :. Cari kata yang akan diistem dalam basis data kata dasar. Jika ditemukan maka diasumsikan kata adalah root word. Maka algoritma berhenti. 2. Selanjutnya adalah pembuangan Inflection Suffixes ( -lah, -kah, -ku, mu, atau -nya ). Jika berupa particles ( -lah, -kah, -tah atau -pun ) dan terdapat Possesive Pronouns ( -ku, -mu, atau -nya ), maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns. 3. Hapus Derivation Suffixes ( -i, -an atau -kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a berikut ini : a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an atau -kan ) dikembalikan, lanjut ke langkah Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan pada Tabel 2.. Jika ditemukan maka algoritma berhenti, jika tidak, pergi ke langkah 4b. Tabel kombinasi awalan-akhiran yang tidak diijinkan ditampilkan pada tabel berikut ini : Awalan bedikemese- Akhiran yang tidak diizinkan -i -an -i, -kan -an -i, -kan Tabel 2.. Tabel kombinasi awalan dan akhiran yang tidak diijinkan b. Tentukan tipe awalan kemudian hapus awalan. Jika awalan kedua sama dengan awalan pertama algoritma berhenti. 8

32 c. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti.. 5. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Tipe awalan ditentukan melalui langkah-langkah berikut:. Jika awalannya adalah: di-, ke-, atau se- maka tipe awalannya secara berturut-turut adalah di-, ke-, atau se-. 2. Jika awalannya adalah te-, me-, be-, atau pe- maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya. 3. Jika dua karakter pertama bukan di-, ke-, se-, te-, be-, me-, atau pe- maka berhenti. 4. Dengan melihat Tabel 2.2, jika tipe awalan adalah none maka berhenti. Jika tipe awalan adalah bukan none maka awalan dapat dilihat pada Tabel 2.4. Hapus awalan jika ditemukan. Tipe-tipe awalan dapat dilihat dalam tabel berikut ini : Karakter huruf setelah awalan Set Set 2 -r- -r- -r- -r- -r- not (vowel or -r- ) not (vowel or -r- ) Set 3 -r- not (vowel or -r- ) -er- not (vowel or -r- ) -er- not (vowel or -r- ) not -er- -er- vowel -er- not vowel Tipe awalan Set 4 vowel not vowel None ter-luluh Ter terter None Te Tabel 2.2. Cara Menentukan Tipe Awalan Untuk awalan te- Awalan yang diijinkan dihapus berdasarkan tipe awalannya ditunjukkan pada tabel berikut ini : Tipe Awalan Awalan yang harus dihapus didikekesesetete- 9

33 terter-luluh terter Tabel 2.3. Awalan yang diijinkan dihapus berdasarkan Tipe Awalannya Tokenisasi Tokenisasi adalah proses pemisahan kata dari kumpulannya, sehingga menghasilkan suatu kata yang berdiri sendiri, baik dalam bentuk perulangan maupun tunggal. Proses ini juga akan menghilangkan tanda baca maupun karakter yang ada pada kata tersebut dan semua huruf menjadi huruf kecil. (Manning et al, 2008). Contoh dari input dan output dari tokenisasi adalah sebagai berikut : Input : Suatu deret angka genap Output : suatu, deret, angka, genap Term-Document Matrix Term-document matrix adalah matriks yang memperlihatkan frekuensi kemunculan suatu term didalam suatu dokumen. Dalam term-document matrix, baris-baris menunjukkan term dalam suatu koleksi dan kolom menunjukkan dokumen. (Manning et al, 2008). Contoh perancangan matriks term-document diperlihatkan seperti berikut ini : doc doc 2 doc 3 doc 4 doc 5 doc 6 term term term term term term Tabel 2.4. Perancangan term document matrix Sehingga matriks term-documentnya (matriks M) akan menjadi seperti berikut ini : 0

34 [ ] Gambar 2.. Visualisasi term-document matrix TF-IDF sebagai Metode Pembobotan Terms Frequency Inverse Documents Frequency (TF-IDF) adalah skema pembobotan term yang paling populer dalam ranah pemerolehan informasi (Baeza Yates, 999). Rumus pembobotan TF-IDF menurut Savoy (993) adalah sebagai berikut : Persamaan 2.. Rumus pembobotan TF-IDF (Savoy, 993) Dimana,, dan Keterangan : w = bobot term (Tj) pada dokumen Di tfij = frekuensi kemunculan term (Tj) pada dokumen Di m = jumlah dokumen Di pada kumpulan dokumen dfj = jumlah dokumen yang mengandung term (Tj) idfj = invers frekuensi dokumen (inverse document frequency) max tfi = frekuensi term terbesar dalam suatu dokumen Dari penghitungan nilai TF-IDF ini, scoring atau penilaian terhadap query didefinisikan sebagai berikut (Manning et al, 2008) :

35 Persamaan 2.2. Rumus penghitungan skor dan perankingan dokumen terhadap query Evaluasi Pemerolehan Informasi Pengukuran hasil relevansi dapat dilakukan dengan penghitungan recall dan precision. Recall digunakan untuk mengukur seberapa baik suatu sistem melakukan pencarian terhadap dokumen yang relevan terhadap suatu query pengguna. Sementara itu, precision digunakan untuk melihat seberapa baik sistem pemerolehan informasi mengeliminasi dokumen yang tidak relevan (Croft et al., 200). Rumus dari recall dan precision adalah sebagai berikut (Manning et al, 2008) : Persamaan 2.3. Rumus penghitungan nilai recall (Manning et al, 2008) Persamaan 2.4. Rumus penghitungan nilai precision (Manning et al, 2008) 2.2. Konsep Pengelompokan Dokumen Clustering dalam Pemerolehan Informasi Algoritma clustering mengelompokan sekumpulan dokumen ke dalam suatu subset atau cluster. Tujuan algoritma clustering dalam pemerolehan informasi bertujuan untuk mengelompokan sekumpulan dokumen yang koheren secara internal, namun memiliki perbedaan jauh dengan dokumen dari cluster yang lain. Dengan kata lain, antar dokumen di dalam satu cluster yang sama seharusnya memiliki tingkat kemiripan yang tinggi, dan antar dokumen di dalam 2

36 cluster yang berbeda seharusnya memiliki tingkat perbedaan yang setinggitingginya (Manning et al, 2008) Hipotesis Cluster Hipotesis cluster berisi tentang asumsi dasar yang dibuat ketika menerapkan clustering dalam pemerolehan informasi. Hipotesis cluster menyebutkan bahwa dokumen dalam cluster yang sama akan memiliki keidentikan sifat, berkenaan dengan relevansi terhadap kebutuhan informasi (Manning et al, 2008) K-Means K-Means adalah salah satu algoritma flat clustering yang paling penting (Manning et al, 2008). Tujuan K-Means adalah meminimalkan rata-rata kuadrat jarak Euclidean dokumen terhadap centroid (pusat cluster) dokumen tersebut (Manning et al, 2008). Algoritma k-means ditunjukkan dalam gambar berikut ini : Gambar 2.2. Pseudocode algoritma K-Means (Manning et al, 2008) Dalam bukunya, Manning (2008) menjabarkan langkah dari algoritma KMeans. Pertama-tama, dilakukan pemilihan pusat cluster K secara acak dari dokumen yang ada. Terjadi proses iteratif dimana pusat cluster bergerak terus 3

37 untuk meminimalkan RSS (residual sum of squares). Setelah itu, tiap dokumen ditempatkan pada cluster yang memiliki centroid terdekat dengan dokumen tersebut. Proses kembali lagi ke iterasi pergerakan pusat cluster. Visualisasi proses yang terjadi dalam k-means ditampilkan dalam gambar berikut ini : Gambar 2.3. Visualisasi proses yang terjadi dalam algoritma K-Means (Manning et al, 2008) 4

38 Ada beberapa cara penghentian iterasi, antara lain : Banyak iterasi I yang telah ditetapkan sebelumnya. Ketika iterasi telah mencapai langkah ke-i, maka proses akan berhenti. Penempatan dokumen dalam suatu cluster (fungsi partisi γ) tidak berubahubah lagi. Centroid µ k tidak berubah lagi. Hal ini sama dengan γ tidak berubah. Berhenti ketika nilai RSS dibawah batas yang ditentukan G-Means Algoritma G-Means diperkenalkan oleh Greg Hamerly dan Charles Elkan dari University of California pada tahun G-Means adalah algoritma pengembangan dari K-Means yang memiliki fitur penghitungan jumlah cluster yang optimum dengan menggunakan uji statistik untuk memutuskan apakah suatu pusat cluster perlu dipecah menjadi dua pusat cluster (Hamerly et al., 2004). Algoritma G-Means akan dimuai dari jumlah pusat cluster yang kecil, misalnya satu atau dua. Tiap iterasi dimulai dengan pengelompokan data menggunakan K-Means seperti biasa untuk mendapatkan himpunan anggota tiap cluster, selanjutnya algoritma ini akan memecah pusat cluster menjadi dua apabila suatu cluster nampak tidak terdistribusi normal. Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 000 point ditampilkan dalam gambar berikut ini : Gambar 2.4. Visualisasi G-Means dalam suatu dataset 2 dimensi dengan 000 point. Algoritma GMeans mencoba mencari normalitas dalam sebaran titik pada suatu cluster (Hamerly et al., 2004) 5

39 Algoritma G-Means dapat dilihat sebagai berikut (Hamerly et al., 2004) :. Pilih C sebagai sekumpulan pusat cluster (centroid) awal 2. Lakukan K-Means pada dataset X dengan C sebagai pusat-pusat clusternya. 3. xi adalah sekumpulan datapoint yang menjadi member centroid cj, dimana { xi class(xi) = j 4. Gunakan uji statistik untuk melihat apakah tiap { xi class(xi) = j mengikuti distribusi normal (pada suatu confidence level α). 5. Jika data terlihat terdistribusi normal, maka cj tidak berubah. Namun jika sebaliknya, maka cj diganti menjadi dua pusat cluster 6. Ulangi langkah no. 2 hingga tidak ada lagi pusat cluster yang ditambahkan. Terdapat dua hipotesis dalam uji statistik pada no. 4, yaitu sebagai berikut (Hamerly et al., 2004) : H0 : data disekitar pusat cluster terdistribusi normal H : data disekitar pusat cluster tidak terdistribusi normal Jika H0 diterima, maka pusat cluster tidak perlu dipisah lagi menjadi dua. Sementara itu, jika H diterima, maka pusat cluster harus dipecah menjadi dua. Uji statistik yang digunakan adalah adalah uji Anderson-Darling, dengan formula sebagai berikut : Persamaan 2.5. Rumus Uji Statistik Anderson Darling dengan : 6

40 [ Persamaan 2.6. Rumus Uji Statistik Anderson Darling X adalah subset dengan pusat cluster C. Tiap instance dari X diwakili dengan xi, xi+,, xn-, xn. Sementara itu, zi adalah hasil dari fungsi distribusi kumulatif untuk distribusi normal baku terhadap nilai xi. Untuk melakukan uji statistik diatas, dilakukan langkah seperti berikut ini (Hamerly et al., 2004) :. Ambil suatu subset X 2. Pilih level signifikan α untuk uji. 3. Dari pusat cluster tersebut, ambil dua buah anak pusat cluster, dinotasikan dengan c dan c2. Caranya dengan menggunakan rumus c±m, dimana m adalah random atau dengan rumus berikut : Persamaan 2.7. Rumus mencari anak cluster (Hamerly et al., 2004) Dimana, m = vector anak s = eigenvalue terbesar yang didapat dari data λ = principal component utama, yaitu eigenvector dengan eigenvalue terbesar 4. Jalankan K-Means pada X dengan dua centroid tersebut (c dan c2). 5. Hitung nilai vektor v dengan v = c c2. 6. Proyeksikan X ke v, menjadi X, dengan rumus sebagai berikut Persamaan 2.8. Rumus proyeksi vektor-vektor di X ke vektor v 7. Normalisasi X` sehingga memiliki rerata 0 dan varian. 7

41 8. Hitung zi dengan rumus zi = F(xi). 9. Hitung. Apabila diterima. Sebaliknya apabila berada pada daerah non-kritis, maka H0 berada di dalam daerah kritis, maka H diterima dan pusat cluster yang baru adalah c dan c Evaluasi Cluster Purity Purity adalah salah satu pengukuran dalam evaluasi cluster. Untuk menghitung purity, tiap cluster diberikan label kelas berdasarkan label yang paling sering muncul dalam cluster tersebut, dan kemudian akurasi cluster dihitung dengan jumlah data yang benar dibagi dengan banyak data (Chen, 200). Rentang purity dari 0 hingga. Semakin besar nilai purity, semakin baik cluster tersebut. Formula purity adalah sebagai berikut (Chen, 200) : Persamaan 2.9. Rumus penghitungan nilai purity 8

42 BAB III ANALISIS DAN PERANCANGAN SISTEM 3.. Analisis Sistem 3... Deskripsi Sistem Sistem yang akan dikembangkan dalam penelitian ini adalah sebuah sistem pengelompokan koleksi dan pencarian dokumen berdasarkan input query pengguna. Sistem ini terdiri dari dua sub sistem, yaitu sub sistem pengelompokan dokumen dan sub sistem pencarian dokumen Sub Sistem Pengelompokan Dokumen Sub sistem pengelompokan dokumen bertindak sebagai modul clustering dokumen. Nantinya koleksi dokumen yang diunggah oleh User ke dalam sistem mula-mula diproses oleh subsistem ini. Proses yang terjadi adalah tokenisasi, eliminasi stopword, stemming, lalu dilanjutkan dengan pembangunan termdocument matrix. Dalam penelitian ini, kolom dalam term-document matrix akan merepresentasikan term, selanjutnya disebut atribut atau feature. Sementara baris dalam term-document matrix akan merepresentasikan dokumen. Dari termdocument matrix inilah akan dilakukan pengelompokan koleksi. Jumlah cluster optimum akan dicari secara otomatis oleh sistem menggunakan algoritma G-Means, yaitu pemodelan cluster dengan memperhitungkan kenormalan distribusi dari tiap anggota cluster terhadap pusatnya masing-masing. Dari situ, dapat diketahui berapa jumlah cluster yang optimum. 9

43 Normalitas distribusi tiap cluster akan dihitung dengan menggunakan test statistik, dimana akan digunakan uji Anderson-Darling untuk menentukan apakah cluster sudah terdistribusi normal atau belum. Apabila suatu cluster belum terdistribusi normal, maka suatu cluster akan dipecah menjadi dua, dan seterusnya hingga terdistribusi normal. Alur subsistem ini ditunjukkan dalam gambar berikut ini : Pengklusteran Dokumen Input dokumen karya ilmiah Operasi tokenizing Feature selection Operasi stopword Operasi stemming Penghitungan tf, df dan w Pembangunan term-document matrix Implementasi G-Means untuk pemodelan cluster Simpan data cluster dan membernya, serta centroidnya Gambar 3.. Alur proses pengklusteran dokumen 20

44 3... Clustering dengan G-Means Penggunaan algoritma G-Means serta parameter-parameter yang digunakan dalam penelitian ini adalah sebagai berikut :. Ambil suatu subset X Subset X pada saat ini adalah seluruh dataset yang ada. Dataset ini dianggap sebagai satu cluster. Karena hanya terdapat satu cluster saja, centroid dari cluster ini adalah rerata dari tiap atribut dari dataset tersebut. 2. Pilih level signifikan α untuk uji. Level signifikan α dalam penelitian ini diinisalisasi dengan nilai Nilai ini nantinya akan dibandingkan dengan p-value dari hasil penghitungan uji statistik Anderson Darling. 3. Dari pusat cluster (centroid) yang dibentuk pada point tadi, ambil dua buah anak pusat cluster, dinotasikan dengan c dan c2. Caranya dengan menggunakan rumus pada Persamaan Jalankan K-Means pada X dengan dua centroid tersebut (c dan c2). K-Means dilakukan pada cluster yang diobservasi. Parameter jumlah cluster (k) memiliki nilai 2, dan seed untuk centroid awal adalah c dan c2. Kriteria penghentian iterasi dalam tahap ini adalah sebagai berikut : a. Jumlah iterasi telah melewati batas iterasi yang ditentukan, yaitu 000 kali iterasi, atau, b. Salah satu cluster kehilangan seluruh anggotanya (empty cluster), atau, c. Cluster sudah konvergen, ditandai dengan centroid dan anggota cluster tidak mengalami perubahan. Dengan kata lain, memiliki nilai dan jumlah yang sama dengan iterasi sebelumnya. 5. Hitung nilai vektor v dengan v = c c2. 2

45 6. Proyeksikan X ke v, menjadi X, dengan rumus pada Persamaan Normalisasi X` sehingga memiliki rerata 0 dan varian. Normalisasi untuk mengubah X sehingga memiliki rerata 0 dan varian dilakukan dengan menggunakan normalisasi z-score, yaitu normalisasi dengan rumus berikut ini : Persamaan 3.. Rumus penghitungan normalisasi z-score pada suatu data Dimana, - si = nilai normalisasi di titik data ke i dalam suatu atribut - xi = nilai awal data di titik data ke i dalam suatu atribut - µ - = nilai atribut dari atribut dimana terdapat data i = nilai standar deviasi dari atribut dimana terdapat data i 8. Hitung zi dengan rumus zi = F(xi). Penghitungan Cummulative Distribution Function (CDF) menggunakan java library yang dikhususkan untuk statistika, yaitu jdistlib. 9. Hitung. Apabila diterima. Sebaliknya apabila berada pada daerah non-kritis, maka H0 berada di dalam daerah kritis, maka H diterima dan pusat cluster yang baru adalah c dan c2. Penghitungan p-value akan digunakan untuk mengetahui apakah nilai berada pada daerah kritis atau non-kritis. Penghitungan p-value dilakukan dengan java library yang dikhususkan untuk statistika, yaitu jdistlib. Apabila nilai p-value lebih besar sama dengan nilai α, maka H0 diterima, yang artinya cluster tidak perlu dipecah menjadi dua cluster. Begitu pula sebaliknya, maka H diterima, yang artinya cluster perlu dipecah menjadi dua cluster. 22

46 Sub Sistem Pencarian Dokumen Sub sistem pencarian dokumen berfungsi untuk mencari dokumen yang memiliki kemiripan atau relevan dengan query yang diberikan oleh pengguna sistem. Query hanya akan dicocokkan dengan centroid tiap cluster dengan menggunakan operator boolean AND, dengan menggunakan Persamaan 2.2 untuk menghitung skor. Cluster yang memiliki centroid dengan skor yang tertinggi terhadap query pencarian user akan dicatat oleh sistem. Apabila tidak ada kecocokan dengan semua centroid, maka dicoba pencocokan dengan menggunakan operator OR. Apabila sudah ditemukan cluster yang sesuai, dokumen yang berada dalam cluster tersebut akan dibobot ulang oleh sistem menggunakan TF-IDF untuk kemudian ditampilkan urut ke pengguna berdasarkan bobot terhadap query yang diberikan oleh pengguna. Jumlah dokumen untuk penghitungan IDF didasarkan pada jumlah dokumen yang berada pada cluster terpilih. Aktor yang terlibat dalam sistem ini adalah User. User adalah aktor yang memiliki wewenang untuk melakukan pencarian dokumen dengan memberikan input berupa query pencarian pada sistem. Selain itu, user memiliki wewenang untuk memulai proses clustering dokumen. Alur subsistem ini ditampilkan dalam gambar berikut : 23

47 Pencarian Input query pencarian Operasi tokenizing Operasi stopword Operasi stemming Penghitungan tf, df, w Pembangunan term-query matrix Pembobotan cluster terhadap kueri, dengan membandingkan centroid terhadap kueri, dapat ditemukan bobot yang paling besar (cluster yg paling mirip dgn kueri) Load document id dari cluster yang paling mirip Hitung ulang bobot document member cluster tadi terhadap kueri Tampilkan hasil pencarian ke user Gambar 3.2. Alur proses pencarian dokumen Subsistem ini memiliki dua opsi untuk retrieval, yaitu retrieval berbasis cluster dan retrieval tanpa cluster. Retrieval berbasis cluster selanjutnya disebut dengan Sistem Pemerolehan Informasi berbasis Cluster, sementara retrieval tanpa cluster disebut dengan Sistem Pemerolehan Informasi Konvensional. Perbedaan kedua jenis sistem tersebut ditampilkan dalam gambar berikut ini : 24

48 User interface Text User need Text feedback Text operation Logical operation Logical view Query operation Indexing query Inverted file Searching Index Index Ranked docs DB Manager Module Text database Retrieved docs Ranking Gambar 3.3. Sistem Pemerolehan Informasi Konvensional (Baeza, 999) User interface Text User need Text feedback Text operation Logical operation Logical view Query operation Indexing query Inverted file Ranked docs Searching Cluster Cluster Index Index (Centroid) (Centroid) Clustering Retrieved docs Cluster Cluster Member Member (Documents) (Documents) Ranking Gambar 3.4. Sistem Pemerolehan Informasi Berbasis Cluster 25 DB Manager Module Text database

SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING

SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING SISTEM PEMEROLEHAN INFORMASI KARYA ILMIAH BERBASIS CLUSTER DENGAN G-MEANS CLUSTERING Agustinus Agri Ardyan 1), J.B. Budi Darmawan 2) 1, 2) Program Studi Teknik Informatika, Fakultas Sains dan Teknologi,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL MICHAEL SENNA SAPUTRA NIM. 1008605062 PROGRAM STUDI TEKNIK

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

APLIKASI MASALAH 0/1 KNAPSACK MENGGUNAKAN ALGORITMA GREEDY

APLIKASI MASALAH 0/1 KNAPSACK MENGGUNAKAN ALGORITMA GREEDY PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI APLIKASI MASALAH 0/1 KNAPSACK MENGGUNAKAN ALGORITMA GREEDY Skripsi Diajukan untuk Menempuh Salah Satu Syarat Memperoleh Gelar

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB II LANDASDAN TEORI

BAB II LANDASDAN TEORI DAFTAR ISI HALAMAN SAMPUL... HALAMAN JUDUL... i LEMBAR PERSETUJUAN... ii LEMBAR PENGESAHAN... iii MOTTO DAN PERSEMBAHAN... iv LEMBAR KEASLIAN... v HALAMAN PERNYATAAN PUBLIKASI... vi ABSTAKSI... vii ABSTRACT...

Lebih terperinci

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS i TESIS INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS DEDDY WIJAYA SULIANTORO No. Mhs. : 105301466/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

SISTEM TEMU BALIK INFORMASI

SISTEM TEMU BALIK INFORMASI SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

DAFTAR ISI. SKRIPSI... ii

DAFTAR ISI. SKRIPSI... ii DAFTAR ISI SKRIPSI... i SKRIPSI... ii HALAMAN PENGESAHAN... ii PERNYATAAN... iii HALAMAN MOTO DAN PERSEMBAHAN... iv PRAKATA... v DAFTAR ISI... vii DAFTAR GAMBAR... x DAFTAR TABEL... xiii INTISARI... xiv

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun

Lebih terperinci

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+ RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+ LEMBAR JUDUL SKRIPSI DENI SUPRIAWAN NIM. 1108605001 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Vol 2, No 3 Juni 2012 ISSN 2088-2130 Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Fika Hastarita Rachman Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Sumber informasi atau referensi sudah merupakan hal yang tidak asing lagi bagi seorang peneliti, terutamanya bagi para mahasiswa yang sedang melakukan penelitian untuk

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

CLUSTERING DOKUMEN TEKS BERDASARKAN FINGERPRINT BIWORD WINNOWING DENGAN MENGGUNAKAN METODE K-MEANS

CLUSTERING DOKUMEN TEKS BERDASARKAN FINGERPRINT BIWORD WINNOWING DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DOKUMEN TEKS BERDASARKAN FINGERPRINT BIWORD WINNOWING DENGAN MENGGUNAKAN METODE K-MEANS TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER

PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER SKRIPSI Diajukan Untuk Memenuhi Sebagian Persyaratan Mencapai Derajat Sarjana Teknik Informatika Oleh : Suryatul Arifidin NIM

Lebih terperinci

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING Julianto Wibowo Mahasiswa Program Studi Teknik Informatika, STMIK Budi Darma Medan Jl. Sisimangaraja

Lebih terperinci

LAPORAN SKRIPSI SISTEM INFORMASI LIGA FUTSAL BERBASIS WEB PADA UNITED FUTSAL STADIUM

LAPORAN SKRIPSI SISTEM INFORMASI LIGA FUTSAL BERBASIS WEB PADA UNITED FUTSAL STADIUM LAPORAN SKRIPSI SISTEM INFORMASI LIGA FUTSAL BERBASIS WEB PADA UNITED FUTSAL STADIUM Laporan ini disusun guna memenuhi salah satu syarat untuk Menyelesaikan program studi Sistem Informasi S-1 pada Fakultas

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

LAPORAN SKRIPSI SISTEM INFORMASI PENGELOLAAN PENGABDIAN MASYARAKAT DI UNIVERSITAS MURIA KUDUS BERBASIS WEB

LAPORAN SKRIPSI SISTEM INFORMASI PENGELOLAAN PENGABDIAN MASYARAKAT DI UNIVERSITAS MURIA KUDUS BERBASIS WEB LAPORAN SKRIPSI SISTEM INFORMASI PENGELOLAAN PENGABDIAN MASYARAKAT DI UNIVERSITAS MURIA KUDUS BERBASIS WEB Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan program studi Sistem Informasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI SISTEM PEMROLEHAN INFORMASI PUISI DENGAN MENGGUNAKAN QUERY EXPANSION BERDASARKAN THESAURUS SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Infomatika

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition.

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition. ABSTRAK Penelitian ini bertujuan untuk memudahkan pencarian dokumen-dokumen yang memiliki hubungan antar kata, bukan hanya pencarian pada judul dokumen saja akan tetapi dapat juga mencari dari isi dokumen

Lebih terperinci

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

ABSTRAK. Kata Kunci: information retrieval, rekomendasi, wanita, web portal UNIVERSITAS KRISTEN MARANATHA

ABSTRAK. Kata Kunci: information retrieval, rekomendasi, wanita, web portal UNIVERSITAS KRISTEN MARANATHA ABSTRAK Perancangan aplikasi berbasis web portal tentang wanita ini bertujuan untuk membantu wanita mendapatkan informasi yang dibutuhkan zaman sekarang ini. Perancangan website ini menggunakan konsep

Lebih terperinci

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI Disusun Oleh : ADAM ASSHIDIQ M0509001 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

SKRIPSI SISTEM REKOMENDASI WISATA KULINER DI YOGYAKARTA MENGGUNAKAN METODE KOLABORATIF (COLLABORATIVE METHOD)

SKRIPSI SISTEM REKOMENDASI WISATA KULINER DI YOGYAKARTA MENGGUNAKAN METODE KOLABORATIF (COLLABORATIVE METHOD) SKRIPSI SISTEM REKOMENDASI WISATA KULINER DI YOGYAKARTA MENGGUNAKAN METODE KOLABORATIF (COLLABORATIVE METHOD) ANDI NUR SODIK Nomor Mahasiswa : 105410075 PROGRAM STUDI TEKNIK INFORMATIKA SEKOLAH TINGGI

Lebih terperinci

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25 54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi

Lebih terperinci

PEMEROLEHAN INFORMASI MENGGUNAKAN INVERTED INDEX DENGAN STRUKTUR DATA KLASIK VS ORDBMS

PEMEROLEHAN INFORMASI MENGGUNAKAN INVERTED INDEX DENGAN STRUKTUR DATA KLASIK VS ORDBMS PEMEROLEHAN INFORMASI MENGGUNAKAN INVERTED INDEX DENGAN STRUKTUR DATA KLASIK VS ORDBMS J.B. Budi Darmawan Dosen Program Studi Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Sanata Dharma

Lebih terperinci

1. Pendahuluan. 1.1 Latar belakang

1. Pendahuluan. 1.1 Latar belakang 1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu

Lebih terperinci

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

PENGELOMPOKAN DOKUMEN BAHASA INDONESIA DENGAN TEKNIK REDUKSI DIMENSI NONNEGATIVE MATRIX FACTORIZATION DAN RANDOM PROJECTION SKRIPSI

PENGELOMPOKAN DOKUMEN BAHASA INDONESIA DENGAN TEKNIK REDUKSI DIMENSI NONNEGATIVE MATRIX FACTORIZATION DAN RANDOM PROJECTION SKRIPSI UNIVERSITAS INDONESIA PENGELOMPOKAN DOKUMEN BAHASA INDONESIA DENGAN TEKNIK REDUKSI DIMENSI NONNEGATIVE MATRIX FACTORIZATION DAN RANDOM PROJECTION SKRIPSI Suryanto Ang 1205000886 FAKULTAS ILMU KOMPUTER

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

SISTEM PENDUKUNG KEPUTUSAN PEMILIHAN LOKASI PERUMAHAN DENGAN METODE SIMPLE ADDITIVE WEIGHTING (SAW)

SISTEM PENDUKUNG KEPUTUSAN PEMILIHAN LOKASI PERUMAHAN DENGAN METODE SIMPLE ADDITIVE WEIGHTING (SAW) LAPORAN SKRIPSI SISTEM PENDUKUNG KEPUTUSAN PEMILIHAN LOKASI PERUMAHAN DENGAN METODE SIMPLE ADDITIVE WEIGHTING (SAW) Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan program studi

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

LAPORAN SKRIPSI SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PENERIMA PROGRAM KELUARGA HARAPAN PADA KECAMATAN DEMPET MENGGUNAKAN METODE TOPSIS

LAPORAN SKRIPSI SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PENERIMA PROGRAM KELUARGA HARAPAN PADA KECAMATAN DEMPET MENGGUNAKAN METODE TOPSIS LAPORAN SKRIPSI SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PENERIMA PROGRAM KELUARGA HARAPAN PADA KECAMATAN DEMPET MENGGUNAKAN METODE TOPSIS Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

UNIVERSITAS BINA NUSANTARA. Jurusan Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil tahun 2005/2006

UNIVERSITAS BINA NUSANTARA. Jurusan Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil tahun 2005/2006 UNIVERSITAS BINA NUSANTARA Jurusan Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil tahun 2005/2006 PERANCANGAN SEARCH ENGINE MENGGUNAKAN ALGORITMA EXTENDED BOOLEAN PADA SITUS PERPUSTAKAAN UNIVERSITAS

Lebih terperinci

LAPORAN SKRIPSI SISTEM INFORMASI BURSA KERJA DI PUSAT KARIR DAN PELACAKAN ALUMNI UNIVERSITAS MURIA KUDUS BERBASIS WEB

LAPORAN SKRIPSI SISTEM INFORMASI BURSA KERJA DI PUSAT KARIR DAN PELACAKAN ALUMNI UNIVERSITAS MURIA KUDUS BERBASIS WEB LAPORAN SKRIPSI SISTEM INFORMASI BURSA KERJA DI PUSAT KARIR DAN PELACAKAN ALUMNI UNIVERSITAS MURIA KUDUS BERBASIS WEB Disusun Oleh : Nama : Bayu Adi Purnomo NIM : 2008 53 250 Program Studi : Sistem Informasi

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

UNIVERSITAS BINA NUSANTARA ANALISIS DAN PERANCANGAN BASIS DATA EKSPEDISI BARANG PADA PT. PELAYARAN NASIONAL SARANABAHARI PRIMA

UNIVERSITAS BINA NUSANTARA ANALISIS DAN PERANCANGAN BASIS DATA EKSPEDISI BARANG PADA PT. PELAYARAN NASIONAL SARANABAHARI PRIMA UNIVERSITAS BINA NUSANTARA Jurusan Teknik Informatika Jenjang Pendidikan Strata-1 Skripsi Sarjana Komputer Semester Ganjil tahun 2005/2006 ANALISIS DAN PERANCANGAN BASIS DATA EKSPEDISI BARANG PADA PT.

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

FAKULTAS TEKNIK UNIVERSITAS MURIA KUDUS KUDUS

FAKULTAS TEKNIK UNIVERSITAS MURIA KUDUS KUDUS LAPORAN SKRIPSI Sistem Pendukung Keputusan Penerimaan Beasiswa Pada SMA 1 Bae Kudus Dengan Metode SAW (Simple Additive Weighting) Berbasis Web Nama Disusun Oleh : : Muhamad Kurniawan Febrianto NIM : 2011-53-160

Lebih terperinci

Information Retrieval

Information Retrieval Information Retrieval Budi Susanto Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity?

Lebih terperinci

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi 3. METODOLOGI A. Kerangka Pemikiran Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi dan Pembuatan Prototipe Sistem (Gambar 3.1). Tahap Persiapan terdiri dari pengumpulan dokumen, input

Lebih terperinci