SISTEM TEMU BALIK ARTIKEL ILMIAH MENGGUNAKAN VECTOR SPACE MODEL DAN DI KELOMPOKKAN DENGAN K-MEANS CLUSTERING

dokumen-dokumen yang mirip
SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

DAFTAR ISI. SKRIPSI... ii

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

BAB I PENDAHULUAN Latar Belakang

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB II LANDASDAN TEORI

BAB III METODOLOGI PENELITIAN

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

BAB 1 PENDAHULUAN UKDW

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

PENERAPAN STEMMING DENGAN ALGORITMA PORTER PADA QUERY PENCARIAN JUDUL BUKU

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN UKDW

DAFTAR ISI... LEMBAR JUDUL LEMBAR PENGESAHAN... SURAT PERNYATAAN... ABSTRAK... ABSTRACT... KATA PENGANTAR... DAFTAR TABEL... DAFTAR GAMBAR...

RANCANG BANGUN APLIKASI SISTEM MANAJEMENT TRAINING KARYAWAN BERBASIS WEB DI CITIBANK INDONESIA. Laporan Tugas Akhir

APLIKASI DATA MINING UNTUK ANALISIS ASOSIASI POLA PEMBELIAN DENGAN ALGORITMA APRIORI

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

DAFTAR ISI... LEMBAR JUDUL LEMBAR PENGESAHAN... SURAT PERNYATAAN... ABSTRAK... ABSTRACT... KATA PENGANTAR... DAFTAR TABEL... DAFTAR GAMBAR...

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB I PENDAHULUAN Latar Belakang

PERANCANGAN SISTEM INFORMASI PENDISTRIBUSIAN SURAT MASUK BERBASIS WEB DI DIVISI MANAJEMEN PRODUK PADA PT. BANK NEGARA INDONESIA (Persero) TBK.

APLIKASI UJIAN ONLINE DENGAN JAWABAN ESSAY BERBASIS WEB DENGAN PHP DAN MYSQL NOVITA INDHIT EKASARI

UNIVERSITAS BINA NUSANTARA. Jurusan Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil tahun 2005/2006

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

DAFTAR ISI LEMBAR PENGESAHAN SURAT PERNYATAAN ABSTRAK ABSTRACT KATA PENGANTAR DAFTAR TABEL DAFTAR GAMBAR BAB I PENDAHULUAN I

BAB III METODOLOGI PENELITIAN

ALGORITMA K-MEANS UNTUK PENGELOMPOKAN BANK BERDASARKAN KOMPOSISI DANA PIHAK KETIGA (DPK) DAN JUMLAH JARINGAN KANTOR

PENGEMBANGAN SISTEM INFORMASI EKSPLOITASI PRODUKSI KAYU PERUM PERHUTANI UNIT I JAWA TENGAH

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR

APLIKASI MONITORING PELANGGARAN SISWA ONLINE BERBASIS ANDROID WEB APP BUDIMAN RAHARDJO

APLIKASI BERBASIS WEB SISTEM INFORMASI MANAJEMEN WIDYAISWARA MENGGUNAKAN FRAMEWORK YII

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

PENGESAHAN PEMBIMBING...

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PERSYARATAN PRODUK

DAFTAR ISI. PRAKATA... iv. ARTI LAMBANG DAN SINGKATAN... vi. ABSTRACT... vii. INTISARI... viii. DAFTAR ISI... ix. DAFTAR GAMBAR...

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

SISTEM MONITORING PEMBAYARAN PADA PT PLN (PERSERO) DISTRIBUSI BANTEN BERBASIS WEB

APLIKASI PENDUKUNG KEPUTUSAN PENERIMAAN BEASISWA PPA DAN BBP-PPA MENGGUNAKAN METODE SMART BERBASIS WEB

APLIKASI PENCARIAN GEDUNG SERBAGUNA DI JAKARTA BERBASIS WEB

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB III METODOLOGI PENELITIAN

APLIKASI METODE AHP (ANALYTICAL HIERARCHY PROCESS) UNTUK SELEKSI KARYA ILMIAH PADA SEMINAR NASIONAL (STUDI KASUS JURUSAN INFORMATIKA FSM UNDIP)

IMPLEMENTASI ALGORITMA K-MEANS CLUSTERING PADA APLIKASI PENCARI PELANGGAN POTENSIAL PADA RESTORAN XYZ. Asri Ulfa Latifa

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

SKRIPSI. MERANCANG SISTEM PAKAR BERBASIS FUZZY UNTUK PRA PENGUJIAN JUDUL SKRIPSI (Studi Teknik Informatika)

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

DAFTAR ISI. ABSTRAK... i. KATA PENGANTAR... ii. DAFTAR ISI... iv. DAFTAR GAMBAR... xv. DAFTAR TABEL...xxi. DAFTAR SIMBOL... xxii

APLIKASI MANAJEMEN PROYEK PERANGKAT LUNAK (STUDI KASUS: PT. GLOBAL ANUGERAH INDONESIA) M. ASHWARI NUGRAHA

APLIKASI PEMBELAJARAN UKURAN PEMUSATAN DATA BERBASIS WEB

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

I.2 Identifikasi Masalah... I-2. I.3 Rumusan Masalah... I-2. I.4 Tujuan... I-3. I.5 Manfaat... I-3. I.6 Batasan Masalah... I-3

BAB II LANDASAN TEORI

SISTEM PAKAR DIAGNOSIS KERUSAKAN NOTEBOOK MENGUNAKAN METODE INFERENSI FORWARD CHAINING DAN TEOREMA BAYES (STUDI KASUS JOGJA COMPUTER) SKRIPSI

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

TUGAS AKHIR. Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik Informatika. Oleh :

APLIKASI PERPUSTAKAAN BERBASIS WEB DENGAN MENGGUNAKAN PHP MYSQL DAN BARCODE AZHARI

SISTEM INFORMASI PELAYANAN HAJI DAN UMROH BERBASIS WEB PADA PT. BUSINDO AYANA

DAFTAR ISI... LEMBAR JUDUL LEMBAR PENGESAHAN... SURAT PERNYATAAN... ABSTRAK... ABSTRACT... KATA PENGANTAR... DAFTAR TABEL... DAFTAR GAMBAR...

BAB III METODOLOGI PENELITIAN

SKRIPSI. Disusun Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Komputer pada Jurusan Ilmu Komputer/Informatika.

ANALISIS DAN PERANCANGAN SISTEM INFORMASI TATA KELOLA SURAT DINAS (STUDI KASUS PUSTEKKOM KEMENDIKBUD)

IMPLEMENTASI METODE COLLABORATIVE TAGGING PADA SISTEM REKOMENDASI ARTIKEL PUBLIKASI ILMIAH SKRIPSI HASMI FARHANDANI ANSARI

BAB II TINJAUAN PUSTAKA

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

APLIKASI PEMESANAN RUANG RAPAT UNTUK INTERNAL DAN EKSTERNAL BERBASIS WEB PADA HOTEL KARTIKA CHANDRA. Tantri Subekti

PERANCANGAN SISTEM PEMESANAN SERVIS MOBIL ONLINE BERBASIS WEB PADA PT. SRIKANDI MOTOR

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

UJIAN ONLINE MASUK SEKOLAH SMP BERBASIS WEB, STUDI KASUS XYZ FAJAR MAULANA YUSUP

SISTEM INFORMASI PENGELOLAAN BERKAS SIDANG PERKARA PIDANA PENGADILAN NEGERI KUDUS

DAFTAR ISI. HALAMAN JUDUL... i. HALAMAN PERSETUJUAN... ii. HALAMAN PENGESAHAN... iii. HALAMAN PERSEMBAHAN... iv. HALAMAN MOTTO... v. INTISARI...

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

JURNAL INFORMATIKA IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Penerapan Algoritma K-Means untuk Clustering

SISTEM PENDUKUNG KEPUTUSAN UNTUK KENAIKAN PANGKAT DAN JABATAN DI PD. PAM JAYA MENGGUNAKAN METODE ANALITICAL HIERARCHY PROCESS (AHP)

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

SISTEM INFORMASI PELAYANAN FASILITAS POLIKLINIK UMUM PADA PT PANARUB INDUSTRY BERBASIS WEB. Oleh: BETI MAYASARI

SKRIPSI. Perancangan Sistem Pakar Untuk Menentukan Kerusakan Pada Handphone Berbasis Web

SISTEM INFORMASI USAHA KECIL MENENGAH (UKM) DAN FASILITAS PUBLIK DI AREA UNIVERSITAS MERCU BUANA BERBASIS WEB. Nama : Risky Miftahul Fajri

Rancang Bangun Aplikasi Penjadwalan Berbasis Web Untuk Teknisi Dalam Perawatan Fasilitas Hotel Royal Safari Garden

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PENGEMBANGAN MEDIA PEMBELAJARAN BERBASIS WEB DENGAN AKSES VIEW SISWA MENGGUNAKAN MOBILE APPLICATION SKRIPSI

SISTEM PENDUKUNG KEPUTUSAN PEMILIHAN PERGURUAN TINGGI SWASTA DI SURABAYA DENGAN MENGGUNAKAN METODE ANALYTICAL HIERARCHY PROCESS (AHP) SKRIPSI

BAB II TINJAUAN PUSTAKA

Transkripsi:

SISTEM TEMU BALIK ARTIKEL ILMIAH MENGGUNAKAN VECTOR SPACE MODEL DAN DI KELOMPOKKAN DENGAN K-MEANS CLUSTERING SKRIPSI Disusun Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu Komputer/ Informatika Disusun oleh: DZULFIKAR FAUZI 24010313140065 DEPARTEMEN ILMU KOMPUTER/ INFORMATIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO 2018 i

HALAMAN PERNYATAAN KEASLIAN SKRIPSI Judul : Sistem Temu Kembali Artikel Ilmiah menggunakan Vector Space Model dan di kelompokkan dengan K-Means Clustering Nama : Dzulfikar Fauzi NIM : 24010313140065 Dengan ini saya menyatakan bahwa dalam Tugas Akhir/ Skripsi ini tidak terdapat karya yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu Perguruan Tinggi, dan sepanjang pengetahuan saya juga tidak terdapat karya atau pendapat yang pernah ditulis atau diterbitkan oleh orang lain, kecuali yang secara tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka. Semarang, 22 Mei 2018 Dzulfikar Fauzi NIM 24010313140065 ii

HALAMAN PENGESAHAN Judul : Sistem Temu Kembali Artikel Ilmiah menggunakan Vector Space Model dan di kelompokkan dengan K-Means Clustering Nama : Dzulfikar Fauzi NIM : 24010313140065 Telah diujikan pada sidang tugas akhir pada tanggal 7 Mei 2018 dan dinyatakan lulus pada tanggal 7 Mei 2018. Mengetahui, Ketua Departemen Ilmu Komputer/Informatika Semarang, 22 Mei 2018 Ketua Penguji Tugas Akhir Dr. Retno Kusumaningrum, S.Si, M.Kom NIP. 19810420 200501 2001 Helmie Arif Wibawa, S.Si., M.Cs NIP. 19780516 200312 1001 iii

HALAMAN PENGESAHAN Judul : Sistem Temu Kembali Artikel Ilmiah menggunakan Vector Space Model dan di kelompokkan dengan K-Means Clustering Nama : Dzulfikar Fauzi NIM : 24010313140065 Telah diujikan pada sidang tugas akhir pada tanggal 7 Mei 2018. Semarang, 22 Mei 2018 Dosen Pembimbing, Sukmawati Nur Endah, S.Si., M.Kom NIP. 19780502 200501 2002 iv

ABSTRAK Sistem Temu Balik Informasi (Information Retrieval) merupakan sistem yang digunakan untuk menemukan informasi yang relevan dengan kebutuhan dari penggunanya secara otomatis dari suatu koleksi informasi. Dengan banyaknya jumlah dokumen yang ter-retrieve, akan lebih mudah jika hasil dokumen ter-retrieve itu akan dikelompokkan secara otomatis sesuai dengan kemiripannya. Pada penelitian ini digunakan metode Vector Space Model untuk penerapan pencarian dokumen (information retrieval) dan K-Means Clustering untuk pengelompokkan dokumen. Hasil dari kinerja pencarian dokumen artikel ilmiah pada hasil implementasi Vector Space Model mempunyai nilai MAP sebesar 0.955034122, yang mengindikasikan sistem mampu me-retrieve dokumen yang relevan terhadap user sebesar 95.50%. Kemudian hasil dari kinerja pengelompokkan dokumen artikel ilmiah pada hasil implementasi metode K-Means Clustering adalah pada jumlah pengelompokkan 2 cluster memperoleh kualitas sebesar 81.09%, dan untuk jumlah pengelompokkan 4 cluster memperoleh kualitas sebesar 48.01%. Kata Kunci : Sistem Temu Balik Informasi, Vector Space Model, K-Means Clustering, Artikel Ilmiah v

ABSTRACT Information Retrieval (Information Retrieval) is a system used to find information relevant to the needs of its users automatically from a collection of information. With the large number of retrieved documents, it would be easier if the retrieved documents would be automatically grouped according to their similarity. In this research, Vector Space Model is used to apply document retrieval and K-Means Clustering for grouping documents. The results of the scientific paper article search performance on the Vector Space Model implementation results have a MAP value of 0.955034122, indicating a system capable of retrieving relevant documents to the user of 95.50%. Then the result of the performance of grouping of scientific article documents on the result of K-Means Clustering method implementation is on the number of clustering 2 clusters get the quality of 81.09%, and for the number of clustering 4 clusters get the quality of 48.01%. Kata Kunci : Information Retrieval System, Vector Space Model, K-Means Clustering, Scientific Articles vi

KATA PENGANTAR Segala puji syukur bagi Allah SWT atas karunia-nya yang diberikan kepada penulis sehingga penulis dapat menyelesaikan tugas akhir ini. Tugas akhir yang berjudul Analisis Sentimen Menggunakan Latent Dirichlet Allocation dan Visualisasi Topic Polarity Wordcloud. Tugas akhir ini disusun sebagai salah satu syarat untuk memperoleh gelar sarjana strata satu pada Departemen Ilmu Komputer/Informatika Fakultas Sains dan Matematika Universitas Diponegoro Semarang. Dalam penyusunan laporan tugas akhir ini tentulah telah banyak mendapat bantuan dan dukungan dari berbagai pihak. Untuk itu, pada kesempatan ini penulis mengucapkan rasa hormat dan terima kasih kepada: 1. Ibu Dr. Retno Kusumaningrum, S.Si, M.Kom, selaku Ketua Departemen Ilmu Komputer/ Informatika FSM Universitas Diponegoro Semarang. 2. Helmie Arif Wibawa, S.Si, M.Cs, selaku Koordinator Tugas Akhir Departemen Ilmu Komputer/ Informatika FSM Universitas Diponegoro Semarang. 3. Sukmawati Nur Endah, S.Si, M.Kom, selaku dosen Pembimbing yang telah meluangkan waktu dan berkenan memberikan bimbingan, arahan, masukan, serta motivasi yang sangat berharga dan fokus akan tujuan bagi penulis. 4. Semua pihak yang tidak dapat disebutkan satu persatu yang telah membantu kelancaran penelitian ini, semoga Tuhan yang memberikan balasan yang lebih baik. Penulis menyadari bahwa dalam laporan ini masih banyak kekurangan baik dari segi materi ataupun dalam penyajiannya karena keterbatasan kemampuan dan pengetahuan penulis. Oleh karena itu, kritik dan saran sangat penulis harapkan. Semoga laporan ini dapat bermanfaat bagi pembaca pada umumnya dan penulis pada khususnya. Semarang, 22 Mei 2018 Dzulfikar Fauzi vii

DAFTAR ISI Hal HALAMAN PERNYATAAN KEASLIAN SKRIPSI... ii HALAMAN PENGESAHAN... iii HALAMAN PENGESAHAN... iv ABSTRAK... v ABSTRACT... vi KATA PENGANTAR... vii DAFTAR ISI... viii DAFTAR GAMBAR... xii DAFTAR TABEL... xv DAFTAR LAMPIRAN... xvii BAB I PENDAHULUAN... 1 1.1. Latar Belakang... 1 1.2. Rumusan Masalah... 3 1.3. Tujuan dan Manfaat... 3 1.4. Ruang Lingkup... 3 1.5. Sistematika Penulisan... 4 BAB II TINJAUAN PUSTAKA... 5 2.1. Penilitian Terkait (State of the art)... 5 2.2. Penelusuran Literatur Artikel Ilmiah... 7 2.3. Sistem Temu Balik Informasi (Information Retrieval)... 9 2.4. Preprocessing... 10 2.4.1. Tokenisasi... 11 2.4.2. Penghapusan Stopword... 11 2.4.3. Stemming... 12 viii

2.4.4. Indexing Text... 19 2.5. Vector Space Model... 19 2.6. K-Means Clustering... 21 2.7. Penilaian Relevansi... 25 2.8. Penilaian Kappa... 27 2.9. Purity untuk Clustering... 28 2.10. Model Pengembangan Perangkat Lunak... 28 BAB III METODOLOGI PENELITIAN... 31 3.1. Tahapan Proses Penelitian... 31 3.1.1. Pengumpulan Data Artikel... 32 3.1.2. Preprocessing... 32 3.1.2.1. Tokenisasi... 33 3.1.2.2. Penghapusan Stopword... 34 3.1.2.3. Stemming... 35 3.1.2.4. Pembobotan Kata... 36 3.1.2.5. Indexing Text... 36 3.1.3. Proses Pencarian... 37 3.1.4. Proses Clustering... 38 3.1.5. Evaluasi... 39 3.2. Contoh Hasil Proses Penelitian... 40 3.3. Analisa dan Perancangan Sistem... 51 3.3.1. Analisis Sistem... 51 3.3.1.1. Deskripsi Sistem... 51 3.3.1.2. Daftar Aktor... 52 3.3.1.3. Kebutuhan Fungsional Sistem... 52 3.3.1.4. Kebutuhan Non-Fungsional Sistem... 53 3.3.2. Perancangan Sistem... 53 ix

3.3.2.1. Pemodelan Use Case Sistem... 53 3.3.2.1.1. Skenario melakukan pencarian artikel ilmiah... 54 3.3.2.1.2. Skenario melihat hasil pengelompokkan artikel ilmiah... 56 3.3.2.1.3. Skenario melihat hasil tahapan proses dari tiap metode... 57 3.3.2.1.4. Skenario melakukan login... 58 3.3.2.1.5. Skenario melakukan logout... 59 3.3.2.1.6. Skenario melakukan kelola artikel ilmiah... 60 3.3.2.1.7. Skenario melakukan update hasil preprocessing... 64 3.3.2.1.8. Skenario melakukan update jumlah cluster... 64 3.3.2.2. Realisasi Use Case Tahap Analisis... 65 3.3.2.2.1. Melakukan pencarian artikel ilmiah... 65 3.3.2.2.2. Melihat hasil pengelompokkan artikel ilmiah... 66 3.3.2.2.3. Melihat hasil tahapan proses tiap metode... 66 3.3.2.2.4. Melakukan login... 67 3.3.2.2.5. Melakukan logout... 68 3.3.2.2.6. Melakukan kelola artikel ilmiah... 68 3.3.2.2.7. Melakukan update hasil preprocessing... 71 3.3.2.2.8. Melakukan update jumlah cluster... 72 3.3.2.3. Realisasi Use Case Tahap Perancangan... 73 3.3.2.3.1. Perancangan Class Diagram... 73 3.3.2.3.1. Perancangan Database... 75 BAB IV HASIL DAN ANALISA HASIL PENELITIAN... 77 4.1. Implementasi... 77 4.1.1. Implementasi Class Diagram... 77 4.1.2. Implementasi Antarmuka... 78 4.1.2.1. Implementasi Antarmuka Home... 78 4.1.2.2. Implementasi Antarmuka Rank Results... 79 x

4.1.2.3. Implementasi Antarmuka Group Results... 79 4.1.2.4. Implementasi Antarmuka Process Details... 79 4.1.2.5. Implementasi Antarmuka Login... 80 4.1.2.6. Implementasi Antarmuka Logout... 81 4.1.2.7. Implementasi Antarmuka Manage Articles... 81 4.1.2.8. Implementasi Antarmuka Add Article... 82 4.1.2.9. Implementasi Antarmuka View Article... 83 4.1.2.10. Implementasi Antarmuka Edit Article... 83 4.1.2.11. Implementasi Antarmuka Delete Article... 84 4.1.2.12. Implementasi Antarmuka Delete All Article... 85 4.1.2.13. Implementasi Antarmuka Update Data... 85 4.1.2.14. Implementasi Antarmuka Setting... 85 4.2. Pengujian... 86 4.2.1. Spesifikasi Perangkat... 86 4.2.2. Data Penelitian... 87 4.2.3. Pengujian Fungsional Sistem... 87 4.2.3.1. Rencana Pengujian... 87 4.2.3.2. Hasil Pengujian... 88 4.2.4. Pengujian Kinerja Sistem... 88 4.2.4.1. Pengujian Pencarian Dokumen... 88 4.2.4.2. Pengujian Pengelompokkan Dokumen... 91 BAB V KESIMPULAN... 94 5.1. Kesimpulan... 94 5.2. Saran...... 94 DAFTAR PUSTAKA... 96 LAMPIRAN-LAMPIRAN... 100 xi

DAFTAR GAMBAR Hal Gambar 2.1. Tampilan hasil pencarian pada Google Scholar... 9 Gambar 2.2. Kerangka dari Sistem Temu Balik Informasi Sederhana... 10 Gambar 2.3. Metodologi indexing text... 11 Gambar 2.4. Diagram Alur Algoritma K-Means Clustering... 24 Gambar 2.5. Proses Pengembangan dengan Pendekatan waterfall... 29 Gambar 3.1. Diagram blok proses sistem temu balik artikel ilmiah... 31 Gambar 3.2. Tampilan jurnal online UNDIP JMASIF... 32 Gambar 3.3. Diagram alur preprocessing... 33 Gambar 3.4. Diagram alur proses tokenisasi... 34 Gambar 3.5. Diagram alur proses penghapusan stopword... 35 Gambar 3.6. Diagram alur proses stemming... 36 Gambar 3.7. Diagram alur proses indexing text... 37 Gambar 3.8. Diagram alur proses vector space model... 38 Gambar 3.9. Contoh proses tokenisasi... 41 Gambar 3.10. Contoh proses penghapusan stopword... 41 Gambar 3.11. Contoh proses stemming... 42 Gambar 3.12. Contoh proses indexing text... 44 Gambar 3.13. Diagram use case... 54 Gambar 3.14. Sketsa antarmuka use case melakukan pencarian artikel ilmiah (1)... 55 Gambar 3.15. Sketsa antarmuka use case melakukan pencarian artikel ilmiah (2)... 56 Gambar 3.16. Sketsa antarmuka alternatif 1 use case melakukan pencarian artikel ilmiah 56 Gambar 3.17. Sketsa antarmuka use case menampilkan tahapan proses dari tiap metode 58 Gambar 3.18. Sketsa antarmuka use case melakukan login... 59 Gambar 3.19. Sketsa antarmuka use case melakukan logout... 60 xii

Gambar 3.20. Sketsa antarmuka use case melakukan kelola artikel ilmiah... 62 Gambar 3.21. Sketsa antarmuka alternatif 1 usecase menambah artikel ilmiah... 62 Gambar 3.22. Sketsa antarmuka alternatif 2 usecase melihat artikel ilmiah... 62 Gambar 3.23. Sketsa antarmuka alternatif 3 usecase mengedit artikel ilmiah... 63 Gambar 3.24. Sketsa antarmuka alternatif 4 usecase menghapus artikel ilmiah... 63 Gambar 3.25. Sketsa antarmuka alternatif 5 usecase menghapus semua artikel ilmiah... 63 Gambar 3.26. Sketsa antarmuka usecase melakukan update jumlah cluster... 65 Gambar 3.27. Analysis class model melakukan pencarian artikel ilmiah... 65 Gambar 3.28. Sequence diagram melakukan pencarian artikel ilmiah... 66 Gambar 3.29. Analysis class model melihat hasil pengelompokkan artikel ilmiah... 66 Gambar 3.30. Sequence diagram melihat hasil pengelompokkan artikel ilmiah... 66 Gambar 3.31. Analysis class model melihat hasil tahapan proses tiap metode... 67 Gambar 3.32. Sequence diagram melihat hasil tahapan proses tiap metode... 67 Gambar 3.33. Analysis class model melakukan login... 67 Gambar 3.34. Sequence diagram melakukan login... 68 Gambar 3.35. Analysis class model melakukan logout... 68 Gambar 3.36. Sequence diagram melakukan logout... 68 Gambar 3.37. Analysis class model alternatif 1 menambah artikel ilmiah... 69 Gambar 3.38. Analysis class model alternatif 2 melihat artikel ilmiah... 69 Gambar 3.39. Analysis class model alternatif 3 mengedit artikel ilmiah... 69 Gambar 3.40. Analysis class model alternatif 4 menghapus artikel ilmiah... 69 Gambar 3.41. Analysis class model alternatif 5 menghapus semua artikel ilmiah... 70 Gambar 3.42. Sequence diagram alternatif 1 menambah artikel ilmiah... 70 Gambar 3.43. Sequence diagram alternatif 2 melihat artikel ilmiah... 70 Gambar 3.44. Sequence diagram alternatif 3 mengedit artikel ilmiah... 70 Gambar 3.45. Sequence diagram alternatif 4 menghapus artikel ilmiah... 71 Gambar 3.46. Sequence diagram alternatif 5 menghapus semua artikel ilmiah... 71 xiii

Gambar 3.47. Analysis class model melakukan update hasil preprocessing... 71 Gambar 3.48. Sequence diagram melakukan update hasil preprocessing... 72 Gambar 3.49. Analysis class model melakukan update jumlah cluster... 72 Gambar 3.50. Sequence diagram melakukan update jumlah cluster... 72 Gambar 3.51. Class Diagram SipLah... 73 Gambar 4.1. Implementasi Antarmuka Home... 78 Gambar 4.2. Implementasi Antarmuka Rank Results... 79 Gambar 4.3. Implementasi Antarmuka Process Details... 80 Gambar 4.4. Implementasi Antarmuka Login... 80 Gambar 4.5. Implementasi Antarmuka Logout... 81 Gambar 4.6. Implementasi Antarmuka Manage Articles... 82 Gambar 4.7. Implementasi Antarmuka Add Articles... 82 Gambar 4.8. Implementasi Antarmuka View Article... 83 Gambar 4.9. Implementasi Antarmuka Edit Article... 84 Gambar 4.10. Implementasi Antarmuka Delete Article... 84 Gambar 4.11. Implementasi Antarmuka Delete All Article... 85 Gambar 4.12. Implementasi Antarmuka Setting... 86 Gambar 4.13. Grafik average precision oleh user terhadap query... 90 xiv

DAFTAR TABEL Hal Tabel 2.1. Penelitian terkait sistem temu kembali informasi teks berbahasa indonesia dan usulan penelitian tugas akhir sistem temu balik artikel ilmiah... 5 Tabel 2.2. Aturan pemenggalan awalan stemmer Nazief & Adriani... 15 Tabel 2.3. Modifikasi dan tambahan aturan pada Tabel 2.2 oleh algoritma CS Stemmer. 17 Tabel 2.4. Modifikasi dan aturan untuk Tabel 2.2 oleh algoritma ECS stemmer... 19 Tabel 2.5. Perbedaan karakteristik umum metode clustering... 22 Tabel 2.6. Tingkat relevansi, defenisi dan interpretasi yang digunakan dalam penilaian relevansi... 26 Tabel 3.1. Contoh hasil nilai TF-IDF... 43 Tabel 3.2. Contoh hasil nilai pembobotan kata tiap dokumen dan query... 43 Tabel 3.3. Contoh hasil nilai cosine similarity tiap dokumen... 45 Tabel 3.4. Contoh hasil proses k-means clustering iterasi ke-1... 46 Tabel 3.5. Contoh hasil proses k-means clustering iterasi ke-2... 47 Tabel 3.6. Contoh hasil proses k-means clustering iterasi ke-3/ terakhir... 47 Tabel 3.7. Contoh hasil pengelompokkah artikel ilmiah... 48 Tabel 3.8. Contoh hasil perhitungan precision dan recall... 48 Tabel 3.9. Contoh data pengelompokkan dokumen... 50 Tabel 3.10. Contoh data irisan dokumen untuk 2 cluster... 51 Tabel 3.11. Daftar Aktor... 52 Tabel 3.12. Kebutuhan fungsional... 52 Tabel 3.13. Kebutuhan non-fungsional... 53 Tabel 3.14. Diagram skenario melakukan pencarian artikel ilmiah... 55 Tabel 3.15. Diagram skenario melihat hasil pengelompokkan artikel ilmiah... 57 Tabel 3.16. Diagram skenario menampilkan tahapan proses dari tiap metode... 57 xv

Tabel 3.17. Diagram skenario melakukan login... 58 Tabel 3.18. Diagram skenario melakukan logout... 59 Tabel 3.19. Diagram skenario melakukan kelola artikel ilmiah... 60 Tabel 3.20. Diagram skenario melakukan update hasil preprocessing... 64 Tabel 3.21. Diagram skenario melakukan update jumlah cluster... 64 Tabel 3.22. Deskripsi Class Diagram... 74 Tabel 3.23. Tabel Articles... 75 Tabel 3.24. Tabel Preprocessing... 76 Tabel 3.25. Tabel Admin... 76 Tabel 4.1. Implementasi class diagram... 77 Tabel 4.2. Rencana Pengujian... 87 Tabel 4.3. Hasil average precision dan measure average precision... 89 Tabel 4.4. Hasil ground truth untuk 2 cluster... 91 Tabel 4.5. Hasil ground truth untuk 4 cluster... 92 Tabel 4.6. Hasil perhitungan purity untuk 2 cluster... 92 Tabel 4.7. Hasil perhitungan purity untuk 4 cluster... 92 Tabel L.2.1. Daftar stopword library sastrawi... 101 Tabel L.4.1. Daftar dokumen artikel ilmiah... 102 Tabel L.4.2. Daftar hasil pengujian sistem... 108 Tabel L.4.3. Daftar rangking dokumen artikel ilmiah yang ter-retrieve terhadap query. 111 Tabel L.4.4. Daftar hasil pengujian metode vector space model... 115 Tabel L.4.5. Daftar pengelompokkan dokumen oleh kedua penilai untuk 2 cluster... 120 Tabel L.4.6. Daftar pengelompokkan dokumen oleh kedua penilai untuk 4 cluster... 124 Tabel L.4.7. Daftar hasil perhitungan nilai kappa tiap query untuk 2 cluster... 128 Tabel L.4.8. Daftar hasil perhitungan nilai kappa tiap query untuk 4 cluster... 130 Tabel L.4.9. Daftar hasil penentuan ground truth tiap query untuk 2 cluster... 134 Tabel L.4.10. Daftar hasil penentuan ground truth tiap query untuk 4 cluster... 136 xvi

DAFTAR LAMPIRAN Hal Lampiran 1. Daftar stopword... 101 Lampiran 2. Daftar dokumen artikel ilmiah... 102 Lampiran 3. Daftar hasil pengujian sistem... 108 Lampiran 4. Daftar hasil pengujian pencarian dokumen... 111 Lampiran 5. Daftar hasil pengujian pengelompokkan dokumen... 115 xvii

BAB I PENDAHULUAN Bab pendahuluan ini berisi latar belakang, rumusan masalah, tujuan dan manfaat, ruang lingkup, serta sistematika penulisan pelaksanaan Tugas Akhir mengenai Sistem Temu Balik Artikel Ilmiah menggunakan Vector Space Model dan di kelompokkan dengan K- Means Clustering. 1.1. Latar Belakang Pencarian informasi erat kaitannya dengan kebutuhan akan informasi. Seseorang yang membutuhkan informasi memerlukan waktu untuk berpikir apa yang dibutuhkan, mengingat apa yang dibutuhkan, selanjutnya memutuskan apa yang dibutuhkan (Ilmi, 2014). Proses dan penggunaan alat yang tepat akan menghasilkan informasi yang tepat pula (Umam, 2015). Alat tersebut salah satunya dapat diterapkan menggunakan sistem temu balik informasi. Contohnya adalah penggunaan mesin pencari seperti Google. Sistem Temu Balik Informasi (Information Retrieval) merupakan sistem yang digunakan untuk menemukan informasi yang relevan dengan kebutuhan dari penggunanya secara otomatis dari suatu koleksi informasi. Proses tersebut membutuhkan sebuah model information retrieval (Nasution, 2016). Model information retrieval adalah model yang digunakan untuk melakukan pencocokan antara term-term dari query dengan term-term dalam document collection. Terdapat 3 jenis model dalam information retrieval, yaitu Set-theoritic models, Algebraic model, dan Probabilistic model. Salah satu contoh algebraic model adalah Vector Space Model (Robinson, 2014). Vector space model (VSM) adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan query, serta mewakili setiap dokumen dalam sebuah koleksi sebagai sebuah titik dalam ruang (vektor dalam ruang vektor) (Wibowo, 2012). Polettini (2014) dikutip dalam Karyono & Utomo (2012) menyatakan bahwa keberhasilan dari model VSM ini ditentukan oleh skema pembobotan terhadap suatu term baik untuk cakupan lokal maupun global, dan faktor normalisasi. Kelebihan dari metode VSM ini yaitu memberikan bobot kata dengan berbagai jenis bobot yang ditambahkan, dan bobot kata dapat memperbaiki kualitas dari suatu set jawaban. VSM 1

juga dapat mengukur similarity (kemiripan) antara apapun, seperti dokumen dengan query, dokumen dengan dokumen, query dengan query. Adapun pertimbangan pemilihan metode VSM, menurut Amin (2012) cara kerja model ini efisien dan mudah dalam representasinya. Untuk mesin pencarian yang ada, hasil dokumen yang ter-retrieve masih berupa urutan dokumen ter-rangking sesuai pencarian. Selain pencarian dokumen, ada juga penggunaan untuk pengelompokkan dokumen. Penelitian ini mengusulkan adanya mesin pencari yang disertai pengelompokkan dokumen. Latar belakang mengapa dibutuhkannya pengelompokkan pada dokumen, yaitu untuk mempermudah dalam mengelompokkan dokumen artikel ilmiah secara otomatis yang sesuai dengan kemiripannya. Ada beberapa macam algoritma dalam metode pengelompokkan. Pada dasarnya algoritma (set of rules) pengelompokkan objek ke dalam klasternya diklasifikasikan menjadi dua metode hierarki dan metode non-hierarki (Rivani, 2010). Salah satu metode non-hierarki yang dapat digunakan untuk mengkluster dokumen adalah k-means clustering. Pemilihan algoritma k-means clustering ini disebabkan karena pertimbangan dari segi kualitas, waktu penyelesaian dan jumlah data yang diproses, seperti pada penelitian yang dilakukan oleh Zahrotun (2015) yang berkesimpulan bahwa algoritma k-means clustering memiliki hasil lebih baik dari pada metode klasterisasi yang lain seperti model hierarki. Begitu juga menurut Rivani (2010) dalam kajian penelitiannya menyebutkan bahwa pengklasteran menggunakan k-means clustering lebih cepat daripada metode hierarki dan lebih menguntungkan untuk jumlah objek atau kasus yang besar. Selain kebutuhan akan pengimplementasian sistem, penelitian ini juga perlu dievaluasi kinerjanya dalam sistem temu balik informasi yang menggunakan vector space model dan k-means clustering sebagai implementasinya, terutama pada penentuan jumlah cluster yang sesuai representasinya dalam pengelompokkan dokumen. Objek dari penelitian ini adalah penelusuran dokumen artikel ilmiah, dengan tujuan untuk mempermudah akademisi maupun peneliti dalam mencari referensi sebagai bahan rujukan dalam kegiatan penelitian. 2

1.2. Rumusan Masalah Berdasarkan latar belakang di atas, dapat disusun rumusan masalah pada tugas akhir penelitian ini yaitu mengimplementasikan Sistem Temu Balik Artikel Ilmiah dengan menerapkan Vector Space Model dalam proses perangkingan dokumen artikel ilmiah yang ter-retrieve dan K-Means Clustering untuk mengelompokkan dokumen artikel ilmiah yang ter-retrieve tersebut. Selanjutnya sistem tersebut dievaluasi untuk menentukan jumlah cluster yang representasinya dalam pengelompokkan dokumen. 1.3. Tujuan dan Manfaat Tujuan yang ingin dicapai pada penelitian tugas akhir ini adalah untuk me-retrieve artikel-artikel ilmiah dan dapat digolongkan sesuai dengan kerelevanan antar dokumen. Adapun manfaat yang diharapkan dari penelitian Tugas Akhir ini adalah sebagai berikut: 1. Mengimplementasikan Sistem Temu Balik Informasi menggunakan Vector Space Model dan K-Means Clustering. 2. Mengevaluasi kinerja Sistem Temu Balik Informasi menggunakan Vector Space Model dan K-Means Clustering. 3. Membantu civitas akademika dalam mendapatkan artikel ilmiah di lingkungan departemen Informatika. 1.4. Ruang Lingkup Ruang lingkup dari batasan topik pada penelitian Tugas Akhir ini adalah sebagai berikut: 1. Data yang digunakan dalam penelitian ini adalah artikel ilmiah mahasiswa Informatika sebanyak 60 (enam puluh) artikel. 2. Dokumen artikel ilmiah yang diproses menggunakan Bahasa Indonesia. 3. Input yang diproses berisi teks dari dokumen artikel ilmiah. 4. Hasil output berupa berkas berekstensi pdf dari dokumen artikel ilmiah yang terretrieve. 5. Aplikasi perangkat lunak yang dibangun berbasiskan Web. 3

1.5. Sistematika Penulisan Sistematika penulisan yang digunakan dalam tugas akhir ini terbagi menjadi beberapa pokok bahasan, yaitu BAB I PENDAHULUAN Bab pendahuluan ini berisi latar belakang, rumusan masalah, tujuan dan manfaat, serta ruang lingkup pelaksanaan Tugas Akhir mengenai Sistem Temu Balik Artikel Ilmiah menggunakan Vector Space Model dan di kelompokkan dengan K-Means Clustering. BAB II TINJAUAN PUSTAKA Bab ini menjelaskan tentang teori-teori yang digunakan dalam pengerjaan Tugas Akhir Sistem Temu Balik Artikel Ilmiah menggunakan Vector Space Model dan di kelompokkan dengan K-Means Clustering. BAB III METODOLOGI PENELITIAN Bab ini membahas mengenai tahapan proses penelitian, contoh hasil pemrosesan, analisis dan perancangan sistem yang dilakukan pada pembuatan Sistem Temu Balik Artikel Ilmiah menggunakan Vector Space Model dan di kelompokan dengan K-Means Clustering. BAB IV HASIL DAN ANALISA HASIL PENELITIAN Bab ini menjelaskan tentang implementasi dan pengujian pada Sistem Temu Balik Artikel Ilmiah menggunakan Metode Vector Space Model dan K- Means Clustering. BAB V PENUTUP Bab ini berisi mengenai kesimpulan dari kegiatan penelitian ini, serta saran yang diajukan untuk pengembangan kegiatan penelitan lebih lanjut. 4