IMPLEMENTASI ALGORITMA VECTOR SPACE MODEL DALAM PENCARIAN E-BOOK

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA

BAB 3 LANDASAN TEORI

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II LANDASAN TEORI

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

BAB III METODOLOGI PENELITIAN

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB I PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

BAB IV ANALISA DAN PERANCANGAN

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

BAB II TINJAUAN PUSTAKA

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

BAB 1 PENDAHULUAN UKDW

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

BAB II LANDASAN TEORI

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

commit to user BAB II TINJAUAN PUSTAKA

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB III ANALISIS DAN PERANCANGAN

BAB II LANDASAN TEORI

1.5 Metode Penelitian

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB III METODOLOGI PENELITIAN

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

BAB II LANDASDAN TEORI

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

BAB III METODOLOGI PENELITIAN

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

BAB III METODOLOGI PENELITIAN

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI

Pengklasifikasian Pengaduan Masyarakat pada Laman Kantor Pertanahan Kota Surabaya I dengan Metode Pohon Keputusan

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

BAB I PERSYARATAN PRODUK

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB II LANDASAN TEORI

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

BAB III METODELOGI PENELITIAN

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB II TINJAUAN PUSTAKA

BAB IV ANALISA DAN PERANCANGAN

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

Pengujian Kerelevanan Sistem Temu Kembali Informasi

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME

APLIKASI DETEKSI KEMIRIPAN TUGAS PAPER

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

beberapa tag-tag lain yang lebih spesifik di dalamnya.

BAB IV ANALISA DAN PERANCANGAN

PERANCANGAN INFORMATION RETRIEVAL (IR) UNTUK PENCARIAN IDE POKOK TEKS ARTIKEL BERBAHASA INGGRIS DENGAN PEMBOBOTAN VECTOR SPACE MODEL

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

BAB I PENDAHULUAN 1.1 Latar Belakang

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

Transkripsi:

IMPLEMENTASI ALGORITMA VECTOR SPACE MODEL DALAM PENCARIAN E-BOOK Nurul Annisa 1),Warnia Nengsih, S.Kom., M.Kom. 2) & Ananda. S.kom., M.T. 3) Program Studi Sistem Informasi 12), Teknik Informatika Multimedia 3), Politeknik Caltex Riau. email: nurulannisa@gmail.co.id 1), warnia@pcr.ac.id 2), ananda@pcr.ac.id 3) Abstrak - Proses pencarian dengan cara konvesional han menemukan e-book ngbenar-benar sesuai dengan kata kunci. Hal ini membuat proses pencarian menjadi tidak efektif, karena bisa saja pengguna tidak memasukkan kata kunci dengan tepat. sementara e-book ng dicari tersedia dengan kata kunci berbeda namun masih dalam satu topik ng sama. Dengan begitu dibutuhkan suatu metode pencarian ng mampu mengenali e-book secara keseluruhan dan mendetail. Vector Space Model adalah salah satu metode pencarian ng mengukur relevansi antara kata kunci dengan dokumen ng ada di basis data. Proses ng terjadi pada Vector Space Model terbagi menjadi dua tahap itu tahapan prepocessing ng terdiri dari pemotongan kalimat atau paragraf menjadi bentuk kata tunggal (tokenizing), pembuangan stopwords (filtering), mengubah kata menjadi bentuk dasarn (stemming), sedangkan proses ng kedua adalah meghitung relevansi antara dokumen dengan kata kunci ng telah dilakukan proses preprocessing. Dengan menggunakan Vector Space Model informasi e-book ng didapatkan mengandung relevansi/keterkaitan dengan ng diharapkan sesuai dengan kata kunci ng telah dimasukkan.data uji coba merupakan file E-book dengan format.pdf. Dari hasil pengujian terhadap pencarian e-book diperoleh nilai akurasi dari sistem ini memilki nilai recall rata-rata sebesar 100 % dan nilai precision rata-rata sebesar 80%. Kata Kunci: e-book, Vector Space Model, preprocessing. I. PENDAHULUAN Di era globalisasi ini, peran teknologi informasi sangat dibutuhkan dalam segala segi kehidupan, salah satu dampak ng signifikan adalah pada dunia pendidikan. Perkembangan teknologi komunikasi khususn internet, telah mendorong lembaga pendidikan untuk menyediakan berbagai fasilitas serta kemudahan akan akses informasi secara global melalui dunia website akademik. Keberadaan situs website akademik sebuah lembaga pendidikan pada tingkat perguruan tinggi sudah sewajarn dimiliki, demi mendukung efesiensi dan efektifitas segala kegiatan akademik. Pada situs web ng akan dibangun dibutuhkan sebuah fungsi pencarian untuk menemukan e-book ng diinginkan. Proses pencarian dengan cara konvesional han menemukan e-book ng sesuai dengan kata kunci. Hal ini membuat proses pencarian menjadi tidak efektif, karena bisa saja pengguna tidak memasukkan kata kunci dengan tepat. sementara e- book ng dicari tersedia dengan kata kunci berbeda namun masih dalam satu topik ng sama. Dengan berkembangn teknologi dalam melakukan proses pencarian, maka untuk mendukung proses pencarian e-book pada situs web diimplementasikan Algoritma Vector Space Model. Algoritma Vector Space Model salah satu metode pencarian ng menghitung tingkat kemiripan antara kumpulan dokumen ng ada di basis data dengan dokumen ng dicari oleh pengguna. Oleh karena itu dengan menggunakan Algoritma Vector Space Model pada Pencarian e-book akan lebih efektif dibandingkan proses pencarian dengan cara konvensional akan lebih teliti karna pencarian dilakukukan perkata dalam dokumen e-book. Bankn kemunculan kata dalam kumpulan dokumen ng sesuai dengan kata kunci akan dihitung. kata kunci ng dimasukan oleh pengguna dan dokumen ng pada basis data diterjemahkan menjadi vektor vektor kemudian dihitung jarak cosinusn dan hasil perhitungan jarak cosinus antar vektor akan menjadi acuan dalam menentukan relevansi masukan pengguna (kata kunci). II. TINJAUAN PUSTAKA 2.1 E-book E-book atau ng lebih dikenal dengan electronic book adalah sebuah bentuk buku ng dapat dibuka secara elektronik melalui komputer. Menurut Lee (2004 :50) dalam Diah Titiek Kusuma Nigrum (2011) e-book adalah representasi elektronik dari sebuah buku ng biasan diterbitkan dalam bentuk tercetak namun kali ini berbentuk digital. E-book ini berupa file dengan format bermacam-macam,ada ng berupa pdf (portabel document format) ng dapat dibuka dengan program Acrobat Reader. 2.2 Preprocessing Proses preprocessing dilakukan untuk membentuk basisdata terhadap koleksi dokumen sehingga dokumen siap untuk diproses. dalam proses indexing terdapat 3 proses itu tokenizing, filtering dan stemming. 1

2.2.1 Tokenizing Pada proses tokenizing dilakukan pembacaan dokumen ng dimiliki dan memisahkan deretan kata di dalam kalimat, paragraf atau dokumen menjadi token atau potongan kata tunggal. Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke bentuk huruf kecil (case folding) Husni (2012) dalam Khadijah FH Holle (2012). Berikut contoh dari tokenizing: Kalimat dalam dokumen : Sa sedang belajar matematika Hasil Tokenizing : sa sedang belajar matematika Dapat dilihat dari contoh diatas, terdapat kalimat sa sedang belajar matematika kemudian dilakukan porses tokenizing sehingga kalimat itu dipisah menjadi 4 kata itu sa, sedang, belajar, matematika. 2.2.2 Filtering Pada tahapan ini dilakukan pengambilan kata-kata penting dari hasil tokenizing dengan membuang stopword. Stopword dapat berupa subjek atau kata penghubung. 2.2.3 Stemming Suatu kata bisa memiliki bentuk penulisan ng berbeda tapi memiliki makna ng sama contohn adalah memakan dan termakan memiliki makna ng sama itu makan. Proses stemming dilakukan untuk mendapatkan kata dasarn dan menghapus imbuhan. Pada sistem ini digunakan algoritma Porter Stemmer untuk melakukan stemming. 2.3 Inverted Index Inverted index adalah salah satu proses untuk mengideksan sebuah koleksi teks ng digunakan untuk mempercepat proses pencarian. Dalam dokumen inverted index didapat dari proses preprocessing itu setelah proses tokenization, stopword dan stemming dilakukan. Dan kemudian dicarilah kata-kata di dalam setiap dokumen lalu dihitung jumlahn disetiap dokumen ng ada. proses inverted index akan lama jika dokumen ng ada di basisdata jumlahn bank. Contoh kata1 terdapat dalam D1,D2, dan D3 sedangkan kata2 terdapat dalam dokumen D1, dan D2 maka inverted index ng dihasilkan seperti berikut T1 D1, D2, D3 T2 D1,D2 2.4 Term Frequency- Inverse Document Frequency ( TF-IDF) Term Frequency - Inverse Document Frequency merupakan algoritma ng digunakan untuk menghitung bobot (W) masing masing dokumen terhadap kata kunci. Term Frequency (TF) adalah jumlah kemunculan sebuah term pada sebuah dokumen e-book. Sebuah term di hitung bedasarkan seringn kemunculan term tersebut didalam dokumen e-book. Inversed Document Frequency (IDF) adalah pengukuran jumlah frekuensi kemunculan suatu kata dalam sekumpulan dokumen IDF = Log (D df).(2.1) Dimana: D = Jumlah Dokumen df = Bank dokumen ng mengandung kata ng dicari Pembobotan kata dengan menggunakan Metode TF- IDF menggunakan formula sebagai berikut : Wd,f = tfd,t IDF..(2.2) Dimana : d =Dokumen ke d dari dakumen ng ada di basisdata t = Kata ke t dari kata kunci tf = Bank kata ng dicari dalam dokumen W=Bobot dokumen ke d terhadap kata kunci ke t 2.5 Algoritma Vector Space Model Vector Space Model (VSM) adalah suatu metode untuk melihat tingkat kedekatan atau kesamaan (similarity) term dengan cara melakukan pembobotan term menggunakan metode pembobotan TF-IDF. Dokumen dan kata kunci dipandang sebagai sebuah vektor ng memiliki jarak dan arah. Relevansi sebuah dokumen ke sebuah kata kunci didasarkan pada similaritas diantara vektor dokumen dan vektor kata kunci (Yates, 1999) dalam (Fatkhul Amiin, 2013) Vector Space Model, setiap dokumen dan kata kunci dari pengguna direpresentasikan sebagai ruang vektor berdimensi n. kata kunci dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi. Selanjutn akan dihitung nilai cosinus sudut dari dua vektor, itu W (bobot) dari tiap dokumen dan W 0dari kata kunci. Penentuan relevansi dokumen dengan kata kunci dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor kata kunci. Semakin sama suatu vektor dokumen dengan vektor kata kunci maka dokumen dapat dipandang semakin relevan dengan kata kunci. Sumber Hardianto,2010 2

Gambar 2.1Representasi Dokumen e-book dan Kata kunci pada Ruang Vektor Perhitungan kesamaan antara vektor kata kunci dan vektor dokumen dilihat dari sudut ng paling kecil. Sudut ng dibentuk oleh dua buah vektor dapat dihitung dengan melakukan perkalian dalam (inner product), sehingga rumus relevansin, adalah Mulai Dokumen e-book tokenizing filtering cos θ similarity = d j q dj q = t i=1 t i=1 wij 2 wij wiq i=1 wiq2 stemming (2.3) Dimana : q = bobot kata kunci d =bobot dokumen d =panjang dokumen q =panjang kata kunci Nilai cosinus ng cenderung besar mengindikasikan bahwa dokumen cenderung sesuai dengan kata kunci. Nilai cosinus sama dengan 1 mengindikasikan bahwa dokumen memiliki relevansi ng besar dengan kata kunci ng telah dimasukkan. III. PERANCANGAN Sebelum dilakukan penelitian maka terlebih dahulu dibuat perancangan sistem. Perancangan sistem akan mempermudah penyelesaian sistem ng akan dibuat. Sistem ng akan dibuat pada penelitian ini adalah sistem ng berbasis aplikasi website ng dirancang untuk berfungsi dalam menangani analisa pola pengguna website akademik. Adapun perancangan ng akan dibuat pada proyek ini adalah: 1. Preprocessing. 2. Analisa Dan dapat digambarkan sebagai berikut: t indexing Simpan hasil term indexing Term index selesai Gambar 3.1 Flowchart indexing dokumen e-book Mulai Pengguna memasukkan kata kunci tokenizing fitering stemming Perhitungan pembobotan TF-IDF kata kunci terhadap keseluruhan dokumen wij w iq dj q = Perhitungan kedekatan dokumen terhadap kata i=1 wij kunci i=1 wiq dengan menghitung jarak cosinus antar vektor dokumen dan kata kunci cosθ similarity dj,q dj = q t i=1 t 2 t 2 Kemiripan kata kunci dengan ebook Jarak cosinus > 0,5 Tampilan E-book tidak Selesai 3

IV. Gambar 3. 2 Flowchart Analisa Pencarian HASIL DAN PEMBAHASAN 4.1 Pengujian Sistem Pengujian sistem dari aplikasi ng dibangun secara keseluruhan dilakukan dengan memeriksa satu persatu bagian-bagian aplikasi ng dibangun tanpa memperhatikan struktur logika internal sistem. Metode pengujian ini dilakukan untuk memeriksa apakah sistem telah berjalan sesuai dengan ng diharapkan. Pada aplikasi ini terdapat 2 pengguna itu admin dan guest. 4.1 Halaman Admin a. Halaman Awal (From Login Admin) Halaman ini merupakan halaman awal untuk menmbut pengguna, dengan mengisikan username dan password di form yg sudah tersedia, seperti ng ditunjukkan oleh gambar 4.1. terdapat 3 proses itu: Tokenizing dan Filtering, Stemming dan Indexing Gambar 4.3 Halaman Proses Preprocessing Dokumen Pada Halaman proses flow terdapat 3 proses untuk melakukan preprocessing E-book, itu tokenizing, filtering & stemming serta indexing Gambar 4.4 Preprocessing Dokumen Setelah melakukan selesai melakukan setiap proses ng ada di halaman ProsesFlow seperti tokenizing, filtering & stemming dan indexing, maka akan muncul jendela information untuk memberi tahu hasil dari proses ng telah dilakukan. dapat ditunjukkan pada gambar 4.5, gambar 4.6 dan gambar 4.7. Gambar 4.1 Halaman Awal b. Halaman Add E-book. Halaman admin setelah berhasil memasukkan username dan password. Halaman ini memiliki beberapa menu, itu: Add E-book, Proses Flow, Kategori dan logout. Seperti ng dilihat pada gambar 4.2 merupakan halaman adde-book. pada halaman ini admin dapat menambahkan E-book baru. Gambar 4. 5 Jendela informasi proses Tokenizing Pada gambar 4.5 menjelaskan hasil dari proses tokenizing bahwa terdapat 9125 kata pada file, jumlah halaman file sebank 34 halaman dan waktu proses untuk melakukan proses tokenizing adalah 4,99 detik. Gambar 4.2 Halaman Add E-book c. Halaman Proses Flow Setelah admin menambahkan E-book baru, selanjutn admin melakukan proses preprocessing terhadap E-book ng telah ditambahkan. Gambar 4.3 merupakan halaman Proses Flow untuk melakukan proses preprocessing E-book. pada halaman ini. Gambar 4. 6 Jendela Informasi proses Filtering & Stemming Pada gambar 4.6 menjelaskan hasil ng didapatkan dari proses Filtering & Stemming bahwa jumlah kata setelah dilakukan proses itu 4567 kata dengan waktu proses 8.96 s. 4

Gambar 4. 7 Jendela Informasi proses Indexing Pada gambar 4.7 menjelaskan hasil dari proses indexing, setelah dilakukan proses maka jumlah kata menjadi 1499 kata dengan waktu proses 1.15 s. Jika telah selesai melakukan semua proses ng dibutuhkan untuk proses preprocessing dokumen E-book, maka status proses akan berubah menjadi finished, seperti ng bisa dilihat pada gambar 4.8. Gambar 4. 9 Hasil Pencarian Jika guest ingin melihat detail dari E-book ng didapat dari hasil pencarian, maka guest bisa memperoleh detail tersebut dengan menekan link view E-book. 4.2 Halaman Guest Gambar 4. 1 Proses Finished a. Halaman Pencarian Halaman pencarian ini merupakan bagian untuk melakukan pencarian koleksi E-book. Dalam halaman ini diimplementasikan algoritma pencarian ng menggunakan metode TF-IDF dan Algoritma Vector Space Model. Tampilan awal halaman pencarian adalah seperti ng ditunjukkan pada Gambar 4.8. Gambar 4. 10 Review E-book b. Halaman E-book Pada halaman ini, guest bisa melihat semua E-book ng ada pada sistem dan guest juga bisa melihat E- book ng ada bedasarkan kategorin. Pada halaman ini guest juga bisa melihat detail informasi mengenai E-book ng ada. Gambar 4.14 merupakan halaman dimana semua E-book bsa dilihat. Gambar 4. 11 Halaman E-book Gambar 4. 8 Halaman Pencarian untuk menggunakan halaman ini, maka guest diharuskan untuk memasukkan keyword ng ingin dicari, kemudian menekan tombol search atau tekan Enter. Setelah guest memasukkan keyword maka sistem akan memberikan hasil pencarian seperti ng ditunjukkan pada Gambar 4.9. 4.2 Pengujian Recall dan Precision Perolehan (recall) berhubungan dengan kemampuan sistem untuk memanggil dokumen ng relevan dengan kata kunci, sedangkan ketepatan (precision) berkaitan dengan kemampuan sistem untuk tidak memanggil dokumen ng relevan dengan kemampuan pengguna. karna dokumen terpanggil ( recall) ng relevan dengan kata kunci pengguna belum tentu relevan dengan kebutuhan pengguna. Rasio dari tingkat recall dan precision ng dicapai dalam kegiatan pencarian dapat dirumuskan sebagai berikut : Recall= jumla dokumen relevan ng trepanggil (terambil dari sistem ) jumla dokumen relevan di database 5

Precision= jumla dokumen ng terpanggil relevan dengan kebutu an jumla dokumen ng tepanggil dalam pencarian. Pengujian dilakukan dengan memasukkan kata kuci ng terdiri dari satu kata, dua kata, dan tiga kata. No 1 Judul Pudarn Pesona Cleopatra Tabel 4. 1 Hasil Pencarian Dari hasil tabel 1.1 dengan memasukkan kata kunci cinta, sedangkan E-book ng diharapkan adalah E-book mengenai percintaan, maka diperoleh : Tabel 4. 2 Tabel perhitungan Recall dan Precision Bedasarkan table 4.2, maka dapat diperoleh nilai recall dan precision sebagai berikut : 7 nilai kemiripan ( similarity) 0,54 Recall = 0+7 100 % = 100 % Precicion = 7 7+3 100 % = 70 % Kategori Fiksi, Romansa, Psikologi, Tabel 4.3 Hasil Pencarian No Judul nilai Kategori Relevan 2 Refrain 0,34 Fiksi, Romansa, 3 5 cm 0.26 Fiksi, Petualangan, 4 Endesor 0,19 Fiksi,Edukasi tidak 5 Laskar Pelangi 0,18 Fiksi,Edukasi tidak 6 Perahu Kertas 0.11 Fiksi, Roman 7 Princess Kisah Tragis Putri Kerjaan Arab Saudi 0.10 8 Twilight 0,099 9 Tenggelamn Kapal Van Der Wijck Fiksi, Romansa, Spritual & Religi Fiksi, Roman, Fantasi 0.078 Fiksi, Roman 10 Negeri 5 Menara 0,06 Fiksi,Edukasi tidak 1 Negeri 5 Menara Relevan Tidak Relevan Total Retrieve 7 3 10 Tidak Retrieve 0 7 7 Total 7 10 17 similarity 0,05 Fiksi, Romansa, Spritual & Releva n Dari hasil tabel 1.1 dengan memasukkan kata kunci menempuh pendidikan setingi-tinggin untuk meraih mimpi, sedangkan E-book ng diharapkan adalah E- book mengenai pendidikan, maka diperoleh : Tabel 4.4 Tabel perhitungan Recall dan Precision Relevan Tidak Relevan Total Bedasarkan table 4.2, maka dapat diperoleh nilai recall dan precision sebagai berikut : Recall = 3 0+3 100 % = 100 % Precicion = 3 3+2 100 % = 60 % Religi, 2 Laskar Pelangi 0.036 Fiksi, Romansa, 3 Perahu Kertas 0,026 Fiksi, Roman tidak 3 Edensor 0.023 Fiksi, Eduksi 4 Pudarn pesona Cleopatra 0.009 Fiksi, Petualangan, Retrieve 3 3 6 Tidak Retrieve 0 11 11 Total 3 14 17 Dari tabel hasil pencarian dapat dilihat bahwa beberapa dokumen tidak relevan ng memiliki bobot tinggi daripada dokumen ng relevan. bisa dilihat pada tabel 4.1 nilai kemiripan untuk dokumen endesor dan Laskar Pelangi lebih besar daripada nilai kemiripan ng didapatkan oleh dokumen perahu kertas. Hal ini disebabkan karena frekuensi kemunculan kata-kata ng dicari lebih bank terdapat pada dokumen Edensor daripada Laskar Pelangi sehingga nilai bobot untuk tiap kata lebih tinggi, walaupun dokumen tersebut bukan termasuk dokumen ng relevan tapi termasuk dokumen retrieve atau ng dikembalikan oleh sistem. Tinggin nilai kemiripan pada dokumen Laskar Pelangi dan Edensor terjadi pada saat melakukan nilai pembobotan pada kata, karna jumlah kata kunci ng dicari pada dokumen Laskar Pelangi dan Edensor memiliki frekuensi ng lebih besar daipada dokumen perahu kertas membuat nila pembobotann lebih tinggi. Setelah dilakukan pembobotan maka dilakukan perhitungan perhitungan cosine similarity sehingga hasil nilai kemiripan ng di dapatkan untuk dokumen perahu kertas lebih rendah daripada dokumen Laskar Pelangi dan Edensor. Selain itu ada beberapa dokumen relevan ng memiliki bobot rendah. Hal ini tidak 6

disebabkan karna adan kata-kata ng tidak memiliki kemiripan terhadap dengan kata kunci, walaupun ada kata-kata ng benar-benar relevan. Dari hasil peritungan precision dan recall ng telah dilakukan pada tabel 4.2 dan tabel 4.4 dengan kata kunci ng berbeda, dapat dianalisa bahwa sistem dapat melakukan retrieve( mengembalikan dokumen) sesuai dengan kata kunci pengguna dengan baik. untuk kata kunci ng dimasukkan itu cinta untuk table 4.2, sistem dapat mengembalikan semua dokumen ng memiliki keterkaitan dengan kata cinta,. jumlah dokumen relevan ng dikembalikan oleh sistem adalah sebank 7 buah dokumen dan jumlah dokumen relevan ng tidak dikembalikan tidak ada, oleh karena itu nilai recall ng didapatkan 100%.Sedangkan untuk mengukur ketepatan sistem dalam mengembalikan dokumen ng relevan (precision) dapat dianalisa bahwa sistem dapat melakukan pengembalian dokumen ng relevan menurut pengguna dengan cukup baik. untuk kata kunci cinta sistem mengembalikan ada 10 dokumen, tetapi ng relevan dengan kata kunci menurut pengguna ada 7 dokumen sehingga didapatkan nilai ketetapan sistem dalam mengembalikan dokumen adalah 70 %. Rata-rata nilai precision untuk 2 kata kunci ng berbeda adalah 80 %. 4.3 Pengujian Prepocessing Dokumen Tabel 4. 6 Tabel pengujian preprocessing Bedasarkan data ng di dapat pada pengujian preprocessing dokumen, menujukkan bahwa pada proses tokenizing dan filtering jumlah kata ng didapat pada dokumen rapunzel adalah 763 dan 474. Jumah kata 764 didapat dari hasil pembacaan file pdf oleh sistem dan setelah itu diubah menjadi bentuk token atau kata sehingga didapatkan jumlah katan 763. Setelah itu dilakukan proses filtering dengan membuang kata-kata tidak penting sehingga jumlahn menjadi 474. Pada saat melakukan stemming jumlah kata ng ada tetap 474, karena ng dilakukan pada proses stemming itu menghilangkan imbuhan dari kata hasil filtering dan tidak ada pengurangan jumlah kata ng dilakukan pada proses stemming. Pada proses indexing, itu menghitung jumlah term tiap dokumen ng ada. Proses indexing akan semakin lama jika jumlah dokumen ng ada semakin bank, karena pada proses indexing dilakukan pencarian tiap term pada semua dokumen ng kemudian dihitung jumlah setiap term dalam semua dokumen. Proses indexing dilakukan untuk mempermudah proses pencarian dalam menentukan bobot suatu term. Pada tabel ini juga dapat dilihat waktu ng dibutuhkan untuk melakukan semua proses tergantung pada bankn jumlah kata ng akan diproses. V. KESIMPULAN DAN SARAN 5.1 Kesimpulan Setelah dilakukan pengujian beserta analisa pada proyek akhir ini, maka dapat diambil kesimpulan sebagai berikut: 1. Sistem ini berhasil membaca file E-book dalam format.pdf 2. Algoritma Vector Space model cocok digunakan mendukung proses pencarian E-book karna memiliki tingkat ketepatan dalam mengembalikan dokumen ng relevan (precision) dengan rata-rata 80 % dan memperoleh nilai recall rata-rata 100 %. 3. Data hasil dari uji coba waktu preprocessing dokumen bergantung pada jumlah kata ng akan diproses. 5.2 Saran Untuk pengembangan aplikasi ini, maka beberapa hal ng dapat penulis sarankan adalah: 1. Diharapkan file E-book ng dip roses tidak han berupa.pdf, tetapi juga bisa berupa epub. 2. Untuk penelitian selanjutn, diharapkan menerapkan query ekspansi untuk mengatasi kesalahan pengguna dalam melakukan penulisan kata kunci pada proses pencarian. 3. Untuk penelitian selanjutn agar dilakukan pencarian dengan algoritma lain seperti Algoritma Generelized Vector Space Model. VI. DATAR PUSTAKA 1. Agusta Lady.2009. Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia. Konferensi Nasional Sistem dan Informatika 2009.Bali. 2. Amin, Fatkhul.2013. Implementasi Search Engine (Mesin Pencari) Menggunakan Metode Vector Space Model. Dosen Fakultas Teknologi Informasi Universitas Stikubank.Semarang. 3. Herdianto, Adit.2010. Pencarian At At AlQuran Bedasarkan Konten 7

Menggunakan Text Mining Berbasis Aplikasi Dekstop. Institut Teknologi Sepuluh Nopember Suraba. Suraba 4. Holle, Khadijah FH.2012. Rancang Bangun Search Engine At AlQuran ng Mampu Memproses Teks Bahasa Indonesia Menggunakan Metode Cosine Similarity. Diambil 20 November dari http://www.academia.edu/4355132 5. Ningrum, Diah Titiek Kusuma.2011. Pelanan Informasi pada PerpustakaanBadan Kepegawaian Negara (BKN). Diambil 15 Desember dari www.bkn.go.id/attachments/23 8

7