BAB II TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II TINJAUAN PUSTAKA

1.5 Metode Penelitian

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I PENDAHULUAN 1.1. Latar Belakang

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

BAB 3 LANDASAN TEORI

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB IV ANALISA DAN PERANCANGAN

commit to user BAB II TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB II LANDASAN TEORI

BAB II LANDASDAN TEORI

BAB II TINJAUAN PUSTAKA

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB 1 PENDAHULUAN UKDW

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB II LANDASAN TEORI

BAB I PERSYARATAN PRODUK

BAB II LANDASAN TEORI

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN I-1

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

APLIKASI DETEKSI KEMIRIPAN TUGAS PAPER

PENDAHULUAN. Latar belakang

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB I. Pendahuluan. 1. Latar Belakang Masalah

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

PENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

BAB III METODOLOGI PENELITIAN

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB II TINJAUAN PUSTAKA

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

BAB III METODOLOGI PENELITIAN

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

BAB I PENDAHULUAN 1.1 Latar Belakang Kesehatan menempati urutan tertinggi dalam menunjang kelangsungan aktivitas harian setiap manusia (Batubara,

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB IV ANALISA DAN PERANCANGAN

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB III METODOLOGI PENELITIAN

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 LANDASAN TEORI

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Pendeteksi Redundansi Kata pada Pasangan Kalimat dalam Bahasa Indonesia dan Bahasa Inggris

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB III ANALISIS DAN PERANCANGAN

BAB II TINJAUAN PUSTAKA

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

Aplikasi Rekomendasi Buku pada Katalog Perpustakaan Universitas Multimedia Nusantara Menggunakan Vector Space Model

BAB 3. METODOLOGI PENELITIAN

Transkripsi:

BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan (Ricci, 2002). Sistem rekomendasi ini sudah semakin popular digunakan di berbagai bidang. Sistem rekomendasi juga dapat menduga apa yang akan dilakukan pengguna untuk mencapai tujuannya, misalnya seperti memilih produk tertentu. Ciri khas dari sistem rekomendasi yaitu orang memberikan rekomendasi sebagai masukan, kemudian sistem mengagregrasikan dan mengarahkan agar sesuai dengan user atau penerima rekomendasi. 2.2 Sistem Temu Kembali Informasi Sistem temu kembali informasi (information retrieval system) adalah suatu sistem yang mampu melakukan penyimpanan, pencarian, dan pemeliharaan informasi. Informasi dalam konteks ini dapat terdiri dari teks (termasuk data numerik dan tanggal), gambar, audio, video, dan objek multimedia lainnya (Kowalski, 1997). Prinsip kerja dari sistem temu kembali informasi yaitu adanya sekumpulan dokumen dan user yang memformulasikan sebuah request atau query. Gambar 2.1 Ilustrasi sistem temu kembali informasi Dari request atau query tersebut akan menghasilkan sekumpulan dokumen yang relevan dan membuang dokumen yang tidak relevan. Ada dua pekerjaan 14

15 yang sistem ini tangani, yaitu melakukan preprocessing yang menghasilkan database dan selanjutnya menerapkan metode tertentu untuk menghitung kedekatan (similarity) antara query dengan dokumen di dalam database yang telah mengalami pemrosesan awal. Sistem temu kembali informasi digunakan untuk menemukan kembali dokumen atau informasi-informasi yang relevan terhadap kebutuhan pengguna dari kumpulan dokumen yang ada secara otomatis. Terdapat lima komponen penting dalam sistem temu kembali informasi, antara lain (Hasugian, 2008) : 1. Pengguna, yaitu seseorang yang menggunakan sistem baik dalam pengelolaan maupun pencarian informasi. 2. Query, yaitu format bahasa yang digunakan dalam menerjemahkan kebutuhan pengguna, yang kemudian dimasukan kedalam sistem temu kembali informasi untuk mendapatkan dokumen yang diinginkan. 3. Dokumen, yaitu istilah yang digunakan untuk seluruh bahan pustaka, baik itu buku, laporan penelitian dan lain-lain. 4. Indexs dokumen, yaitu istilah atau kata yang dimasukkan/disimpan dalam database yang berfungsi sebagai representasi sebuah dokumen. 5. Pencocokan (matcher function), yaitu pencocokan istilah yang dimasukan oleh pengguna dengan indeks dokumen yang ada. Sistem temu kembali informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil pengurutan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query. 2.3 Text Mining Text mining adalah penemuan informasi yang baru dan tidak diketahui sebelumnya oleh komputer, dengan secara otomatis mengekstrak informasi dari sumber-sumber teks tidak terstruktur yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Tan, 1999). Tujuan dari text mining yaitu mendapatkan informasi yang bermanfaat dari kumpulan dokumen yang ada. Text mining dapat membantu permasalahan seperti

16 pemrosesan, pengorganisasian atau pengelompokan dan menganalisa teks yang tidak terstruktur dalam jumlah besar. Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur - fitur tersebut, diperlukan tahap preprocessing yang dilakukan dalam text mining pada dokumen. Preprocessing merupakan langkah yang dilakukan untuk mengolah data mentah menjadi format yang sesuai untuk tahapan analisis selanjutnya. Berikut tahap preprocessing yang dilakukan dalam text mining pada dokumen, yaitu case folding, tokenizing, filtering, stemming dan analyzing. 2.3.1 Case Folding Case folding adalah proses pertama kali yang dilakukan dalam rangkaian perancangan klasifikasi dokumen teks. Proses ini merupakan proses dimana kata - kata di dalam dokumen atau kalimat akan di ubah menjadi huruf kecil (a sampai z) dan menghilangkan tanda baca. Karakter lain selain huruf akan dianggap delimiter sehingga karakter tersebut akan dihilangkan atau dihapus. Hal ini dilakukan untuk mencegah terjadinya noise pada saat pengambilan informasi. Untuk selanjutnya, hasil dari case folding nantinya akan digunakan pada proses tokenisasi. Gambar 2.2 Contoh case folding

17 2.3.2 Tokenizing Proses tokenisasi adalah proses yang dilakukan setelah melakukan proses case folding. Pada tahap ini dilakukan pemotongan string input berdasarkan tiap kata yang menyusunnya. Hasil pemrosesan akan berupa kata yang disebut dengan token/term. Term ini nantinya akan disimpan ke dalam database untuk dilakukan indexing saat melakukan pencarian. Gambar 2.3 Contoh tokenisasi 2.3.3 Filtering Filtering atau parsing merupakan proses mengambilan kata-kata penting dari dari hasil token. Tahap filtering dapat dilakukan menggunakan algoritma stoplist / stopword (membuang kata yang kurang penting). Stopword adalah kata-kata yang sering muncul dalam teks dalam jumlah besar dan dianggap tidak memiliki makna. Pada tahap ini kata-kata yang merupakan stopword akan dihilangkan. Stopword ini dapat berupa kata penghubung, kata depan dan kata pengganti, contohnya seperti yang, di, dan, ke, dari dan lain sebagainya. Tujuan dari proses ini adalah untuk mengurangi volume kata sehingga hanya kata-kata penting saja yang terdapat pada dokumen.

18 Gambar 2.4 Contoh filtering 2.3.4 Stemming Proses stemming merupakan proses untuk mencari root dari kata yang sudah mengalami proses stopword. Pencarian root sebuah kata atau biasa disebut dengan kata dasar dapat memperkecil hasil indeks tanpa harus menghilangkan makna. Proses stemming dilakukan dengan menghilangkan semua imbuhan baik yang terdiri dari awalan (prefix), akhiran (surfix), sisipan (infix), bentuk perulangan dan kombinasi antara awalan dan akhiran (confix). Tujuan dari proses ini adalah untuk mengurangi variasi kata yang mempunyai kata dasar yang sama. Gambar 2.5 Contoh stemming Apabila tahap stemming sudah selesai dilakukan, maka proses selanjutnya adalah pemberian bobot pada kata. 2.4 Pembobotan TF-IDF (Term Frequency Inversed Document Frequency) Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap sebuah dokumen (Robertson, 2004). Pembobotan sangat berpengaruh dalam menentukan

19 similaritas antara query dengan dokumen. Hasil perhitungan similaritas akan menghasilkan perangkingan yang baik apabila bobot tiap kata dapat ditentukan dengan tepat. Metode TF-IDF merupakan penggabungan dua konsep untuk pembobotan, yaitu frequensi kemunculan suatu kata (t) didalam sebuah dokumen tertentu (d) dan perbandingan antara jumlah seluruh dokumen dengan jumlah dokumen yang mengandung suatu kata (t) tersebut. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Intan & Defeng, 2006) Metode TF-IDF memiliki beberapa tahapan yaitu menghitung nilai term frequency (TF), menghitung nilai inverse document frequency, dan menghitung nilai TF-IDF dengan mengalikan nilai TF dan IDF yang sudah didapatkan sebelumnya. Nilai perhitungan TF-IDF akan disimpan dalam bentuk matrik termdocument. Nilai fitur yang dimiliki oleh tiap-tiap dokumen akan direpresentasikan pada matrik dibawah ini. Gambar 2.6 Matrix term-document Pada gambar 6-6 diatas dijelaskan dimana terdapat kumpulan kata T sebanyak n yaitu T = (T1,T2,T3, Tn) dan sekumpulan dokumen D sebanyak n, yaitu D = (D1,D2,D3,..Dn) serta Wij merupakan bobot kata i pada dokumen j.

20 Term Frequency (TF) merupakan formula yang digunakan untuk menghitung berapa kali suatu term muncul pada sebuah dokumen. Berikut merupakan kondisi atau syarat yang digunakan untuk menghitung nilai term frequency: Keterangan : d = dokumen ke d t tf tf d,t = { log 10( 1 + tf d,t ), jikatf td > 0 0, lainnya = kata ke-t dari kata kunci = term frequency/ banyak kata yang dicari pada sebuah dokumen Inverse Dokumen Frequency (IDF) merupakan pengukuran frekuensi kemunculan suatu kata dalam sekumpulan dokumen. Perhitungan ini dilakukan dengan mengkalkulasi total dokumen dalam koleksi dibagi dengan jumah dokumen yang mengandung kata tertentu. Berikut rumus yang digunakan untuk menghitung inverse dokumen frequenc: Keterangan: t D df idf (1) idft = log10 (D/dft) + 1 (2) = kata ke-t dari kata kunci = total dokumen yang ada dalam koleksi = banyak dokumen yang mengandung kata yang dicari = inversed document frequency Berikut rums TF/IDF untuk menghitung bobot (w) masing-masing dokumen terhadap kata kunci, yaitu dengan mengalikan nilai TF dan IDF yang sudah didapatkan sebelumnya. Keterangan : d t W tf idf = dokumen ke-d Wd,t = tf d,t x idft (3) = kata ke-t dari kata kunci = bobot dokumen ke-d terhadap kata ke-t = term frequency/ banyaknya kata yang dicari pada sebuah dokumen = inversed document frequency

21 2.5 VSM (Vector Space Model) Vector space model (VSM) merupakan suatu metode yang digunakan untuk mengukur tingkat kedekatan atau kesamaan (similarity) term dengan cara pembobotan pada term (Amin F., 2012). Pada model ini query dan dokumen diasumsikan sebagai sebuah vektor vektor yang mempunyai jarak (magnitude) dan arah (direction). Tiap dimensi pada vektor diwakili oleh satu term. Term yang digunakan biasanya berdasarkan kepada term yang ada pada query atau keyword, sehingga term yang ada pada dokumen tetapi tidak ada pada query biasanya diabaikan. Perhitungan kesamaan antara vector query dengan vector dokumen dilihat dari sudut yang paling kecil. Pada vector space model : a. Kamus kata (vocabulary) merupakan kumpulan semua term berbeda yang tersisa dari dokumen setelah preprocessing dan mengandung t term index. Term-term ini membentuk suatu ruang vektor. b. Setiap term i di dalam dokumen atau query j, diberikan suatu bobot (weight) bernilai real w ij. c. Dokumen dan query diekspresikan sebagai vektor t dimensi dj = (w1, w2,..., wtj) dan terdapat n dokumen di dalam koleksi, yaitu j = 1, 2,..., n. Gambar 2.7 Representasi dokumen dan vektor pada ruang vektor Pada gambar 2.7 diatas merupakan contoh dari model ruang vektor tiga dimensi untuk 2 dokumen dimana D adalah dokumen, Q adalah query dan T adalah term yang menjadi dimensi dari VSM. D1 mempunyai susunan term 2T1 + 3T2 + 5T3, D2 memiliki 3T1 + 7T2 + T3, dan query Q= 0T1 + 0T2 +2T3. D1 digambarkan sebagai vektor berarah berdasarkan term-term penyusunnya. Dari

22 dokumen-dokumen dan query tersebut, sudut antara query dengan tiap dokumen akan menentukan nilai kedekatan suatu dokumen dengan query yang masukan. Semakin kecil sudut maka semakin besar tingkat similaritas. Vector space model memiliki beberapa tahapan proses analisa yaitu menghitung bobot dokumen dengan tf-idf, menghitung jarak tiap query dan dokumen, menghitung dot produk, menghitung similaritas, dan membuat rangking. Setelah bobot sudah diketahui, maka langkah selanjutnya adalah menghitung jarak tiap query dan dokumen. Berikut merupakan perhitungan untuk menemukan jarak pada query: Keterangan: q W i,q q = t j=1 (W i,q ) 2 (4) = jarak query = bobot query dokumen ke-i Penghitungan jarak query q dilakukan dengan tujuan mendapatkan jarak query dari bobot query dokumen (W iq ) yang terambil oleh sistem. Sedangkan untuk perhitungan jarak pada dokumen, digunakan rumus: Keterangan: d j W ij d j = t i=1 (W i,j ) 2 (5) = jarak dokumen = bobot dokumen ke-i Penghitungan jarak dokumen dilakukan dengan tujuan mendapatkan jarak dokumen dari bobot dokumen (W ij ) yang terambil oleh sistem. Apabila jarak dari dokumen dan query didapatkan, maka dilakukan perhitungan dot produk dengan menggunakan rumus: Keterangan: q d j t Sum q. d j = t (W q,i. W i,j ) = bobot dari term i pada query = bobot dari term i pada dokumen = term di database i=1 (6)

23 Langkah selanjutnya menghitung nilai menghitung similaritas. Menghitung nilai cosinus sudut antara vector query dengan tiap dokumen menggunakan rumus: Keterangan : q d j q d j t cos (q, d ) j = q. d j q d j = bobot dari term i pada query = bobot dari term i pada dokumen = panjang query = panjang dokumen = term di database = q. d j q d = t i=1(wq, i. W i,j ) j t (W q,i ) 2. (W i,j ) 2 Dari hasil persamaan diatas didapatkan nilai similarity antara query dan dokumen - dokumen pada koleksi, sehingga akan didapatkan hasil dokumen yang telah terangking berdasarkan nilai kesamaan tersebut. Proses perengkingan dokumen dianggap sebagai pemilihan (vektor) dokumen yang paling dekat dengan (vektor) query. Semakin tinggi nilai cosines, maka semakin tinggi tingkat kemiripan atau kesesuaian antara dokumen dengan query. i=1 t i=1 (7) 2.6 Pengujian Perangkat Lunak 2.6.1 Black Box Testing Pengujian black box berfokus pada persyaratan fungsional perangkat lunak. Dengan demikian, pengujian black box memungkinkan perekayasa perangkat lunak mendapatkan serangkaian kondisi input yang sepenuhnya menggunakan semua persyaratan fungsional untuk suatu untuk program. Pengujian black box diaplikasikan selama tahap akhir pegujian. Karena pengujian black box memperhatikan struktur kontrol, maka perhatian berfokus pada domain informasi. Pengujian black-box berusaha menemukan kesalahan dalam beberapa kategori diantaranya fungsi-fungsi yang tidak benar atau hilang, kesalahan interface, kesalahan dalam struktur data atau akses database eksternal, dan kesalahan kinerja.

24 2.6.2 White Box Testing Pengujian kotak putih atau white box testing adalah jenis pengujian perangkat lunak yang dapat dilakukan ketika memiliki kode sumber program dan program itu sendiri. Dengan memilki kode sumber, pengembang dan anggota tim pengujian memiliki kesempatan untuk meninjau dan menguji setiap baris kode tersebut. Bahkan dengan semua kode sumber yang tersedia, biasanya ada cukup waktu atau sumber daya untuk menguji seluruh kode sumber program. Salah satu metode yang digunakan dalam pengujian secara white box adalah pengujian basis path testing. Dalam pelaksanaan pengujian white box, berikut langkah yang dilakukan (Pressman, 2001),yaitu: a. Menggambar flowgraph yang ditransfer oleh flowchart. b. Menghitung cylomatic complexity V (G) untuk flowgraph yang telah dibuat. V(G) untuk flowgraph dapat dihitung dengan rumus : V(G) = E N + 2 Keterangan: E = Jumlah edge pada flowrgaph N = Jumlah node pada flowrgaph c. Menentukan jalur pengujian dari flowgraph yang berjumlah sesuai dengan cyclomatic complexity yang telah ditentukan. Cyclomatic complexity yang tinggi menunjukkan prosedur kompleks yang sulit untuk dipahami, diuji dan dipelihara. Ada hubungan antara cyclomatic complexity dan resiko dalam suatu prosedur. Berikut hubungan antara cyclomatic complexity dan resiko dalam suatu prosedur. Tabel 2.1 Hubungan cyclomatic complexity dan resiko (Bray, 1997) Cyclomatic Complexity Evaluasi Resiko 1-10 Sebuah program sederhana, tanpa banyak resiko 11-20 Agak kompleks, resiko sedang 21-50 Kompleks, program resiko tinggi Lebih dari 50 Program belum diuji (resiko sangat tinggi)

25 2.6.3 Precision & Recall Precision dianggap sebagai ukuran ketepatan atau ketelitian, sedangkan recall adalah perolehan. Nilai Precision adalah proporsi dokumen yang terambil oleh sistem adalah relevan. Precision merupakan perbandingan dari jumlah dokumen relevan yang ditemukan oleh sistem dengan total jumlah dokumen yang ditemukan oleh system baik yang relevan maupun tidak relevan. Precision = Jumlah dokumen yang relevan dengan query dan terambil Jumlah seluruh dokumen yang terambil Nilai recall adalah proposisi dokumen relevan yang terambil oleh sistem (Salton, 1989). Recall merupakan perbandingan dari jumlah dokumen relevan yang ditemukan oleh sistem dengan total jumlah dokumen yang ada dalam koleksi dokumen (terambil ataupun tidak terambil oleh sistem). Recall = Jumlah dokumen yang relevan dengan query dan terambil Jumlah seluruh dokumen relevan dalam koleksi dokumen 2.7 Metode Pengembangan Waterfall Model proses perangkat lunak merupakan deskripsi sederhana dari proses perangkat lunak yang menyajikan suatu pandangan dari proses tersebut. Model proses mencakup kegiatan yang merupakan bagian dari proses perangkat lunak, produk perangkat lunak, dan peran orang yang terlibat dalam rekayasa perangkat lunak. Model waterfall merupakan model proses klasik yang bersifat sistematis, berurutan dari satu tahap ke tahap lain dalam membangun software (Sommerville, 2011). Model ini mengusulkan sebuah pendekatan kepada pengembangan software yang sistematik dan sekuensial yang mulai dari tingkat kemajuan sistem pada seluruh analisis, desain, kode, pengujian dan pemeliharaan. Model waterfall memiliki tahapan - tahapan dalam prosesnya, setiap tahapan tersebut harus diselesaikan sebelum berlanjut ke tahap berikutnya. Berikut tahapan yang ada dalam waterfall adalah

26 Gambar 2.8 Model proses waterfall (Sommerville, 2011) Berikut merupakan tahapan-tahapan dalam model proses SDLC (Sommerville, 2011): 1. Requirements analysis and definition Layanan sistem, kendala, dan tujuan yang ditetapkan dengan berkonsultasi dengan pengguna sistem. Kemudian didefinisikan secara rinci dan dijadikan sebagai spesifikasi sistem. 2. System and software design Software desain meliputi mengidentifikasi dan menggambarkan abstraksi sistem perangkat lunak yang mendasar dan hubungan mereka. 3. Implementation and unit testing Selama tahap ini, perancangan perangkat lunak direalisasikan sebagai serangkaian program atau unit program. Unit pengujian melibatkan verifikasi bahwa setiap unit memenuhi spesifikasinya. 4. Integration and system testing Tahapan dimana unit program individu atau program yang terintegrasi diuji sebagai sistem yang lengkap untuk memastikan bahwa persyaratan perangkat lunak telah dipenuhi. Setelah pengujian, sistem perangkat lunak disampaikan kepada pengguna.

27 5. Operation and maintenance Biasanya tahap ini merupakan tahapan dengan masa waktu paling lama. Pemeliharaan meliputi kesalahan mengoreksi yang tidak ditemukan pada awal tahap siklus hidup, meningkatkan implementasi unit sistem dan meningkatkan pelayanan sistem sebagai kebutuhan baru ditemukan. Selain pengaplikasian menggunakan model ini mudah, kelebihan lain yang dimiliki oleh model proses waterfall adalah ketika semua kebutuhan sistem dapat didefinisikan secara lengkap, eksplisit, dan benar di awal proyek, maka software engineering dapat berjalan dengan baik. Sedangkan kekurangan utama dari model proses waterfall ini adalah kesulitan dalam mengakomodasi perubahan setelah proses dijalani. Fase sebelumnya harus legkap dan selesai sebelum mengerjakan fase berikutnya. 2.8 Tinjauan Studi Ada beberapa penelitian terkait yang pernah dilakukan mengenai system rekomendasi pencarian, TF-IDF dan Vector Space Model, antara lain yaitu: a) Implementasi Search Engine (Mesin Pencari) Menggunakan Metode Vector Space Model (Amin F., 2011) Tujuan dari penelitian ini adalah mengembangkan metode pencarian cepat dan menguji kinerja dari sistem yang dihasilkan menggunakan recall dan precision. Pada jurnal penelitian ini, peneliti menggunakan metode Vector Space Model (VSM) untuk mengatasi recall yang tinggi dan tingkat keakuratan yang rendah. Metode ini dipilih karena cara kerja model ini efisien, mudah dalam representasi dan dapat diimplementasikan pada document-matching. Modul sistem temu kembali informasi ini terdiri dari modul pengumpulan dokumen, modul tokenisasi (tokenizing), modul pembuangan stopword (filtering), modul pengubahan kata dasar (stemming), modul pengindeksan kata (indexing), dan modul Vector Space Model (term similarity). Dalam penelitian ini dihasilkan suatu kesimpulan yaitu berdasarkan implementasi contoh kasus kata kunci (query) sistem dengan 3 dokumen yang ada, recall yang dihasilkan rendah dan presisi yang dihasilkan

28 tinggi, artinya dokumen yang diharapkan muncul dengan tingkat akurasi tinggi dapat ditemukan dengan tepat dan dokumen yang dihasilkan sedikit. b) Aplikasi Pencarian Karya Tulis Ilmiah Berbasis Web Menggunakan Sistem Rekomendasi (Husni, 2010) Penelitian ini mencoba untuk membangun suatu sisitem pencarian karya tulis ilmiah berbasis web dengan memanfaatkan teknologi sistem rekomendasi.sistem ini diharapkan dapat memberikan kelengkapan informasi dan dapat memberikan kemudahan kepada pengunjung terutama dalam mendapatkan abstrak atau tulisan lengkap yang terkait. Tugas dari sistem yang dibangun, yaitu menghitung atau mencari tingkat kemiripan antara content (dokumen) dengan query pengguna dengan memanfaatkan teknik temu balik informasi. Pada penelitian ini hanya melibatkan judul dari paper selama proses perhitungan kemiripan, baik kemiripan antara query dengan daftar paper maupun kemiripan antara satu paper dengan paper lainnya. Sistem ini pada intinya menggunakan cosine similarity dalam menghitung kemiripan antar query Q dengan beberapa dokumen Di dan menggunakan metode term frequency (tf) dan inverse document frequency (idf) dalam pemberian bobot pada term. Dengan pendekatan yang digunakan pada penelitian ini dikatakan bahwa pemanfaatan sistem rekomendasi dalam pencarian karya tulis ilmiah yang dibangun sangat membantu pengguna mendapatkan karya tulis yang sesuai dengan kebutuhan. c) Sistem Temu Kembali Informasi dengan Pemeringkatan Metode Vector Space Model (Fatkhul, 2013) Peneilitian ini bertujuan untuk memberikan fasilitas ke pada pengguna untuk mencari dokumen berbahasa Indonesia yang benar- benar relevan. Metode yang digunakan dalam penelitian adalah Vector Space Model (VSM). Metode ini dipilih karena cara kerja model yang efisien, mudah dalam representasi dan dapat diimplementasikan pada document-matching. Pengolahan data awal yang digunakan adalah tokenisasi, filtering dan stemming. Proses perhitungan VSM melalui tahapan perhitungan tf, idf, tfidf, jarak query dan dokumen, similaritas dan

29 cosine similarity. Hasil uji recall dan precision yang diperoleh pada penelitian ini memiliki rata-rata recall = 0,19 dan rata-rata precision = 0,54. Selain itu sistem ini mampu melakukan pencarian dokumen bahasa Indonesia dengan waktu komputerisasi rata-rata 1,5 detik. Dengan adanya sistem rekomendasi ini diharapkan pengguna mendapatkan hasil yang cepat dan akurat.