BAB IV ANALISA DAN PERANCANGAN

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB IV ANALISA DAN PERANCANGAN"

Transkripsi

1 BAB IV ANALISA DAN PERANCANGAN Bab ini akan membahas tentang analisa dan perancangan aplikasi source detection pada kasus plagiarisme dokumen menggunakan biword winnowing dan retrieval berbasis Okapi BM25. Proses Pembuatan Query n frek finger tertinggi Input Dokumen Biword winnowing(finger print) Query Generator (biword winnowin g) Steming Non- Steming n frek finger medium n frek finger terendah n frek finger tertinggi n frek finger medium n frek finger terendah Deteksi Kemiripan Database FIngerprint (Corpus) Biword winnowing(finger print) Query Presentase kemiripan Hitung Tingkat Kemiripan Database Indexing (Corpus) indexing Preprocessing doc1 doc2 doc3 Kumpulan Dokumen (corpus) Sistem IR Hasi Pencarian (Dokumen) IR System Okapi BM25 Preprocessing query Gambar 4.1 Analisa Source Detection Dokumen

2 4.1 Analisa Source Detection Dokumen Pada gambar 4.1, terdapat tiga buah tahapan utama pada aplikasi source detection dokumen dalam penelitian ini, yaitu : 1. Pembuatan query dari dokumen Pada tahap ini dokumen yang diduga plagiarisme akan dibentuk menjadi query berdasarkan fingerprint biword-winnowing. Query yang dibentuk terbagi menjadi dua jenis, yakni query dari fingerprint biword-winnowing dengan stemming dan query dari fingerprint biword-winnowing tanpa stemming. 2. Sistem IR dengan model Okapi BM25 Query yang terbentuk pada proses 1 akan dicari dokumen sumbernya menggunakan sistem IR dengan model okapi BM25. Terdapat tiga proses dalam sistem IR ini, yakni proses pembuatan inverted index dan pembobotan kata, preprocessing query dan menghitung relevansi (RSV) antara query dengan dokumen menggunakan model Okapi BM Deteksi kemiripan dokumen dengan algoritma biword winnowing Dokumen-dokumen sumber yang diperoleh dari tahap 2 kemudian akan dibandingkan tingkat kemiripannya terhadap dokumen yang diduga melakukan plagiarisme dengan menggunakan algoritma biword winnowing. Pada tahap ini terbagi menjadi 3 proses, yakni pembuatan database fingerprint masing-masing dokumen menggunakan algoritma biword winnowing, pembentukan fingerprint dokumen yang diduga plagiarisme dengan algoritma biword winnwoing dan menghitung tingkat kemiripan ( similiarity) dokumen dengan menggunakan persamaan jaccard coeficien. IV-2

3 4.1.1 Analisa Pembuatan Query Pada tahapan ini dokumen yang diduga plagiarisme akan dibentuk menjadi query berdasarkan fingerprint biword winnowing. Ada dua jenis query yang dibentuk, yakni 1. Query dari fingerprint biword winnowing dengan stemming. Pada tahap ini akan dilakukan : Dokumen yang Diduga Plagiarisme Pembersihan Teks Pemotongan Teks menjadi kata tunggal Filter Stopword dan Stemming Membentuk Biword dan enkripsi MD5 Membentuk Query Menghitung frekuensi fingerprint dan perangkingan Pemilihan Fingerprint Membentuk Window Menghitung nilai hash Gambar 4.2 Tahapan Pembuatan Query dari Fingerprint Biword Winnowing dengan Stemming 1. Melakukan pembersihan teks. Pada tahap ini dilakukan pembuangan karakter-karakter tidak relevan seperti tanda baca, mengubah huruf kapital menjadi huruf kecil dan membuang karakter angka. 2. Melakukan pemotongan teks menjadi kata tunggal serta melakukan filter stopword dan stemming, kemudian dibentuk menjadi biword (dua kata) yang dienkripsi dengan menggunakan MD5. Stemming yang digunakan pada tahapan ini menggunakan algoritma Nazief dan Adriani. Proses stemming dengan algoritma Nazief dan Adriani dapat digambar dengan flowchart berikut: IV-3

4 Gambar 4.3 Flowchart Algoritma Nazief dan Adriani 3. Menghitung nilai hash. Pada tahap ini biword yang telah dienkripsi dengan MD5 akan dihitung nilai hash-nya dengan menggunakan persamaan rolling hash (persamaan 2.7). 4. Membentuk window dengan ukuran w. Nilai-nilai yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. 5. Pemilihan beberapa nilai hash menjadi document fingerprinting. Dari window yang telah dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk dijadikan fingerprint dokumen. Kemudian fingerprint yang diperoleh dihitung frekuensi kemunculannya dan dilakukan perangkingan berdasarkan jumlah frekuensinya. 6. Membentuk masing-masing query dengan menggunakan n biword berdasarkan n fingerprint dengan frekuensi tertinggi, n biword berdasarkan n fingerprint dengan frekuensi tengah, n biword berdasarkan n fingerprint dengan frekuensi terendah. Untuk lebih jelasnya, berikut adalah contoh pembuatan query dengan stemming. Dokumen yang diduga plagiarisme : Algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi. Pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien. Tahapan yang dilakukan: IV-4

5 a. Pembersihan Teks Diperoleh= algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien b. Pemotongan teks menjadi kata tunggal serta filter stopword dan stemming Diperoleh : -algoritma -kehandalan -optimal -selesai -aplikasi -struktur -algoritma -disain -temu -data -efektif -genetika -output -manfaat -bantu -pemilihan -data -kritis -sistem -basis -berukuran -efisien c. Membentuk biword dari hasil proses pemotongan teks menjadi kata tunggal serta filter stopword dan stemming [0] = algoritma genetika [1] = genetika kehandalan [2] = kehandalan output [3] = output optimal [4] = optimal manfaat [5] = manfaat selesai [6] = selesai bantu [7] = bantu aplikasi [8] = aplikasi pemilihan [9] = pemilihan struktur IV-5

6 [10] = struktur data [11] = data algoritma [12] = algoritma kritis [13] = kritis disain [14] = disain sistem [15] = sistem temu [16] = temu basis [17] = basis data [18] = data berukuran [19] = berukuran efektif [20] = efektif efisien d. Setelah biword terbentuk, biword dienkripsi dengan MD5 [0]=998d2e98c5e38b03a951ee3294c0e553 [1]=c53aa727c3a7fc0d2c58da764fca4072 [2]=aea3ca48b73c1cb3a11e5982e15eb88b [3]=f8318a74f782ee4f95d9aa13cec5ccea [4]=180b b1e2da5b854bfb8d7bf44 [5]=3a84bdb5f7a c [6]=67ae83db3ad c19145b6d646 [7]= b58cb f4502a8d38da [8]=0e8f e1a300a992f8c71e1e [9]= c0a48fe21e1d7fb69c6be57 [10]=ed fb9b1d06c b92 [11]=d01d286515e8995ce653c2d66f80ed27 [12]=e c67392ac8fd ad7a [13]=bdcba685d86c7aed496874b24e40e696 [14]=574e7cd71f01a8975b778cd7854e008b [15]=076f5ad78a543b5020e5809e2dafc209 [16]=a696da495ba1d22b6891ec0c97b03534 [17]=9d43d6ea63c5b521c0bc19d1da2921be [18]= e263060adb2c748f60d612b3 [19]=edb5df26a2ef b77ac1f3f3 [20]=8158c4357ccd49f126c02606e e. Biword yang telah dienkripsi dengan MD5 kemudian dilakukan perhitungan nilai hash (rolling hash). Berikut ini hasil perhitungan hash dengan rolling hash dimana b=2 dan k=32 : [0]= [1]= [2]= [3]= [4]= [5]= [6]= [7]= [8]= [9]= [10]= [11]= [12]= [13]= [14]= [15]= [16]= IV-6

7 [17]= [18]= [19]= [20]= f. Nilai-nilai hash yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. Kemudian pilih nilai hash terkecil tiap window. Berikut contoh pembentukan window dengan ukuran w = 4. [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] [16]=[ , , , ] [17]=[ , , , ] Nilai hash yang di-bold menunjukkan nilai hash terkecil dalam satu window dan akan dijadikan sebagai fingerprint. Jika nilai hash terkecil dalam window selanjutnya sama dengan nilai hash window sebelumnya, maka tidak perlu di-bold lagi. Window pertama adalah [ , , , ]. Dari window tersebut dilakukan pemilihan nilai hash yang terkecil sebagai fingerprint dokumen dan nilai hash yang terkecil adalah g. Pemilihan nilai hash menjadi fingerprint. Dari hasil proses pembentukan window diperoleh nilai hash yang menjadi fingerprint adalah [ ,0][ ,4][ ,7] [ ,9][ ,11][ ,14] [ ,15][ ,18] IV-7

8 fingerprint [ ,0] menunjukkan nilai hash dan posisi fingerprint dalam dokumen. h. Dari fingerprint yang diperoleh, selanjutnya dilakukan perhitungan frekuensi fingerprint dan dilakukan perangkingan (besar ke kecil) berdasarkan nilai frekuensi fingerprint [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 i. Membentuk masing-masing query dengan menggunakan n biword berdasarkan n fingerprint dengan frekuensi tertinggi, n biword berdasarkan n fingerprint dengan frekuensi tengah, n biword berdasarkan n Misal n = 5, maka diperoleh : fingerprint dengan frekuensi terendah. 5 biword berdasarkan 5 fingerprint dengan frekuensi tertinggi disain sistem = sistem temu = data berukuran = data algoritma = pemilihan struktur = biword berdasarkan 5 fingerprint dengan frekuensi tengah sistem temu = data berukuran = data algoritma = pemilihan struktur = optimal manfaat = biword berdasarkan 5 fingerprint dengan frekuensi terendah data algoritma = pemilihan struktur = optimal manfaat = bantu aplikasi = algoritma genetika = algoritma genetika Sehingga query diperoleh adalah IV-8

9 Query Stemming 5 Frekuensi Fingerprint Tertinggi = disain sistem sistem temu data berukuran data algoritma pemilihan struktur Query Stemming 5 Frekuensi Fingerprint Tengah = sistem temu data berukuran data algoritma pemilihan struktur optimal manfaat Query Stemming 5 Frekuensi Fingerprint Terendah = data algoritma pemilihan struktur optimal manfaat bantu aplikasi algoritma genetika 2. Query dari fingerprint biword winnowing tanpa stemming. Pada tahap ini akan dilakukan : Dokumen yang Diduga Plagiarisme Pembersihan Teks Pemotongan Teks menjadi kata tunggal Filter Stopword Membentuk Biword dan enkripsi MD5 Membentuk Query Menghitung frekuensi fingerprint dan perangkingan Pemilihan Fingerprint Membentuk Window Menghitung nilai hash Gambar 4.4 Tahapan Pembuatan Query dari Fingerprint Biword Winnowing tanpa Stemming a. Melakukan pembersihan teks. Pada tahap ini dilakukan pembuangan karakter-karakter tidak relevan seperti tanda baca, mengubah huruf kapital menjadi huruf kecil dan membuang karakter angka. b. Melakukan pemotongan teks menjadi kata tunggal serta melakukan filter stopword, kemudian dibentuk menjadi biword (dua kata) yang dienkripsi dengan menggunakan MD5. c. Menghitung nilai hash. Pada tahap ini biword yang telah dienkripsi dengan MD5 akan dihitung nilai hash-nya dengan menggunakan persamaan rolling hash (persamaan 2.7). IV-9

10 d. Membentuk window dengan ukuran w. Nilai-nilai yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. e. Pemilihan beberapa nilai hash menjadi document fingerprinting. Dari window yang telah dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk dijadikan fingerprint dokumen. Kemudian fingerprint yang diperoleh dihitung frekuensi kemunculannya dan dilakukan perangkingan berdasarkan jumlah frekuensinya. f. Membentuk masing-masing query dengan menggunakan n biword berdasarkan n fingerprint dengan frekuensi tertinggi, n biword berdasarkan n fingerprint dengan frekuensi tengah, n biword berdasarkan n fingerprint dengan frekuensi terendah. Untuk lebih jelasnya, berikut adalah contoh pembuatan query tanpa stemming. Dokumen yang diduga plagiarisme : Algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi. Pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien. Tahapan yang dilakukan : a. Pembersihan Teks Diperoleh= algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu IV-10

11 kembali dengan basis data berukuran besar secara efektif dan efisien b. Pemotongan teks menjadi kata tunggal serta filter stopword Diperoleh : -algoritma -kehandalan -output -dimanfaatkan -bantuan -pemilihan -data -permasalahan -disain -memungkinkan -basis -berukuran - efisien -genetika -menghasilkan -optimal -menyelesaikan -aplikasi -struktur -algoritma -kritis -sistem -temu -data -efektif c. Membentuk biword dari hasil proses pemotongan teks menjadi kata tunggal serta filter stopword [0]=algoritma genetika [1]=genetika kehandalan [2]=kehandalan menghasilkan [3]=menghasilkan output [4]=output optimal [5]=optimal dimanfaatkan [6]=dimanfaatkan menyelesaikan [7]=menyelesaikan bantuan [8]=bantuan aplikasi [9]=aplikasi pemilihan [10]=pemilihan struktur [11]=struktur data [12]=data algoritma [13]=algoritma permasalahan [14]=permasalahan kritis [15]=kritis disain [16]=disain sistem [17]=sistem memungkinkan [18]=memungkinkan temu IV-11

12 [19]=temu basis [20]=basis data [21]=data berukuran [22]=berukuran efektif [23]=efektif efisien d. Setelah biword terbentuk, biword dienkripsi dengan MD5 [0]=998d2e98c5e38b03a951ee3294c0e553 [1]=c53aa727c3a7fc0d2c58da764fca4072 [2]=f4bd3b7f0416ed462c1db1d1b51488a2 [3]=2db424971a31301d889fdc26fa25ba65 [4]=f8318a74f782ee4f95d9aa13cec5ccea [5]=7832a51f03c328db9d79c2e4acdc9b15 [6]=f9b6d9d8a031576d4b0dcca250826b21 [7]=9b024c12a8ad2918a98c148cb4dadbe9 [8]=eb1ed9b3d06370b90aaea8e7c36ffcaf [9]=0e8f e1a300a992f8c71e1e [10]= c0a48fe21e1d7fb69c6be57 [11]=ed fb9b1d06c b92 [12]=d01d286515e8995ce653c2d66f80ed27 [13]=bbfaea4b dfac99e c [14]=b23900b040afaae7ba29a44100c141e8 [15]=bdcba685d86c7aed496874b24e40e696 [16]=574e7cd71f01a8975b778cd7854e008b [17]=4a06d8ca14de7f08f5cf bca [18]=d5205afc6f66e43499b4c0c02a893b6d [19]=a696da495ba1d22b6891ec0c97b03534 [20]=9d43d6ea63c5b521c0bc19d1da2921be [21]= e263060adb2c748f60d612b3 [22]=edb5df26a2ef b77ac1f3f3 [23]=8158c4357ccd49f126c02606e e. Biword yang telah dienkripsi dengan MD5 kemudian dilakukan perhitungan nilai hash (rolling hash). Berikut ini hasil perhitungan hash dengan rolling hash dimana b=2 dan k=32 : [0]= [1]= [2]= [3]= [4]= [5]= [6]= [7]= [8]= [9]= [10]= [11]= [12]= [13]= [14]= [15]= [16]= [17]= [18]= [19]= IV-12

13 [20]= [21]= [22]= [23]= f. Nilai-nilai hash yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. Kemudian pilih nilai hash terkecil tiap window. Berikut contoh pembentukan window dengan ukuran w = 4. [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] [16]=[ , , , ] [17]=[ , , , ] [18]=[ , , , ] [19]=[ , , , ] [20]=[ , , , ] Nilai hash yang di-bold menunjukkan nilai hash terkecil dalam satu window dan akan dijadikan sebagai fingerprint. Jika nilai hash terkecil dalam window selanjutnya sama dengan nilai hash window sebelumnya, maka tidak perlu di-bold lagi. Window pertama adalah [ , , , ]. Dari window tersebut dilakukan pemilihan nilai hash yang terkecil sebagai fingerprint dokumen dan nilai hash yang terkecil adalah g. Pemilihan nilai hash menjadi fingerprint. Dari hasil proses pembentukan window diperoleh nilai hash yang menjadi fingerprint adalah [ ,0][ ,3][ ,5] [ ,9][ ,10][ ,14] [ ,16][ ,17][ ,21] IV-13

14 fingerprint [ ,0] menunjukkan nilai hash dan posisi fingerprint dalam dokumen. h. Dari fingerprint yang diperoleh, selanjutnya dilakukan perhitungan frekuensi fingerprint dan dilakukan perangkingan (besar ke kecil) berdasarkan nilai frekuensi fingerprint [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 i. Membentuk masing-masing query dengan menggunakan n biword berdasarkan n fingerprint dengan frekuensi tertinggi, n biword berdasarkan n fingerprint dengan frekuensi tengah, n biword berdasarkan n Misal n=5, maka diperoleh : fingerprint dengan frekuensi terendah. 5 biword berdasarkan 5 fingerprint dengan frekuensi tertinggi disain sistem = sistem memungkinkan = data berukuran = permasalahan kritis = pemilihan struktur = biword berdasarkan 5 fingerprint dengan frekuensi tengah data berukuran = permasalahan kritis = pemilihan struktur = menghasilkan output = optimal dimanfaatkan = biword berdasarkan 5 fingerprint dengan frekuensi terendah pemilihan struktur = menghasilkan output = optimal dimanfaatkan = aplikasi pemilihan = algoritma genetika = Sehingga query diperoleh adalah IV-14

15 Query Tanpa Stemming 5 Frekuensi Fingerprint Tertinggi = disain sistem sistem memungkinkan data berukuran permasalahan kritis pemilihan struktur Query Tanpa Stemming 5 Frekuensi Fingerprint Tengah = data berukuran permasalahan kritis pemilihan struktur menghasilkan output optimal dimanfaatkan Query Tanpa Stemming 5 Frekuensi Fingerprint Terendah = pemilihan struktur menghasilkan output optimal dimanfaatkan aplikasi pemilihan algoritma genetika Analisa Sistem IR Model Okapi BM25 Seteleh query terbentuk maka proses selanjutnya adalah mencari dokumen sumber dengan menggunakan sistem IR model Okapi BM25. Terdapat tiga proses pada sistem IR ini, yakni 1. Pembuatan Inverted Index dan Pembobotan kata. Pada Proses ini akan dilakukan: Koleksi Dokumen Tokenisasi Linguistic Preprocessing (Stopword dan stemming) Indexing Pembobotan Kata Gambar 4.5 Proses Pembuatan Inverted Index a. Mengumpulkan dokumen yang akan di index (dikenal dengan nama corpus atau koleksi dokuemen). Dokumen yang digunakan sebagai koleksi dokumen pada penelitian ini adalah landasan teori kerja praktek dan tugas akhir dengan format txt. b. Proses tokenisasi. Pada tahap ini seluruh kata di dalam kalimat, paragraf atau halaman dipisahkan menjadi token atau potongan kata tunggal. Tahapan ini juga akan menghilangkan karakterkarakter tertentu seperti tanda baca dan mengubah semua kata ke dalam bentuk huruf kecil. IV-15

16 c. Melakukan linguistic preprocessing, yakni stopword dan stemming. Pada tahap ini kata-kata yang bersifat stopword akan dibuang. Selanjutnya dilakukan proses stemming dengan menggunakan algoritma nazief adriani. d. Indexing (Pembuatan Inverted Index). Pada tahap ini, dilakukan proses pengindeksan dokumen terhadap setiap token dengan membuat inverted indeks. Di dalam inverted index tersimpan informasi kata, id dokumen yang mengandung kata tersebut dan frekuensi kemunculan token tersebut dalam suatu dokumen. e. Pembobotan kata. Setiap kata yang telah terindeks diberikan nilai bobot. Pada penelitian ini digunakan dua jenis perhitungan pembobotan. yakni pembobotan lokal dengan menggunakan tf (term frequency) dan pembobotan global dengan menggunakan idf (inverse dokumen frequency). Untuk lebih jelasnya, berikut adalah contoh pembuatan inverted index dan Pembobotan kata. Tahapan yang dilakukan: a. Mengumpulkan dokumen yang akan di index. Terdapat 3 buah koleksi dokumen yang akan di index. 1. Dokumen d1 = Algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi. 2. Dokumen d2 = Sistem Pendukung Keputusan (SPK) adalah sekumpulan prosedur berbasis model untuk memproses data dan memberikan pertimbangan bagi manajer dalam mengambil keputusan. 3. Dokumen d3 = Pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain IV-16

17 sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien. b. Proses tokenisasi. Pada tahapan ini seluruh kata didalam dokumen dipisahkan menjadi token atau potongan kata tunggal. Berikut ini hasil proses tokenisasi masing-masing dokumen yang ditunjukkan pada tabel 4.1. Tabel 4.1 Hasil Proses Tokenisasi Masing-masing Dokumen Dok1 Dok2 Dok3 algoritma sistem pemilihan genetika pendukung struktur Tabel 4.1 Hasil Proses Tokenisasi Masing-masing Dokumen (Lanjutan) Dok1 Dok2 Dok3 yang keputusan data memiliki spk dan kehandalan adalah algoritma dalam sekumpulan merupakan menghasilkan prosedur permasalahan output berbasis yang yang model kritis optimal untuk dalam dapat memproses disain dimanfaatkan data sistem untuk dan yang menyelesaikan memberikan memungkinkan masalah pertimbangan temu tersebut bagi kembali dengan manager dengan IV-17

18 bantuan dalam basis aplikasi mengambil data keputusan berukuran besar secara efektif dan efisien c. Melakukan linguistic preprocessing (Filter Stopword dan Stemming). Berikut ini hasil proses linguistic preprocessing masing-masing dokumen yang ditunjukkan pada tabel 4.2. Tabel 4.2 Hasil Proses linguistic preprocessing Masing-masing Dokumen Dok1 Dok2 Dok3 algoritma sistem Pemilihan genetika dukung Struktur kehandalan spk Data output kumpul algoritma optimal prosedur masalah manfaat basis kritis selesai model disain bantu proses sistem aplikasi data mungkin timbang manager temu basis data berukuran efektif IV-18

19 efisien d. Indexing (pembuatan inverted index). Berikut ini hasil indexing dari seluruh token dokumen yang ditunjukkan pada tabel 4.3. Tabel 4.3 Hasil Indexing dari Seluruh Token Dokumen Kosa Kata (dokumen : frekuensi) algoritma 1:1 3:1 aplikasi 1:1 bantu 1:1 basis 2:1 3:1 berukuran 3:1 data 2:1 3:2 disain 3:1 dukung 2:1 efektif 3:1 Tabel 4.3 Hasil Indexing dari Seluruh Token Dokumen (Lanjutan) Kosa Kata (dokumen : frekuensi) efisien 3:1 genetika 1:1 kehandalan 1:1 kritis 3:1 kumpul 2:1 manajer 2:1 manfaat 1:1 masalah 3:1 model 2:1 mungkin 3:1 optimal 1:1 output 1:1 pemilihan 3:1 prosedur 2:1 proses 2:1 selesai 1:1 sistem 2:1 spk 2:1 struktur 3:1 temu 3:1 IV-19

20 timbang 2:1 Keterangan : Kosa kata : Kata tunggal yang terdapat dalam dokumen (dokumen : frekuensi): Frekuensi kata dalam dokumen. Misal kata algoritma dalam dokumen 1 memiliki frekuensi 1 dan dalam dokumen 3 memiliki frekuensi 1. e. Pembobotan kata. Berikut ini hasil pembobotan kata terhadap kata hasil indexing yang ditunjukkan pada tabel 4.4. Tabel 4.4 Hasil Pembobotan Kata terhadap Kata Hasil Indexing Kosa Kata tf(d1) tf(d2) tf(d3) df idf algoritma ,1761 aplikasi ,4771 bantu ,4771 basis ,1761 berukuran ,4771 data ,1761 disain ,4771 dukung ,4771 efektif ,4771 efisien ,4771 genetika ,4771 kehandalan ,4771 kritis ,4771 kumpul ,4771 manajer ,4771 manfaat ,4771 masalah ,4771 model ,4771 mungkin ,4771 optimal ,4771 output ,4771 IV-20

21 pemilihan ,4771 prosedur ,4771 proses ,4771 selesai ,4771 sistem ,1761 spk ,4771 struktur ,4771 temu ,4771 timbang ,4771 Keterangan : Kosa kata : kata tunggal yang terdapat dalam dokumen Tf(D1) 1 Tf(D2) 2 Tf(D3) 3 Df : Term frequency (frekuensi kata) dalam dokumen : Term frequency (frekuensi kata) dalam dokumen : Term frequency (frekuensi kata) dalam dokumen : Document frequency atau jumlah dokumen dalam koleksi dokumen yang mengandung kosa kata Idf : inverse document frequency (Persamaan 2.3) 2. Preprocessing query. Pada proses ini akan dilakukan: Query Masukan Proses Tokenisasi Linguistic Preprocessing (Stopword dan stemming) Pembobotan Kata Gambar 4.6 Proses Preprocessing Query a. Proses tokenisasi terhadap query. b. Melakukan linguistic preprocessing, yakni stopword dan stemming. IV-21

22 c. Pembobotan kata pada query. Pada penelitian kali ini setiap kata pada query diberi bobot satu, artinya jika dalam query terdapat kata yang ganda maka tetap dihitung satu. Untuk lebih jelasnya, berikut adalah contoh preprocessing query. Query masukan = pemilihan struktur menghasilkan output optimal dimanfaatkan aplikasi pemilihan algoritma genetika Tahapan yang dilakukan a. Proses tokenisasi terhadap query masukan - pemilihan -dimanfaatkan - struktur -aplikasi - menghasilkan -pemilihan - output -algoritma - optimal -genetika b. Melakukan linguistic preprocessing -pemilihan -struktur -algoritma -genetika -manfaat -aplikasi -output -optimal c. Pembobotan kata pada query masukan tf q pemilihan = 1 tf q manfaat = 1 tf q strutkur = 1 tf q aplikasi = 1 tf q algoritma = 1 tf q output = 1 tf q genetika = 1 tf q optimal = 1 IV-22

23 3. Menghitung relevansi (RSV) antara query dengan dokumen menggunakan model Okapi BM25. Pada tahap ini akan dihitung relevansi (RSV) antara query dengan tiap dokumen menggunakan persamaan 2.6. Setelah dihitung relevansi (RSV) masing-masing dokumen, maka selanjutnya akan dilakukan perangkingan dokumen secara descending (besar ke kecil) berdasarkan nilai relevansi (RSV) masing-masing dokumen. Untuk lebih jelasnya, berikut adalah contoh menghitung relevansi (RSV) antara query dengan dokumen menggunakan model Okapi BM25. Query masukan= pemilihan struktur menghasilkan output optimal dimanfaatkan aplikasi pemilihan algoritma genetika Panjang masing-masing dokumen (Ld) dalam contoh pembuatan inverted index : [Ld 1 ] = 9 [Ld 2 ] = 10 [Ld 3 ] = 14 k1 = 1,2 dan b = 0,75. Panjang rata-rata dokumen (L ave ) dalam koleksi: L (ave) = [ ] L (ave) = L (ave) =11 Berdasarkan Tabel 4.3, dapat dilihat bahwa dokumen-dokumen yang mengandung kata-kata di dalam query pemilihan struktur menghasilkan output optimal dimanfaatkan aplikasi pemilihan algoritma genetika adalah dokumen 1 dan 3. Sehingga dokumen yang akan dihitung nilai RSV-nya terhadap query adalah dok1 dan dok2. IV-23

24 = ( ) ( ) ( ) 1, = 0, ,2( 1 0,75 + 0,75 11 ) + 0 1, , ,2( 1 0,75 + 0,75 11 ) + 0 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) = 2, = 1,0169 Berdasarkan hasil penghitungan nilai relevansi (RSV) masing-masing dokumen, maka urutan dokumen (descending) yang relevan dengan query adalah dok1 dan dok Analisa Deteksi kemiripan dokumen dengan Algoritma Biword Winnowing Dokumen-dokumen sumber yang diperoleh selanjutnya akan dilakukan perbandingan tingkat kemiripannya terhadap dokumen yang diduga plagiarisme. Terdapat tiga proses dalam mendektsi kemiripan dokumen ini, yakni: 1. Pembuatan database fingerprint masing-masing dokumen menggunakan algoritma biword-winnowing. Pada Proses ini akan dilakukan: IV-24

25 Koleksi Dokumen Pembersihan Teks Pemotongan Teks menjadi kata tunggal Membentuk Biword dan enkripsi MD5 Pembuatan Database Fingerprint Pemilihan Fingerprint Membentuk Window Menghitung nilai hash Gambar 4.7 Proses Pembuatan Database Fingerprint Dokumen a. Melakukan pembersihan teks. Pada tahap ini dilakukan pembuangan karakter-karakter tidak relevan seperti tanda baca dan mengubah huruf kapital menjadi huruf kecil. b. Melakukan pemotongan teks menjadi kata tunggal, kemudian dibentuk menjadi biword (dua kata) yang dienkripsi dengan menggunakan MD5. c. Menghitung nilai hash. Pada tahap ini biword yang telah dienkripsi dengan MD5 akan dihitung nilai hash-nya dengan menggunakan persamaan rolling hash (persamaan 2.7). d. Membentuk window dengan ukuran w. Nilai-nilai yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. e. Pemilihan beberapa nilai hash menjadi document fingerprinting. Dari window yang telah dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk dijadikan fingerprint dokumen. f. Pembuatan database fingerprint. Pada tahap ini dilakukan penyimpanan fingerprint masing-masing dokumen yang nanti akan digunakan ketika perhitungan kemiripan terhadap dokumen yang diduga plagiarisme. Untuk lebih jelasnya, berikut adalah contoh pembuatan database fingerprint. Dokumen yang digunakan sama dengan dokumen contoh pada pembuatan inverted index. Tahapan yang dilakukan : a. Melakukan Pembersihan Teks IV-25

26 1. Dokumen d1 = algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi 2. Dokumen d2 = sistem pendukung keputusan (spk) adalah sekumpulan prosedur berbasis model untuk memproses data dan memberikan pertimbangan bagi manajer dalam mengambil keputusan 3. Dokumen d3 = pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien b. Melakukan pemotongan teks menjadi kata tunggal. Berikut ini hasil pemotongan teks menjadi kata tunggal masing-masing dokumen yang ditunjukkan pada tabel 4.5. Tabel 4.5 Hasil Pemotongan Teks menjadi Kata Tunggal Masing-masing Dokumen Dok1 Dok2 Dok3 algoritma sistem pemilihan genetika pendukung struktur yang keputusan data memiliki spk dan kehandalan adalah algoritma Tabel 4.5 Hasil Pemotongan Teks menjadi Kata Tunggal Masing-masing Dokumen (Lanjutan) Dok1 Dok2 Dok3 dalam sekumpulan Merupakan menghasilkan prosedur permasalahan output berbasis yang yang model kritis IV-26

27 optimal untuk dalam dapat memproses disain dimanfaatkan data sistem untuk dan yang menyelesaikan memberikan memungkinkan masalah pertimbangan temu tersebut bagi kembali dengan manager dengan bantuan dalam basis aplikasi mengambil data keputusan berukuran besar secara efektif dan efisien c. Membentuk biword dari hasil proses pemotongan teks menjadi kata tunggal. Pada dokumen 1 biword pertama yang terbentuk adalah algoritma genetika, pada dokumen 2 biword pertama yang terbentuk adalah sistem pendukung dan pada dokumen 3 biword pertama yang terbentuk adalah pemilihan struktur. Biword selanjutnya dapat dilihat di Tabel 4.6. Tabel 4.6 Hasil Pembentukan Biword dari Kata Tunggal Masing-masing Dokumen Dok1 Dok2 Dok3 [0]=algoritma genetika [0]=sistem pendukung [0]=pemilihan struktur [1]=genetika yang [1]=pendukung keputusan [1]=struktur data [2]=yang memiliki [2]=keputusan spk [2]=data dan [3]=memiliki kehandalan [3]=spk adalah [3]=dan algoritma IV-27

28 [4]=kehandalan dalam [4]=adalah sekumpulan [4]=algoritma merupakan [5]=dalam menghasilkan [5]=sekumpulan prosedur [5]=merupakan permasalahan [6]=menghasilkan output [6]=prosedur berbasis [6]=permasalahan yang [7]=output yang [7]=berbasis model [7]=yang kritis [8]=yang optimal [8]=model untuk [8]=kritis dalam [9]=optimal dapat [9]=untuk memproses [9]=dalam disain [10]=dapat dimanfaatkan [10]=memproses data [10]=disain sistem [11]=dimanfaatkan untuk [11]=data dan [11]=sistem yang [12]=untuk [12]=yang [12]=dan memberikan menyelesaikan memungkinkan [13]=menyelesaikan masalah [13]=memberikan pertimbangan [13]=memungkinkan temu [14]=masalah tersebut [14]=pertimbangan bagi [14]=temu kembali [15]=tersebut dengan [15]=bagi manajer [15]=kembali dengan [16]=dengan bantuan [16]=manajer dalam [16]=dengan basis [17]=bantuan aplikasi [17]=dalam mengambil [17]=basis data [18]=mengambil keputusan [18]=data berukuran [19]=berukuran besar [20]=besar secara [21]=secara efektif [22]=efektif dan [23]=dan efisien d. Setelah biword terbentuk, biword dienkripsi dengan MD5. Pada dokumen 1 biword pertama yang dienkripsi MD5 adalah 998d2e98c5e38b03a951ee3294c0e553. Pada dokumen 2 biword pertama yang dienkripsi MD5 adalah a02a69f9e4e8b17d658750decde Pada dokumen 3 biword pertama yang dienkripsi MD5 adalah c0a48fe21e1d7fb69c6be57. Biword selanjutnya dapat dilihat di Tabel 4.7. Tabel 4.7 Hasil Enkripsi Biword Masing-masing Dokumen dengan MD5 Dok1 Dok2 Dok3 [0]=998d2e98c5e38b03a95 1ee3294c0e553 [1]=987bf6950cb20c2a1fb 2a1e013b814e0 [2]=83d01da e49d25ca7b06 [0]=a02a69f9e4e8b17d decde70361 [1]=db4ae8b5046a0addc f8eb7567 [2]=cb777270b3f3e883f46 29b93d266a6db [0]= c0a48fe21e 1d7fb69c6be57 [1]=ed fb9b1d0 6c b92 [2]=bdc7c27d0ea015ba cde4d597b IV-28

29 [3]=a531c2469c a1 dc95fd7a27e55 [4]=f0ce1a317c8eafa0d7b dbc3830a4ff67 [5]= e5d0114f34 23feaff39acd2 [6]=2db424971a31301d889 fdc26fa25ba65 [7]=c1d893c885690cb45a6 00abe8d51e0d1 [8]=625a209fb69c626bbcd bc68991a65137 [9]= fb03611d5 dac24fcb827e7 [10]=3828e97b53b817f9d6 e47b2610d22376 [11]= e97f174e2 6d a2b27 [12]=5a48a726ad11ea4612 b1c43b133d8ab7 [13]=403a826a8c f79c80594f [14]= a174c0 0322f36a8b96d2 [15]=8f0c0e5ef42449c2a7 a54baa46732cad [16]=7df7264f35cb de40e96a [17]=eb1ed9b3d06370b90a aea8e7c36ffcaf [3]=331259e587dff6c bb9100bd [4]=97d9e f06bff 0297ab80cf816 [5]=62647b26af61ca6233e 047b157a57b45 [6]=86ddc1d9ed715112eaa fc1375 [7]=15471b0e37d8b71835b c52969b23de01 [8]=bfc ac 343c18b [9]=92069c94a7b105b9a5b de16af4 [10]=60c08813a9c646413d 137ebf148365ad [11]=bdc7c27d0ea015ba cde4d597b [12]=274dd074ff7de2f929 9cd09225fc1969 [13]=16664c0985ec67da86 8dca8caf8f2086 [14]= d6fdc33a7 ebab1a5c [15]= b9ef57e6529 cf7c1ccacceef4 [16]=18abaf6eead2b3b5c ba76f2 [17]=b2dbe79decc648aa29 7bc09133ac255f [18]=13cf47ba28161d11ee 983b [3]=f589496c0f5cd4fedf9 8c150c9f41025 [4]=a2ed243f4090db2f974 af40e96b24f24 [5]=3fbaecb1cede43a9d58 02c21e46c053e [6]=5c706d3e8c99d2b2ff1 2a7e7c1af1ed0 [7]=f58a9cb63576c0366fd 3a8c0d1966b8e [8]=b457e902ea fc afe0 [9]=525bf4a36d99e628db8 a1ee78ff4d82c [10]=574e7cd71f01a8975b 778cd7854e008b [11]=53521c2dcbbc4afa37 8c46b263cba6ef [12]=11edddb40dcb570e3f 72bcea9583be6a [13]=d5205afc6f66e43499 b4c0c02a893b6d [14]=00787c2f6d67ed65f c04c1d [15]=de81d950e832b9fb26 da258f634cd529 [16]=4df0a258fe93fe7dc2 3a2fc264d3dd92 [17]=9d43d6ea63c5b521c0 bc19d1da2921be [18]= e263060adb 2c748f60d612b3 [19]=1abb9c6c4e8b1c002f 8a68cad72a94b4 [20]=d76818c8a52c915e89 f78ee600b59fcf [21]=cb1e4a6819a6cbad a06b0b0eae [22]=8f bd e2ff2d169cfd4f [23]= e91e3df6427 4c5a663d3381fa e. Biword yang telah dienkripsi dengan MD5 kemudian dilakukan perhitungan nilai hash (rolling hash). Berikut ini hasil perhitungan hash masing-masing dokumen dengan rolling hash dimana b=2 dan k=32 : Tabel 4.8 Hasil Rolling Hash Biword Masing-masing dokumen yang telah Dienkripsi dengan MD5 Dok1 Dok2 Dok3 [0]= [0]= [0]= [1]= [1]= [1]= [2]= [2]= [2]= [3]= [3]= [3]= IV-29

30 [4]= [4]= [4]= [5]= [5]= [5]= [6]= [6]= [6]= [7]= [7]= [7]= [8]= [8]= [8]= [9]= [9]= [9]= [10]= [10]= [10]= [11]= [11]= [11]= [12]= [12]= [12]= [13]= [13]= [13]= [14]= [14]= [14]= [15]= [15]= [15]= [16]= [16]= [16]= [17]= [17]= [17]= [18]= [18]= [19]= [20]= [21]= [22]= [23]= Pada Tabel 4.8 merupakan hasil rolling hash berdasarkan nilai enkripsi MD5 pada Tabel 4.7. Pada dokumen 1 biword pertama yang dienkripsi dengan MD5 menghasilkan nilai rolling hash Pada dokumen 2 biword pertama yang dienkripsi dengan MD5 menghasilkan nilai rolling hash Pada dokumen 3 biword pertama yang dienkripsi dengan MD5 menghasilkan nilai rolling hash Nilai rolling hash selanjutnya dapat dilihat di Tabel 4.8. f. Nilai-nilai hash yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. Kemudian pilih nilai hash terkecil tiap window. Berikut contoh pembentukan window masingmasing dokumen dengan ukuran w = 4. Window pada dokumen 1 IV-30

31 [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] Window pada dokumen 2 [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] Window pada dokumen 3 [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] [16]=[ , , , ] [17]=[ , , , ] [18]=[ , , , ] [19]=[ , , , ] [20]=[ , , , ] IV-31

32 Nilai hash yang di-bold menunjukkan nilai hash terkecil dalam satu window dan akan dijadikan sebagai fingerprint. Jika nilai hash terkecil dalam window selanjutnya sama dengan nilai hash window sebelumnya, maka tidak perlu di-bold lagi. Dalam window pada dokumen 1, window pertama adalah [ , , , ]. Dari window tersebut dilakukan pemilihan nilai hash yang terkecil sebagai fingerprint dokumen dan nilai hash yang terkecil adalah g. Pemilihan nilai hash menjadi fingerprint. Dari hasil proses pembentukan window masing-masing dokumen diperoleh nilai hash yang menjadi fingerprint adalah Fingerprint Dokumen 1 [ ,0][ ,1][ ,5] [ ,8][ ,9][ ,11] [ ,14] Fingerprint Dokumen 2 [ ,3][ ,7][ ,9] [ ,13] [ ,15] Fingerprint Dokumen 3 [ ,0][ ,3][ ,5] [ ,6][ ,9][ ,11] [ ,14][ ,18][ ,22] [ ,23] fingerprint [ ,0] menunjukkan nilai hash dan posisi fingerprint dalam dokumen. Dok h. Pembuatan database fingerprint. Berikut ini hasil pembuatan database fingerprint yang ditunjukkan pada tabel 4.9. Tabel 4.9 Hasil Pembuatan Database Fingerprint Fingerprint 1 [ ,0][ ,1][ ,5][ ,8][ ,9][ ,11][ ,14] IV-32

33 2 [ ,3][ ,7][ ,9][ ,13] [ ,15] 3 [ ,0][ ,3][ ,5][ ,6][ ,9][ ,11][ ,14][ ,18][ ,22][ ,23] 2. Pembentukan fingerprint dokumen yang diduga plagiarisme dengan algoritma biword winnwoing. Pada Proses ini akan dilakukan: Dokumen diduga plgiarisme Pembersihan Teks Pemotongan Teks menjadi kata tunggal Membentuk Biword dan enkripsi MD5 Pemilihan Fingerprint Membentuk Window Menghitung nilai hash Gambar 4.8 Proses Pembentukan Fingerprint Dokumen Diduga Plagiarisme a. Melakukan pembersihan teks. Pada tahap ini dilakukan pembuangan karakter-karakter tidak relevan seperti tanda baca dan mengubah huruf kapital menjadi huruf kecil. b. Melakukan pemotongan teks menjadi kata tunggal, kemudian dibentuk menjadi biword (dua kata) yang dienkripsi dengan menggunakan MD5. c. Menghitung nilai hash. Pada tahap ini biword yang telah dienkripsi dengan MD5 akan dihitung nilai hash-nya dengan menggunakan persamaan rolling hash (persamaan 2.7). d. Membentuk window dengan ukuran w. Nilai-nilai yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. e. Pemilihan beberapa nilai hash menjadi document fingerprinting. Dari window yang telah dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk dijadikan fingerprint dokumen. Untuk lebih jelasnya, berikut adalah contoh Pembentukan fingerprint dokumen yang diduga plagiarisme dengan algoritma IV-33

34 biword winnowing. Dokumen yang digunakan sama dengan dokumen yang digunakan untuk pembuatan query. Tahapan yang dilakukan a. Pembersihan teks Dokumen diduga plagiarisme=algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien b. Melakukan pemotongan teks menjadi kata tunggal -algoritma -genetika -yang -memiliki -kehandalan -dalam -menghasilkan -output -yang -optimal -dapat -dimanfaatkan -untuk -menyelesaikan -masalah -tersebut -dengan -bantuan -aplikasi -pemilihan -struktur -data -dan -algoritma -merupakan -permasalahan -yang -kritis -dalam -disain -sistem -yang -memungkinkan -temu -kembali -dengan -basis -data -berukuran -besar IV-34

35 -secara -dan -efektif -efisien c. Membentuk biword dari hasil proses pemotongan teks menjadi kata tunggal [0]=algoritma genetika [1]=genetika yang [2]=yang memiliki [3]=memiliki kehandalan [4]=kehandalan dalam [5]=dalam menghasilkan [6]=menghasilkan output [7]=output yang [8]=yang optimal [9]=optimal dapat [10]=dapat dimanfaatkan [11]=dimanfaatkan untuk [12]=untuk menyelesaikan [13]=menyelesaikan masalah [14]=masalah tersebut [15]=tersebut dengan [16]=dengan bantuan [17]=bantuan aplikasi [18]=aplikasi pemilihan [19]=pemilihan struktur [20]=struktur data [21]=data dan [22]=dan algoritma [23]=algoritma merupakan [24]=merupakan permasalahan [25]=permasalahan yang [26]=yang kritis [27]=kritis dalam [28]=dalam disain [29]=disain sistem [30]=sistem yang [31]=yang memungkinkan [32]=memungkinkan temu [33]=temu kembali [34]=kembali dengan [35]=dengan basis [36]=basis data [37]=data berukuran [38]=berukuran besar [39]=besar secara [40]=secara efektif [41]=efektif dan [42]=dan efisien d. Setelah biword terbentuk, biword dienkripsi dengan MD5 [0]=998d2e98c5e38b03a951ee3294c0e553 [1]=987bf6950cb20c2a1fb2a1e013b814e0 [2]=83d01da e49d25ca7b06 [3]=a531c2469c a1dc95fd7a27e55 IV-35

36 [4]=f0ce1a317c8eafa0d7bdbc3830a4ff67 [5]= e5d0114f3423feaff39acd2 [6]=2db424971a31301d889fdc26fa25ba65 [7]=c1d893c885690cb45a600abe8d51e0d1 [8]=625a209fb69c626bbcdbc68991a65137 [9]= fb03611d5dac24fcb827e7 [10]=3828e97b53b817f9d6e47b2610d22376 [11]= e97f174e26d a2b27 [12]=5a48a726ad11ea4612b1c43b133d8ab7 [13]=403a826a8c f79c80594f [14]= a174c00322f36a8b96d2 [15]=8f0c0e5ef42449c2a7a54baa46732cad [16]=7df7264f35cb de40e96a [17]=eb1ed9b3d06370b90aaea8e7c36ffcaf [18]=0e8f e1a300a992f8c71e1e [19]= c0a48fe21e1d7fb69c6be57 [20]=ed fb9b1d06c b92 [21]=bdc7c27d0ea015ba cde4d597b [22]=f589496c0f5cd4fedf98c150c9f41025 [23]=a2ed243f4090db2f974af40e96b24f24 [24]=3fbaecb1cede43a9d5802c21e46c053e [25]=5c706d3e8c99d2b2ff12a7e7c1af1ed0 [26]=f58a9cb63576c0366fd3a8c0d1966b8e [27]=b457e902ea fc afe0 [28]=525bf4a36d99e628db8a1ee78ff4d82c [29]=574e7cd71f01a8975b778cd7854e008b [30]=53521c2dcbbc4afa378c46b263cba6ef [31]=11edddb40dcb570e3f72bcea9583be6a [32]=d5205afc6f66e43499b4c0c02a893b6d [33]=00787c2f6d67ed65f c04c1d [34]=de81d950e832b9fb26da258f634cd529 [35]=4df0a258fe93fe7dc23a2fc264d3dd92 [36]=9d43d6ea63c5b521c0bc19d1da2921be [37]= e263060adb2c748f60d612b3 [38]=1abb9c6c4e8b1c002f8a68cad72a94b4 [39]=d76818c8a52c915e89f78ee600b59fcf [40]=cb1e4a6819a6cbad921060a06b0b0eae [41]=8f bde2ff2d169cfd4f [42]= e91e3df64274c5a663d3381fa e. Biword yang telah dienkripsi dengan MD5 kemudian dilakukan perhitungan nilai hash (rolling hash). Berikut ini hasil perhitungan hash dengan rolling hash dimana b=2 dan k=32 : [0]= [1]= [2]= [3]= [4]= [5]= [6]= [7]= [8]= [9]= [10]= [11]= IV-36

37 [12]= [13]= [14]= [15]= [16]= [17]= [18]= [19]= [20]= [21]= [22]= [23]= [24]= [25]= [26]= [27]= [28]= [29]= [30]= [31]= [32]= [33]= [34]= [35]= [36]= [37]= [38]= [39]= [40]= [41]= [42]= f. Nilai-nilai hash yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. Kemudian pilih nilai hash terkecil tiap window. Berikut contoh pembentukan window dengan ukuran w = 4. [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] [16]=[ , , , ] [17]=[ , , , ] [18]=[ , , , ] IV-37

38 [19]=[ , , , ] [20]=[ , , , ] [21]=[ , , , ] [22]=[ , , , ] [23]=[ , , , ] [24]=[ , , , ] [25]=[ , , , ] [26]=[ , , , ] [27]=[ , , , ] [28]=[ , , , ] [29]=[ , , , ] [30]=[ , , , ] [31]=[ , , , ] [32]=[ , , , ] [33]=[ , , , ] [34]=[ , , , ] [35]=[ , , , ] [36]=[ , , , ] [37]=[ , , , ] [38]=[ , , , ] [39]=[ , , , ] Nilai hash yang di-bold menunjukkan nilai hash terkecil dalam satu window dan akan dijadikan sebagai fingerprint. Jika nilai hash terkecil dalam window selanjutnya sama dengan nilai hash window sebelumnya, maka tidak perlu dibold lagi. Window pertama adalah [ , , , ]. Dari window tersebut dilakukan pemilihan nilai hash yang terkecil sebagai fingerprint dokumen dan nilai hash yang terkecil adalah g. Pemilihan nilai hash menjadi fingerprint. Dari hasil proses pembentukan window diperoleh nilai hash yang menjadi fingerprint adalah [ ,0][ ,1][ ,5] [ ,8][ ,9][ ,11 ][ ,14][ ,18][ ,19][ ,22][ ,24][ ,25][ ,28][ ,30][ ,33][ ,37][ ,41] [ ,42] IV-38

39 3. Menghitung tingkat kemiripan ( similiarity) dokumen dengan menggunakan persamaan jaccard coeficient. Pada tahap ini fingerprint dokumen yang diduga plagiarisme akan dilakukan perhitungan kemiripan terhadap fingerprint dokumen-dokumen sumber yang diperoleh. Perhitungan kemiripan dilakukan dengan menggunakan persamaan jaccard coeficient (Persamaan 2.9) Untuk lebih jelasnya, berikut adalah contoh menghitung tingkat kemiripan (similiarity) dokumen dengan menggunakan persamaan jaccard coeficient. Berdasarkan perhitungan relevansi (RSV) dokumen terhadap query diperoleh bahwa dokumen yang relevan adalah dokumen 1 dan dokumen 2. Dokumen yang relevan tersebut kemudian akan dihitung kemiripannya dengan dokumen uji. Similaritas(d i,d j ) = ( ) ( ) ( ) ( ) x 100% Fingerprint dokumen diduga plagiarisme [ ,0][ ,1][ ,5][ ,8][ ,9][ ,11][ ,14][ ,18][ ,19][ ,22][ ,2 4][ ,25][ ,28][ ,30][ ,33][ ,37][ ,41][ ,42 ] Fingerprint dokumen 1 [ ,0][ ,1][ ,5][ ,8][ ,9][ ,11][ ,14] ( ) ( 1) = [ ][ [ ][ ][ ][ ][ ] ( ) ( 1) =7 IV-39

40 ( ) ( 1) = [ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ] ( ) ( 1) =18 Similaritas(d plagiarisme,d 1 ) = 7/18 * 100% = 38,89% Similaritas(d plagiarisme,d 3 ) = 10/18 * 100% = 55,56% Dari perhitungan diatas dapat disimpulkan bahwa dokumen 3 memiliki similaritas jaccard yang lebih tinggi di bandingkan dokumen 1 terhadap dokumen yang diduga plagiarisme. Nilai similaritas jaccard antara dokumen 3 dengan dokumen yang diduga plagiarisme adalah 55,56% sedangkan dokumen 1 terhadap dokumen yang diduga plagiarisme adalah 38,89%. 4.2 Perancangan Aplikasi Pada tahap ini akan dibahas tentang perancangan aplikasi pendeteksi penjiplakan berdasarkan tahapan analisa yang telah dilakukan sebelumnya. Adapun perancangan yang akan dibuat adalah perancangan file teks, perancangan struktur menu dan perancangan interface Perancangan File Teks (Flat File) Dalam penelitian ini, untuk penyimpanan data maupun informasi tidak menggunakan database relasional, melainkan flat file yang menggunakan file teks (plain text) sebagai media penyimpanannya. Sehingga seluruh informasi dari pengindeksan ( indexing), pembobotan global ( idf), panjang dokumen, rata-rata dokumen, jumlah dokumen, kata stopword dan kamus bahasa indonesia akan disimpan dalam file teks. Daftar kata stopwords disimpan dalam file stopwords.txt yang sebelumnya telah disimpan dalam pembangun sistem dan berjumlah 330 kata. Kamus bahasa indonesia yang dipergunakan saat stemming disimpan dalam file kamus-ind.txt IV-40

41 yang sebelumnya telah disimpan dalam pembangun sistem dan berjumlah kata. Setelah sistem dijalankan, informasi koleksi dokumen, panjang dokumen, jumlah dokumen, rata-rata dokumen, indexing, pembobotan idf, fingerprint dokumen akan disimpan dalam file filelist.txt, panjangdoc.txt, jum_doc.txt, rata_ratadoc.txt, indexing.txt, idf.txt dan dbfingerprint.txt. File Filelist.txt akan menyimpan informasi berupa id dokumen dan judul dokumen. File panjangdoc.txt akan menyimpan informasi berupa id dokumen dan panjang dokumen. File jum_doc.txt akan menyimpan informasi jumlah koleksi dokumen. File rata_ratadoc.txt akan menyimpan informasi rata-rata dokumen. File indexing.txt akan menyimpan informasi kata, id dokumen yang mengandung kata tersebut dan frekuensi kemunculan token tersebut dalam suatu dokumen seperti tabel 4.3. File idf.txt akan menyimpan informasi bobot masing-masing kata. File dbfingerprint.txt akan menyimpan informasi fingerprint seluruh koleksi dokumen seperti tabel Perancangan Struktur Menu Perancangan struktur menu adalah tahap merancang menu-menu yang dapat digunakan pengguna untuk menjalankan aplikasi, sehingga dapat memudahkan pengguna dalam memilih proses yang akan dijalankannya. Untuk lebih jelasnya dapat dilihat pada gambar struktur menu berikut: Struktur Menu Beranda Koleksi Dokumen Source Detection Bantuan Gambar 4.9 Rancangan Struktur Menu IV-41

42 4.2.3 Perancangan Interface Interface sistem adalah sarana pengembangan sistem yang digunakan untuk membuat komunikasi yang lebih mudah, dan konsisten antara sistem dengan pemakainya. Penekanan interface meliputi tampilan yang baik, mudah dipahami dan tombol-tombol yang familiar. Berikut ini rancangan interface source detection dokumen yang akan dibangun : Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan ISI Gambar 4.10 Rancangan Interface Rancangan Interface Menu Beranda Menu beranda adalah halaman utama yang ditampilkan aplikasi kepada pengguna. Halaman ini berisi tentang informasi sistem source detection dokumen, alur kerja sistem, dan tujuan sistem. Berikut ini adalah rancangan interface menu halaman beranda : IV-42

43 Source Detection System Beranda Koleksi Dokumen Penjelasan informasi sistem Source Detection Bantuan Alur Kerja Sistem Gambar 4.11 Rancangan Interface Menu Beranda Rancangan Interface Menu Koleksi Dokumen Menu Koleksi Dokumen adalah halaman yang menampilkan seluruh koleksi dokumen yang ada pada system. Dalam halaman ini terdapat tombol tambah dokumen dan lihat isi. Tombol tambah berfungsi untuk menampilkan form tambah/upload dokumen baru. Tombol lihat isi berfungsi untuk menampilkan isi dokumen secara lengkap. Dalam menu ini juga terdapat fasiltas pencarian, yang befungsi untuk melakukan pencarian dokumen. Berikut ini adalah rancangan interface menu halaman koleksi dokumen: Source Detection System Beranda Koleksi Dokumen Koleksi Dokumen Tambah Dokumen Cari Source Detection Bantuan No Nama Dok Cuplikan Isi Lihat Isi 1 Dok1... Lihat Isi 2 Dok2... Lihat Isi 3 Dok3... Lihat Isi Gambar 4.12 Rancangan Interface Menu Koleksi Dokumen IV-43

44 Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan Form Tambah / Upload Dokumen Upload Pilih Berkas Gambar 4.13 Rancangan Interface Tambah Koleksi Dokumen Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan Nama Dokumen Gambar 4.14 Rancangan Interface Lihat Isi Dokumen Rancangan Interface Menu Source Detection Menu Source Detection adalah halaman yang digunakan untuk mencari sumber dari dokumen yang diduga plagiarisme. Ketika halaman ini pertama di akses, maka akan muncul form pembuatan query dari dokumen, disini pengguna harus mengupload dokumen yang akan dicari sumbernya. Kemudian pengguna menekan tombol buat query untuk pembuatan query. Setelah query terbentuk dan ditampilkan oleh sistem, user harus memilih salah satu dari enam buah query yang terbentuk untuk digunakan dalam mencari sumber dokumen. Setelah itu pengguna menekan tombol cari sumber, maka sistem akan menampilkan dokumen-dokumen sumber yang relevan berdasarkan query yang digunakan. IV-44

45 selain menampilkan dokumen-dokumen sumber yang relevan, juga menampilkan informasi nilai similiarity IR (RS V) dan nilai kemiripan dokumen ( Jaccard Coefficient). Terdapat juga tombol detail, yang berfungsi untuk menampilkan halaman perbandingan antara dokumen yang diduga plagiarisme dengan dokumen yang diperoleh. Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan Pembuatan Query Bua Query Pilih Berkas Gambar 4.15 Rancangan Interface Pembuatan Query Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan Query dengan stemming - Query Stemming Frek Tertinggi=... - Query Stemming Frek Tengah =... - Query Stemming Frek Terendah=... Query Tanpa stemming - Query non-stem Frek Tertinggi=... - Query non-stem Frek Tengah =... - Query non-stem Frek Terendah=... Pilih Query Cari Sumber Gambar 4.16 Rancangan Interface Pemilihan Query Source Detection System Beranda Koleksi Dokumen Query=... Dokumen Sumber yang diperoleh Source Detection Bantuan No Dokumen RSV 1 Dok1... Jaccard... Detail kemiripan Detail 2 Dok Detail 3 Dok Detail IV-45

46 Gambar 4.17 Rancangan Interface Dokumen Sumber Perbandingan Kemiripan Dokumen Dokumen 1 Dokumen 2 Waktu Proses Gambar 4.18 Rancangan Interface Perbandingan Dokumen Rancangan Interface Menu Bantuan Menu bentuan adalah halaman yang berfungsi untuk menampilkan informasi cara penggunaan sistem ini. Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan BANTUAN Gambar 4.19 Rancangan Interface Halaman Bantuan IV-46

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Identifikasi Masalah Merumuskan Masalah Study Literatur Perancangan Struktur Menu Interface Analisa

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

SOURCE DETECTION PADA KASUS PLAGIARISME DOKUMEN MENGGUNAKAN METODE BIWORD WINNOWING DAN RETRIEVAL BERBASIS OKAPI BM25 TUGAS AKHIR

SOURCE DETECTION PADA KASUS PLAGIARISME DOKUMEN MENGGUNAKAN METODE BIWORD WINNOWING DAN RETRIEVAL BERBASIS OKAPI BM25 TUGAS AKHIR SOURCE DETECTION PADA KASUS PLAGIARISME DOKUMEN MENGGUNAKAN METODE BIWORD WINNOWING DAN RETRIEVAL BERBASIS OKAPI BM25 TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan teknologi informasi dan komunikasi tidak hanya membawa dampak positif, tetapi juga membawa dampak negatif, salah satunya adalah tindakan plagiarisme (Kharisman,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Pengertian Plagiarisme Kata plagiarisme berasal dari kata Latin plagiarius yang berarti merampok, membajak. Plagiarisme merupakan tindakan pencurian atau kebohongan intelektual.

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian menjelaskan bagaimana langkah-langkah atau tahapan-tahapan yang akan dilakukan dalam penelitian agar rumusan masalah penelitian dapat terselesaikan.

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III ANALISIS DAN PERANCANGAN SISTEM BAB III ANALISIS DAN PERANCANGAN SISTEM 3.1. Analisis Masalah Setiap tahunnya, DPP Infokom selaku panitia Pelatihan Aplikasi Teknologi dan Informasi (PATI) Universitas Muhammadiyah Malang menerima ribuan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

SOURCE DETECTION PADA KASUS PLAGIARISME DOKUMEN BERDASARKAN WORDS PHRASING DENGAN MODEL RUANG VEKTOR TUGAS AKHIR. Diajukan Sebagai Salah Satu Syarat

SOURCE DETECTION PADA KASUS PLAGIARISME DOKUMEN BERDASARKAN WORDS PHRASING DENGAN MODEL RUANG VEKTOR TUGAS AKHIR. Diajukan Sebagai Salah Satu Syarat SOURCE DETECTION PADA KASUS PLAGIARISME DOKUMEN BERDASARKAN WORDS PHRASING DENGAN MODEL RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III ANALISIS DAN PERANCANGAN SISTEM BAB III ANALISIS DAN PERANCANGAN SISTEM Pada pengembangan suatu sistem diperlukan analisis dan perancangan sistem yang tepat, sehingga proses pembuatan sistem dapat berjalan dengan lancar dan sesuai seperti

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi Penelitian adalah sekumpulan peraturan, kegiatan, dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu. Metodologi juga merupakan analisis teoritis mengenai

Lebih terperinci

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25 54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

BAB I PENDAHULUAN 1.1 LATAR BELAKANG BAB I PENDAHULUAN Pada bab ini akan dibahas latar belakang penelitian, perumusan masalah, tujuan penelitian, manfaat penelitian dan batasan masalah. 1.1 LATAR BELAKANG Perkembangan penggunaan informasi

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Sistem Temu Kembali Informasi Sistem Temu Kembali Informasi atau Information Retrieval (IR) adalah kegiatan untuk menemukan suatu material (dokumen) dari data yang tidak terstruktur

Lebih terperinci

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM I Putu Hariyadi 1, Hartarto Junaedi 2 (1) STMIK Bumigora Mataram, putu.hariyadi@stmikbumigora.ac.id

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada zaman seperti sekarang ini, jurnal atau berita elektronik merupakan suatu bentuk hasil karya dari seseorang yang sudah familiar. Di dalam karyakarya tersebut

Lebih terperinci

1BAB I PENDAHULUAN 1.1 Latar Belakang

1BAB I PENDAHULUAN 1.1 Latar Belakang 1BAB I PENDAHULUAN 1.1 Latar Belakang Dengan banyaknya informasi tertulis atau teks sekarang ini, manusia diharapkan bisa mendapat informasi yang banyak dalam waktu singkat (Bohne dan Borghoff, 2013).

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era BAB I PENDAHULUAN 1.1 Latar Belakang Information retrieval atau disingkat dengan IR adalah menemukan bahan (dokumen) dari dokumen terstruktur (biasanya teks) yang memenuhi kebutuhan informasi pada ruang

Lebih terperinci

IMPLEMENTASI DETEKSI PENJIPLAKAN DENGAN ALGORITMA WINNOWING PADA DOKUMEN TERKELOMPOK

IMPLEMENTASI DETEKSI PENJIPLAKAN DENGAN ALGORITMA WINNOWING PADA DOKUMEN TERKELOMPOK IMPLEMENTASI DETEKSI PENJIPLAKAN DENGAN ALGORITMA WINNOWING PADA DOKUMEN TERKELOMPOK 1 Tugas Akhir I Wayan Surya Priantara 5107100057 Dosen Pembimbing Diana Purwitasari, S.Kom., M.Sc. Umi Laili Yuhana,

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Pengertian Stemming Stemming merupakan suatu proses atau cara dalam menemukan kata dasar dari suatu kata. Stemming sendiri berfungsi untuk menghilangkan variasi-variasi morfologi

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Jurnal Ilmiah Teknologi dan Informasi ASIA Vol. 7 No. 1, Februari 2013

Jurnal Ilmiah Teknologi dan Informasi ASIA Vol. 7 No. 1, Februari 2013 PERANCANGAN INFORMATION RETRIEVAL (IR) BERBASIS TERM FREQUENCY- INVERSE DOCUMENT FREQUENCY (TF-IDF) UNTUK PERINGKASAN TEKS TUGAS KHUSUS BERBAHASA INDONESIA Erwien Tjipta Wijaya Sekolah Tinggi Manajemen

Lebih terperinci

PENERAPAN ALGORITMA GENETIKA PADA RELEVANCE FEEDBACK DALAM SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN BINARY INDEPENDENCE MODEL (BIM) TUGAS AKHIR

PENERAPAN ALGORITMA GENETIKA PADA RELEVANCE FEEDBACK DALAM SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN BINARY INDEPENDENCE MODEL (BIM) TUGAS AKHIR PENERAPAN ALGORITMA GENETIKA PADA RELEVANCE FEEDBACK DALAM SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN BINARY INDEPENDENCE MODEL (BIM) TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar

Lebih terperinci

PENINGKATAN KUALITAS METODE PSEUDO RELEVANCE FEEDBACK DENGAN PENERAPAN SEGMENTASI DOKUMEN LAPORAN TUGAS AKHIR

PENINGKATAN KUALITAS METODE PSEUDO RELEVANCE FEEDBACK DENGAN PENERAPAN SEGMENTASI DOKUMEN LAPORAN TUGAS AKHIR PENINGKATAN KUALITAS METODE PSEUDO RELEVANCE FEEDBACK DENGAN PENERAPAN SEGMENTASI DOKUMEN LAPORAN TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Plagiarisme 2.1.1 Pengertian Plagiarisme Plagiarisme berasal dari kata latin yaitu plagiarius yang berarti pencuri. Menurut KBBI Plagiarisme adalah penjiplakan atau pengambilan

Lebih terperinci

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

Indexing dan Bahasa Penelusuran

Indexing dan Bahasa Penelusuran LOGO Indexing dan Bahasa Penelusuran Sugeng Priyanto Indexing Definisi : sebuah proses untuk melakukan pengindeksan terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai. Proses

Lebih terperinci

Sistem Deteksi Plagiarisme Dokumen Bahasa Indonesia Menggunakan Metode Vector Space Model

Sistem Deteksi Plagiarisme Dokumen Bahasa Indonesia Menggunakan Metode Vector Space Model 392 Sistem Deteksi Plagiarisme Dokumen Bahasa Indonesia Menggunakan Metode Vector Space Model Tudesman* 1, Enny Oktalina 2, Tinaliah 3, Yoannita 4 1-4 STMIK Global Informatika MDP Jl. Rajawali No. 14 Palembang

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval

Sistem Temu Kembali Informasi/ Information Retrieval Sistem Temu Kembali Informasi/ Information Retrieval Pemodelan IR Imam Cholissodin S.Si., M.Kom. Table Of Content 1. Boolean Retrieval Model Boolean Index Inverted Index 2. Boolean Query Retrieval 3. Vector

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Hukum acara pidana yang tertuang dalam Kitab Undang-undang Hukum Acara Pidana (KUHAP), merupakan kumpulan aturan-aturan yang digunakan untuk melaksanakan tata

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

1. Pendahuluan. 1.1 Latar belakang

1. Pendahuluan. 1.1 Latar belakang 1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Sebelum masuk dalam tahap pembuatan aplikasi, maka terlebih dahulu perlu dilakukan analisa dan perancangan terhadap aplikasi yang akan dibuat. Tahap analisa merupakan tahapan

Lebih terperinci

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2.

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2. 1.1 Naive Bayes Classifier Naive bayes classifier merupakan salah satu metode machine learning yang dapat digunakan untuk klasifikasi suatu dokumen. Teorema bayes berawal dari persamaan 2.1, yaitu: (2.1)

Lebih terperinci

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012 PENINGKAAN RELEVANSI HASIL PENCARIAN KAA KUNCI DENGAN PENERAPAN MODEL RUANG VEKOR PADA SISEM INFORMASI RUANG BACA DI JURUSAN ILMU KOMPUER UNIVERSIAS UDAYANA Ngurah Agus Sanjaya ER a, Agus Muliantara b,

Lebih terperinci