BAB IV ANALISA DAN PERANCANGAN

Transkripsi

1 BAB IV ANALISA DAN PERANCANGAN Bab ini akan membahas tentang analisa dan perancangan aplikasi source detection pada kasus plagiarisme dokumen menggunakan biword winnowing dan retrieval berbasis Okapi BM25. Proses Pembuatan Query n frek finger tertinggi Input Dokumen Biword winnowing(finger print) Query Generator (biword winnowin g) Steming Non- Steming n frek finger medium n frek finger terendah n frek finger tertinggi n frek finger medium n frek finger terendah Deteksi Kemiripan Database FIngerprint (Corpus) Biword winnowing(finger print) Query Presentase kemiripan Hitung Tingkat Kemiripan Database Indexing (Corpus) indexing Preprocessing doc1 doc2 doc3 Kumpulan Dokumen (corpus) Sistem IR Hasi Pencarian (Dokumen) IR System Okapi BM25 Preprocessing query Gambar 4.1 Analisa Source Detection Dokumen

2 4.1 Analisa Source Detection Dokumen Pada gambar 4.1, terdapat tiga buah tahapan utama pada aplikasi source detection dokumen dalam penelitian ini, yaitu : 1. Pembuatan query dari dokumen Pada tahap ini dokumen yang diduga plagiarisme akan dibentuk menjadi query berdasarkan fingerprint biword-winnowing. Query yang dibentuk terbagi menjadi dua jenis, yakni query dari fingerprint biword-winnowing dengan stemming dan query dari fingerprint biword-winnowing tanpa stemming. 2. Sistem IR dengan model Okapi BM25 Query yang terbentuk pada proses 1 akan dicari dokumen sumbernya menggunakan sistem IR dengan model okapi BM25. Terdapat tiga proses dalam sistem IR ini, yakni proses pembuatan inverted index dan pembobotan kata, preprocessing query dan menghitung relevansi (RSV) antara query dengan dokumen menggunakan model Okapi BM Deteksi kemiripan dokumen dengan algoritma biword winnowing Dokumen-dokumen sumber yang diperoleh dari tahap 2 kemudian akan dibandingkan tingkat kemiripannya terhadap dokumen yang diduga melakukan plagiarisme dengan menggunakan algoritma biword winnowing. Pada tahap ini terbagi menjadi 3 proses, yakni pembuatan database fingerprint masing-masing dokumen menggunakan algoritma biword winnowing, pembentukan fingerprint dokumen yang diduga plagiarisme dengan algoritma biword winnwoing dan menghitung tingkat kemiripan ( similiarity) dokumen dengan menggunakan persamaan jaccard coeficien. IV-2

3 4.1.1 Analisa Pembuatan Query Pada tahapan ini dokumen yang diduga plagiarisme akan dibentuk menjadi query berdasarkan fingerprint biword winnowing. Ada dua jenis query yang dibentuk, yakni 1. Query dari fingerprint biword winnowing dengan stemming. Pada tahap ini akan dilakukan : Dokumen yang Diduga Plagiarisme Pembersihan Teks Pemotongan Teks menjadi kata tunggal Filter Stopword dan Stemming Membentuk Biword dan enkripsi MD5 Membentuk Query Menghitung frekuensi fingerprint dan perangkingan Pemilihan Fingerprint Membentuk Window Menghitung nilai hash Gambar 4.2 Tahapan Pembuatan Query dari Fingerprint Biword Winnowing dengan Stemming 1. Melakukan pembersihan teks. Pada tahap ini dilakukan pembuangan karakter-karakter tidak relevan seperti tanda baca, mengubah huruf kapital menjadi huruf kecil dan membuang karakter angka. 2. Melakukan pemotongan teks menjadi kata tunggal serta melakukan filter stopword dan stemming, kemudian dibentuk menjadi biword (dua kata) yang dienkripsi dengan menggunakan MD5. Stemming yang digunakan pada tahapan ini menggunakan algoritma Nazief dan Adriani. Proses stemming dengan algoritma Nazief dan Adriani dapat digambar dengan flowchart berikut: IV-3

4 Gambar 4.3 Flowchart Algoritma Nazief dan Adriani 3. Menghitung nilai hash. Pada tahap ini biword yang telah dienkripsi dengan MD5 akan dihitung nilai hash-nya dengan menggunakan persamaan rolling hash (persamaan 2.7). 4. Membentuk window dengan ukuran w. Nilai-nilai yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. 5. Pemilihan beberapa nilai hash menjadi document fingerprinting. Dari window yang telah dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk dijadikan fingerprint dokumen. Kemudian fingerprint yang diperoleh dihitung frekuensi kemunculannya dan dilakukan perangkingan berdasarkan jumlah frekuensinya. 6. Membentuk masing-masing query dengan menggunakan n biword berdasarkan n fingerprint dengan frekuensi tertinggi, n biword berdasarkan n fingerprint dengan frekuensi tengah, n biword berdasarkan n fingerprint dengan frekuensi terendah. Untuk lebih jelasnya, berikut adalah contoh pembuatan query dengan stemming. Dokumen yang diduga plagiarisme : Algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi. Pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien. Tahapan yang dilakukan: IV-4

5 a. Pembersihan Teks Diperoleh= algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien b. Pemotongan teks menjadi kata tunggal serta filter stopword dan stemming Diperoleh : -algoritma -kehandalan -optimal -selesai -aplikasi -struktur -algoritma -disain -temu -data -efektif -genetika -output -manfaat -bantu -pemilihan -data -kritis -sistem -basis -berukuran -efisien c. Membentuk biword dari hasil proses pemotongan teks menjadi kata tunggal serta filter stopword dan stemming [0] = algoritma genetika [1] = genetika kehandalan [2] = kehandalan output [3] = output optimal [4] = optimal manfaat [5] = manfaat selesai [6] = selesai bantu [7] = bantu aplikasi [8] = aplikasi pemilihan [9] = pemilihan struktur IV-5

6 [10] = struktur data [11] = data algoritma [12] = algoritma kritis [13] = kritis disain [14] = disain sistem [15] = sistem temu [16] = temu basis [17] = basis data [18] = data berukuran [19] = berukuran efektif [20] = efektif efisien d. Setelah biword terbentuk, biword dienkripsi dengan MD5 [0]=998d2e98c5e38b03a951ee3294c0e553 [1]=c53aa727c3a7fc0d2c58da764fca4072 [2]=aea3ca48b73c1cb3a11e5982e15eb88b [3]=f8318a74f782ee4f95d9aa13cec5ccea [4]=180b b1e2da5b854bfb8d7bf44 [5]=3a84bdb5f7a c [6]=67ae83db3ad c19145b6d646 [7]= b58cb f4502a8d38da [8]=0e8f e1a300a992f8c71e1e [9]= c0a48fe21e1d7fb69c6be57 [10]=ed fb9b1d06c b92 [11]=d01d286515e8995ce653c2d66f80ed27 [12]=e c67392ac8fd ad7a [13]=bdcba685d86c7aed496874b24e40e696 [14]=574e7cd71f01a8975b778cd7854e008b [15]=076f5ad78a543b5020e5809e2dafc209 [16]=a696da495ba1d22b6891ec0c97b03534 [17]=9d43d6ea63c5b521c0bc19d1da2921be [18]= e263060adb2c748f60d612b3 [19]=edb5df26a2ef b77ac1f3f3 [20]=8158c4357ccd49f126c02606e e. Biword yang telah dienkripsi dengan MD5 kemudian dilakukan perhitungan nilai hash (rolling hash). Berikut ini hasil perhitungan hash dengan rolling hash dimana b=2 dan k=32 : [0]= [1]= [2]= [3]= [4]= [5]= [6]= [7]= [8]= [9]= [10]= [11]= [12]= [13]= [14]= [15]= [16]= IV-6

7 [17]= [18]= [19]= [20]= f. Nilai-nilai hash yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. Kemudian pilih nilai hash terkecil tiap window. Berikut contoh pembentukan window dengan ukuran w = 4. [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] [16]=[ , , , ] [17]=[ , , , ] Nilai hash yang di-bold menunjukkan nilai hash terkecil dalam satu window dan akan dijadikan sebagai fingerprint. Jika nilai hash terkecil dalam window selanjutnya sama dengan nilai hash window sebelumnya, maka tidak perlu di-bold lagi. Window pertama adalah [ , , , ]. Dari window tersebut dilakukan pemilihan nilai hash yang terkecil sebagai fingerprint dokumen dan nilai hash yang terkecil adalah g. Pemilihan nilai hash menjadi fingerprint. Dari hasil proses pembentukan window diperoleh nilai hash yang menjadi fingerprint adalah [ ,0][ ,4][ ,7] [ ,9][ ,11][ ,14] [ ,15][ ,18] IV-7

8 fingerprint [ ,0] menunjukkan nilai hash dan posisi fingerprint dalam dokumen. h. Dari fingerprint yang diperoleh, selanjutnya dilakukan perhitungan frekuensi fingerprint dan dilakukan perangkingan (besar ke kecil) berdasarkan nilai frekuensi fingerprint [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 i. Membentuk masing-masing query dengan menggunakan n biword berdasarkan n fingerprint dengan frekuensi tertinggi, n biword berdasarkan n fingerprint dengan frekuensi tengah, n biword berdasarkan n Misal n = 5, maka diperoleh : fingerprint dengan frekuensi terendah. 5 biword berdasarkan 5 fingerprint dengan frekuensi tertinggi disain sistem = sistem temu = data berukuran = data algoritma = pemilihan struktur = biword berdasarkan 5 fingerprint dengan frekuensi tengah sistem temu = data berukuran = data algoritma = pemilihan struktur = optimal manfaat = biword berdasarkan 5 fingerprint dengan frekuensi terendah data algoritma = pemilihan struktur = optimal manfaat = bantu aplikasi = algoritma genetika = algoritma genetika Sehingga query diperoleh adalah IV-8

9 Query Stemming 5 Frekuensi Fingerprint Tertinggi = disain sistem sistem temu data berukuran data algoritma pemilihan struktur Query Stemming 5 Frekuensi Fingerprint Tengah = sistem temu data berukuran data algoritma pemilihan struktur optimal manfaat Query Stemming 5 Frekuensi Fingerprint Terendah = data algoritma pemilihan struktur optimal manfaat bantu aplikasi algoritma genetika 2. Query dari fingerprint biword winnowing tanpa stemming. Pada tahap ini akan dilakukan : Dokumen yang Diduga Plagiarisme Pembersihan Teks Pemotongan Teks menjadi kata tunggal Filter Stopword Membentuk Biword dan enkripsi MD5 Membentuk Query Menghitung frekuensi fingerprint dan perangkingan Pemilihan Fingerprint Membentuk Window Menghitung nilai hash Gambar 4.4 Tahapan Pembuatan Query dari Fingerprint Biword Winnowing tanpa Stemming a. Melakukan pembersihan teks. Pada tahap ini dilakukan pembuangan karakter-karakter tidak relevan seperti tanda baca, mengubah huruf kapital menjadi huruf kecil dan membuang karakter angka. b. Melakukan pemotongan teks menjadi kata tunggal serta melakukan filter stopword, kemudian dibentuk menjadi biword (dua kata) yang dienkripsi dengan menggunakan MD5. c. Menghitung nilai hash. Pada tahap ini biword yang telah dienkripsi dengan MD5 akan dihitung nilai hash-nya dengan menggunakan persamaan rolling hash (persamaan 2.7). IV-9

10 d. Membentuk window dengan ukuran w. Nilai-nilai yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. e. Pemilihan beberapa nilai hash menjadi document fingerprinting. Dari window yang telah dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk dijadikan fingerprint dokumen. Kemudian fingerprint yang diperoleh dihitung frekuensi kemunculannya dan dilakukan perangkingan berdasarkan jumlah frekuensinya. f. Membentuk masing-masing query dengan menggunakan n biword berdasarkan n fingerprint dengan frekuensi tertinggi, n biword berdasarkan n fingerprint dengan frekuensi tengah, n biword berdasarkan n fingerprint dengan frekuensi terendah. Untuk lebih jelasnya, berikut adalah contoh pembuatan query tanpa stemming. Dokumen yang diduga plagiarisme : Algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi. Pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien. Tahapan yang dilakukan : a. Pembersihan Teks Diperoleh= algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu IV-10

11 kembali dengan basis data berukuran besar secara efektif dan efisien b. Pemotongan teks menjadi kata tunggal serta filter stopword Diperoleh : -algoritma -kehandalan -output -dimanfaatkan -bantuan -pemilihan -data -permasalahan -disain -memungkinkan -basis -berukuran - efisien -genetika -menghasilkan -optimal -menyelesaikan -aplikasi -struktur -algoritma -kritis -sistem -temu -data -efektif c. Membentuk biword dari hasil proses pemotongan teks menjadi kata tunggal serta filter stopword [0]=algoritma genetika [1]=genetika kehandalan [2]=kehandalan menghasilkan [3]=menghasilkan output [4]=output optimal [5]=optimal dimanfaatkan [6]=dimanfaatkan menyelesaikan [7]=menyelesaikan bantuan [8]=bantuan aplikasi [9]=aplikasi pemilihan [10]=pemilihan struktur [11]=struktur data [12]=data algoritma [13]=algoritma permasalahan [14]=permasalahan kritis [15]=kritis disain [16]=disain sistem [17]=sistem memungkinkan [18]=memungkinkan temu IV-11

12 [19]=temu basis [20]=basis data [21]=data berukuran [22]=berukuran efektif [23]=efektif efisien d. Setelah biword terbentuk, biword dienkripsi dengan MD5 [0]=998d2e98c5e38b03a951ee3294c0e553 [1]=c53aa727c3a7fc0d2c58da764fca4072 [2]=f4bd3b7f0416ed462c1db1d1b51488a2 [3]=2db424971a31301d889fdc26fa25ba65 [4]=f8318a74f782ee4f95d9aa13cec5ccea [5]=7832a51f03c328db9d79c2e4acdc9b15 [6]=f9b6d9d8a031576d4b0dcca250826b21 [7]=9b024c12a8ad2918a98c148cb4dadbe9 [8]=eb1ed9b3d06370b90aaea8e7c36ffcaf [9]=0e8f e1a300a992f8c71e1e [10]= c0a48fe21e1d7fb69c6be57 [11]=ed fb9b1d06c b92 [12]=d01d286515e8995ce653c2d66f80ed27 [13]=bbfaea4b dfac99e c [14]=b23900b040afaae7ba29a44100c141e8 [15]=bdcba685d86c7aed496874b24e40e696 [16]=574e7cd71f01a8975b778cd7854e008b [17]=4a06d8ca14de7f08f5cf bca [18]=d5205afc6f66e43499b4c0c02a893b6d [19]=a696da495ba1d22b6891ec0c97b03534 [20]=9d43d6ea63c5b521c0bc19d1da2921be [21]= e263060adb2c748f60d612b3 [22]=edb5df26a2ef b77ac1f3f3 [23]=8158c4357ccd49f126c02606e e. Biword yang telah dienkripsi dengan MD5 kemudian dilakukan perhitungan nilai hash (rolling hash). Berikut ini hasil perhitungan hash dengan rolling hash dimana b=2 dan k=32 : [0]= [1]= [2]= [3]= [4]= [5]= [6]= [7]= [8]= [9]= [10]= [11]= [12]= [13]= [14]= [15]= [16]= [17]= [18]= [19]= IV-12

13 [20]= [21]= [22]= [23]= f. Nilai-nilai hash yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. Kemudian pilih nilai hash terkecil tiap window. Berikut contoh pembentukan window dengan ukuran w = 4. [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] [16]=[ , , , ] [17]=[ , , , ] [18]=[ , , , ] [19]=[ , , , ] [20]=[ , , , ] Nilai hash yang di-bold menunjukkan nilai hash terkecil dalam satu window dan akan dijadikan sebagai fingerprint. Jika nilai hash terkecil dalam window selanjutnya sama dengan nilai hash window sebelumnya, maka tidak perlu di-bold lagi. Window pertama adalah [ , , , ]. Dari window tersebut dilakukan pemilihan nilai hash yang terkecil sebagai fingerprint dokumen dan nilai hash yang terkecil adalah g. Pemilihan nilai hash menjadi fingerprint. Dari hasil proses pembentukan window diperoleh nilai hash yang menjadi fingerprint adalah [ ,0][ ,3][ ,5] [ ,9][ ,10][ ,14] [ ,16][ ,17][ ,21] IV-13

14 fingerprint [ ,0] menunjukkan nilai hash dan posisi fingerprint dalam dokumen. h. Dari fingerprint yang diperoleh, selanjutnya dilakukan perhitungan frekuensi fingerprint dan dilakukan perangkingan (besar ke kecil) berdasarkan nilai frekuensi fingerprint [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 [ ]=1 i. Membentuk masing-masing query dengan menggunakan n biword berdasarkan n fingerprint dengan frekuensi tertinggi, n biword berdasarkan n fingerprint dengan frekuensi tengah, n biword berdasarkan n Misal n=5, maka diperoleh : fingerprint dengan frekuensi terendah. 5 biword berdasarkan 5 fingerprint dengan frekuensi tertinggi disain sistem = sistem memungkinkan = data berukuran = permasalahan kritis = pemilihan struktur = biword berdasarkan 5 fingerprint dengan frekuensi tengah data berukuran = permasalahan kritis = pemilihan struktur = menghasilkan output = optimal dimanfaatkan = biword berdasarkan 5 fingerprint dengan frekuensi terendah pemilihan struktur = menghasilkan output = optimal dimanfaatkan = aplikasi pemilihan = algoritma genetika = Sehingga query diperoleh adalah IV-14

15 Query Tanpa Stemming 5 Frekuensi Fingerprint Tertinggi = disain sistem sistem memungkinkan data berukuran permasalahan kritis pemilihan struktur Query Tanpa Stemming 5 Frekuensi Fingerprint Tengah = data berukuran permasalahan kritis pemilihan struktur menghasilkan output optimal dimanfaatkan Query Tanpa Stemming 5 Frekuensi Fingerprint Terendah = pemilihan struktur menghasilkan output optimal dimanfaatkan aplikasi pemilihan algoritma genetika Analisa Sistem IR Model Okapi BM25 Seteleh query terbentuk maka proses selanjutnya adalah mencari dokumen sumber dengan menggunakan sistem IR model Okapi BM25. Terdapat tiga proses pada sistem IR ini, yakni 1. Pembuatan Inverted Index dan Pembobotan kata. Pada Proses ini akan dilakukan: Koleksi Dokumen Tokenisasi Linguistic Preprocessing (Stopword dan stemming) Indexing Pembobotan Kata Gambar 4.5 Proses Pembuatan Inverted Index a. Mengumpulkan dokumen yang akan di index (dikenal dengan nama corpus atau koleksi dokuemen). Dokumen yang digunakan sebagai koleksi dokumen pada penelitian ini adalah landasan teori kerja praktek dan tugas akhir dengan format txt. b. Proses tokenisasi. Pada tahap ini seluruh kata di dalam kalimat, paragraf atau halaman dipisahkan menjadi token atau potongan kata tunggal. Tahapan ini juga akan menghilangkan karakterkarakter tertentu seperti tanda baca dan mengubah semua kata ke dalam bentuk huruf kecil. IV-15

16 c. Melakukan linguistic preprocessing, yakni stopword dan stemming. Pada tahap ini kata-kata yang bersifat stopword akan dibuang. Selanjutnya dilakukan proses stemming dengan menggunakan algoritma nazief adriani. d. Indexing (Pembuatan Inverted Index). Pada tahap ini, dilakukan proses pengindeksan dokumen terhadap setiap token dengan membuat inverted indeks. Di dalam inverted index tersimpan informasi kata, id dokumen yang mengandung kata tersebut dan frekuensi kemunculan token tersebut dalam suatu dokumen. e. Pembobotan kata. Setiap kata yang telah terindeks diberikan nilai bobot. Pada penelitian ini digunakan dua jenis perhitungan pembobotan. yakni pembobotan lokal dengan menggunakan tf (term frequency) dan pembobotan global dengan menggunakan idf (inverse dokumen frequency). Untuk lebih jelasnya, berikut adalah contoh pembuatan inverted index dan Pembobotan kata. Tahapan yang dilakukan: a. Mengumpulkan dokumen yang akan di index. Terdapat 3 buah koleksi dokumen yang akan di index. 1. Dokumen d1 = Algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi. 2. Dokumen d2 = Sistem Pendukung Keputusan (SPK) adalah sekumpulan prosedur berbasis model untuk memproses data dan memberikan pertimbangan bagi manajer dalam mengambil keputusan. 3. Dokumen d3 = Pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain IV-16

17 sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien. b. Proses tokenisasi. Pada tahapan ini seluruh kata didalam dokumen dipisahkan menjadi token atau potongan kata tunggal. Berikut ini hasil proses tokenisasi masing-masing dokumen yang ditunjukkan pada tabel 4.1. Tabel 4.1 Hasil Proses Tokenisasi Masing-masing Dokumen Dok1 Dok2 Dok3 algoritma sistem pemilihan genetika pendukung struktur Tabel 4.1 Hasil Proses Tokenisasi Masing-masing Dokumen (Lanjutan) Dok1 Dok2 Dok3 yang keputusan data memiliki spk dan kehandalan adalah algoritma dalam sekumpulan merupakan menghasilkan prosedur permasalahan output berbasis yang yang model kritis optimal untuk dalam dapat memproses disain dimanfaatkan data sistem untuk dan yang menyelesaikan memberikan memungkinkan masalah pertimbangan temu tersebut bagi kembali dengan manager dengan IV-17

18 bantuan dalam basis aplikasi mengambil data keputusan berukuran besar secara efektif dan efisien c. Melakukan linguistic preprocessing (Filter Stopword dan Stemming). Berikut ini hasil proses linguistic preprocessing masing-masing dokumen yang ditunjukkan pada tabel 4.2. Tabel 4.2 Hasil Proses linguistic preprocessing Masing-masing Dokumen Dok1 Dok2 Dok3 algoritma sistem Pemilihan genetika dukung Struktur kehandalan spk Data output kumpul algoritma optimal prosedur masalah manfaat basis kritis selesai model disain bantu proses sistem aplikasi data mungkin timbang manager temu basis data berukuran efektif IV-18

19 efisien d. Indexing (pembuatan inverted index). Berikut ini hasil indexing dari seluruh token dokumen yang ditunjukkan pada tabel 4.3. Tabel 4.3 Hasil Indexing dari Seluruh Token Dokumen Kosa Kata (dokumen : frekuensi) algoritma 1:1 3:1 aplikasi 1:1 bantu 1:1 basis 2:1 3:1 berukuran 3:1 data 2:1 3:2 disain 3:1 dukung 2:1 efektif 3:1 Tabel 4.3 Hasil Indexing dari Seluruh Token Dokumen (Lanjutan) Kosa Kata (dokumen : frekuensi) efisien 3:1 genetika 1:1 kehandalan 1:1 kritis 3:1 kumpul 2:1 manajer 2:1 manfaat 1:1 masalah 3:1 model 2:1 mungkin 3:1 optimal 1:1 output 1:1 pemilihan 3:1 prosedur 2:1 proses 2:1 selesai 1:1 sistem 2:1 spk 2:1 struktur 3:1 temu 3:1 IV-19

20 timbang 2:1 Keterangan : Kosa kata : Kata tunggal yang terdapat dalam dokumen (dokumen : frekuensi): Frekuensi kata dalam dokumen. Misal kata algoritma dalam dokumen 1 memiliki frekuensi 1 dan dalam dokumen 3 memiliki frekuensi 1. e. Pembobotan kata. Berikut ini hasil pembobotan kata terhadap kata hasil indexing yang ditunjukkan pada tabel 4.4. Tabel 4.4 Hasil Pembobotan Kata terhadap Kata Hasil Indexing Kosa Kata tf(d1) tf(d2) tf(d3) df idf algoritma ,1761 aplikasi ,4771 bantu ,4771 basis ,1761 berukuran ,4771 data ,1761 disain ,4771 dukung ,4771 efektif ,4771 efisien ,4771 genetika ,4771 kehandalan ,4771 kritis ,4771 kumpul ,4771 manajer ,4771 manfaat ,4771 masalah ,4771 model ,4771 mungkin ,4771 optimal ,4771 output ,4771 IV-20

21 pemilihan ,4771 prosedur ,4771 proses ,4771 selesai ,4771 sistem ,1761 spk ,4771 struktur ,4771 temu ,4771 timbang ,4771 Keterangan : Kosa kata : kata tunggal yang terdapat dalam dokumen Tf(D1) 1 Tf(D2) 2 Tf(D3) 3 Df : Term frequency (frekuensi kata) dalam dokumen : Term frequency (frekuensi kata) dalam dokumen : Term frequency (frekuensi kata) dalam dokumen : Document frequency atau jumlah dokumen dalam koleksi dokumen yang mengandung kosa kata Idf : inverse document frequency (Persamaan 2.3) 2. Preprocessing query. Pada proses ini akan dilakukan: Query Masukan Proses Tokenisasi Linguistic Preprocessing (Stopword dan stemming) Pembobotan Kata Gambar 4.6 Proses Preprocessing Query a. Proses tokenisasi terhadap query. b. Melakukan linguistic preprocessing, yakni stopword dan stemming. IV-21

22 c. Pembobotan kata pada query. Pada penelitian kali ini setiap kata pada query diberi bobot satu, artinya jika dalam query terdapat kata yang ganda maka tetap dihitung satu. Untuk lebih jelasnya, berikut adalah contoh preprocessing query. Query masukan = pemilihan struktur menghasilkan output optimal dimanfaatkan aplikasi pemilihan algoritma genetika Tahapan yang dilakukan a. Proses tokenisasi terhadap query masukan - pemilihan -dimanfaatkan - struktur -aplikasi - menghasilkan -pemilihan - output -algoritma - optimal -genetika b. Melakukan linguistic preprocessing -pemilihan -struktur -algoritma -genetika -manfaat -aplikasi -output -optimal c. Pembobotan kata pada query masukan tf q pemilihan = 1 tf q manfaat = 1 tf q strutkur = 1 tf q aplikasi = 1 tf q algoritma = 1 tf q output = 1 tf q genetika = 1 tf q optimal = 1 IV-22

23 3. Menghitung relevansi (RSV) antara query dengan dokumen menggunakan model Okapi BM25. Pada tahap ini akan dihitung relevansi (RSV) antara query dengan tiap dokumen menggunakan persamaan 2.6. Setelah dihitung relevansi (RSV) masing-masing dokumen, maka selanjutnya akan dilakukan perangkingan dokumen secara descending (besar ke kecil) berdasarkan nilai relevansi (RSV) masing-masing dokumen. Untuk lebih jelasnya, berikut adalah contoh menghitung relevansi (RSV) antara query dengan dokumen menggunakan model Okapi BM25. Query masukan= pemilihan struktur menghasilkan output optimal dimanfaatkan aplikasi pemilihan algoritma genetika Panjang masing-masing dokumen (Ld) dalam contoh pembuatan inverted index : [Ld 1 ] = 9 [Ld 2 ] = 10 [Ld 3 ] = 14 k1 = 1,2 dan b = 0,75. Panjang rata-rata dokumen (L ave ) dalam koleksi: L (ave) = [ ] L (ave) = L (ave) =11 Berdasarkan Tabel 4.3, dapat dilihat bahwa dokumen-dokumen yang mengandung kata-kata di dalam query pemilihan struktur menghasilkan output optimal dimanfaatkan aplikasi pemilihan algoritma genetika adalah dokumen 1 dan 3. Sehingga dokumen yang akan dihitung nilai RSV-nya terhadap query adalah dok1 dan dok2. IV-23

24 = ( ) ( ) ( ) 1, = 0, ,2( 1 0,75 + 0,75 11 ) + 0 1, , ,2( 1 0,75 + 0,75 11 ) + 0 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) + 1 1, , ,2( 1 0,75 + 0,75 11 ) = 2, = 1,0169 Berdasarkan hasil penghitungan nilai relevansi (RSV) masing-masing dokumen, maka urutan dokumen (descending) yang relevan dengan query adalah dok1 dan dok Analisa Deteksi kemiripan dokumen dengan Algoritma Biword Winnowing Dokumen-dokumen sumber yang diperoleh selanjutnya akan dilakukan perbandingan tingkat kemiripannya terhadap dokumen yang diduga plagiarisme. Terdapat tiga proses dalam mendektsi kemiripan dokumen ini, yakni: 1. Pembuatan database fingerprint masing-masing dokumen menggunakan algoritma biword-winnowing. Pada Proses ini akan dilakukan: IV-24

25 Koleksi Dokumen Pembersihan Teks Pemotongan Teks menjadi kata tunggal Membentuk Biword dan enkripsi MD5 Pembuatan Database Fingerprint Pemilihan Fingerprint Membentuk Window Menghitung nilai hash Gambar 4.7 Proses Pembuatan Database Fingerprint Dokumen a. Melakukan pembersihan teks. Pada tahap ini dilakukan pembuangan karakter-karakter tidak relevan seperti tanda baca dan mengubah huruf kapital menjadi huruf kecil. b. Melakukan pemotongan teks menjadi kata tunggal, kemudian dibentuk menjadi biword (dua kata) yang dienkripsi dengan menggunakan MD5. c. Menghitung nilai hash. Pada tahap ini biword yang telah dienkripsi dengan MD5 akan dihitung nilai hash-nya dengan menggunakan persamaan rolling hash (persamaan 2.7). d. Membentuk window dengan ukuran w. Nilai-nilai yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. e. Pemilihan beberapa nilai hash menjadi document fingerprinting. Dari window yang telah dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk dijadikan fingerprint dokumen. f. Pembuatan database fingerprint. Pada tahap ini dilakukan penyimpanan fingerprint masing-masing dokumen yang nanti akan digunakan ketika perhitungan kemiripan terhadap dokumen yang diduga plagiarisme. Untuk lebih jelasnya, berikut adalah contoh pembuatan database fingerprint. Dokumen yang digunakan sama dengan dokumen contoh pada pembuatan inverted index. Tahapan yang dilakukan : a. Melakukan Pembersihan Teks IV-25

26 1. Dokumen d1 = algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi 2. Dokumen d2 = sistem pendukung keputusan (spk) adalah sekumpulan prosedur berbasis model untuk memproses data dan memberikan pertimbangan bagi manajer dalam mengambil keputusan 3. Dokumen d3 = pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien b. Melakukan pemotongan teks menjadi kata tunggal. Berikut ini hasil pemotongan teks menjadi kata tunggal masing-masing dokumen yang ditunjukkan pada tabel 4.5. Tabel 4.5 Hasil Pemotongan Teks menjadi Kata Tunggal Masing-masing Dokumen Dok1 Dok2 Dok3 algoritma sistem pemilihan genetika pendukung struktur yang keputusan data memiliki spk dan kehandalan adalah algoritma Tabel 4.5 Hasil Pemotongan Teks menjadi Kata Tunggal Masing-masing Dokumen (Lanjutan) Dok1 Dok2 Dok3 dalam sekumpulan Merupakan menghasilkan prosedur permasalahan output berbasis yang yang model kritis IV-26

27 optimal untuk dalam dapat memproses disain dimanfaatkan data sistem untuk dan yang menyelesaikan memberikan memungkinkan masalah pertimbangan temu tersebut bagi kembali dengan manager dengan bantuan dalam basis aplikasi mengambil data keputusan berukuran besar secara efektif dan efisien c. Membentuk biword dari hasil proses pemotongan teks menjadi kata tunggal. Pada dokumen 1 biword pertama yang terbentuk adalah algoritma genetika, pada dokumen 2 biword pertama yang terbentuk adalah sistem pendukung dan pada dokumen 3 biword pertama yang terbentuk adalah pemilihan struktur. Biword selanjutnya dapat dilihat di Tabel 4.6. Tabel 4.6 Hasil Pembentukan Biword dari Kata Tunggal Masing-masing Dokumen Dok1 Dok2 Dok3 [0]=algoritma genetika [0]=sistem pendukung [0]=pemilihan struktur [1]=genetika yang [1]=pendukung keputusan [1]=struktur data [2]=yang memiliki [2]=keputusan spk [2]=data dan [3]=memiliki kehandalan [3]=spk adalah [3]=dan algoritma IV-27

28 [4]=kehandalan dalam [4]=adalah sekumpulan [4]=algoritma merupakan [5]=dalam menghasilkan [5]=sekumpulan prosedur [5]=merupakan permasalahan [6]=menghasilkan output [6]=prosedur berbasis [6]=permasalahan yang [7]=output yang [7]=berbasis model [7]=yang kritis [8]=yang optimal [8]=model untuk [8]=kritis dalam [9]=optimal dapat [9]=untuk memproses [9]=dalam disain [10]=dapat dimanfaatkan [10]=memproses data [10]=disain sistem [11]=dimanfaatkan untuk [11]=data dan [11]=sistem yang [12]=untuk [12]=yang [12]=dan memberikan menyelesaikan memungkinkan [13]=menyelesaikan masalah [13]=memberikan pertimbangan [13]=memungkinkan temu [14]=masalah tersebut [14]=pertimbangan bagi [14]=temu kembali [15]=tersebut dengan [15]=bagi manajer [15]=kembali dengan [16]=dengan bantuan [16]=manajer dalam [16]=dengan basis [17]=bantuan aplikasi [17]=dalam mengambil [17]=basis data [18]=mengambil keputusan [18]=data berukuran [19]=berukuran besar [20]=besar secara [21]=secara efektif [22]=efektif dan [23]=dan efisien d. Setelah biword terbentuk, biword dienkripsi dengan MD5. Pada dokumen 1 biword pertama yang dienkripsi MD5 adalah 998d2e98c5e38b03a951ee3294c0e553. Pada dokumen 2 biword pertama yang dienkripsi MD5 adalah a02a69f9e4e8b17d658750decde Pada dokumen 3 biword pertama yang dienkripsi MD5 adalah c0a48fe21e1d7fb69c6be57. Biword selanjutnya dapat dilihat di Tabel 4.7. Tabel 4.7 Hasil Enkripsi Biword Masing-masing Dokumen dengan MD5 Dok1 Dok2 Dok3 [0]=998d2e98c5e38b03a95 1ee3294c0e553 [1]=987bf6950cb20c2a1fb 2a1e013b814e0 [2]=83d01da e49d25ca7b06 [0]=a02a69f9e4e8b17d decde70361 [1]=db4ae8b5046a0addc f8eb7567 [2]=cb777270b3f3e883f46 29b93d266a6db [0]= c0a48fe21e 1d7fb69c6be57 [1]=ed fb9b1d0 6c b92 [2]=bdc7c27d0ea015ba cde4d597b IV-28

29 [3]=a531c2469c a1 dc95fd7a27e55 [4]=f0ce1a317c8eafa0d7b dbc3830a4ff67 [5]= e5d0114f34 23feaff39acd2 [6]=2db424971a31301d889 fdc26fa25ba65 [7]=c1d893c885690cb45a6 00abe8d51e0d1 [8]=625a209fb69c626bbcd bc68991a65137 [9]= fb03611d5 dac24fcb827e7 [10]=3828e97b53b817f9d6 e47b2610d22376 [11]= e97f174e2 6d a2b27 [12]=5a48a726ad11ea4612 b1c43b133d8ab7 [13]=403a826a8c f79c80594f [14]= a174c0 0322f36a8b96d2 [15]=8f0c0e5ef42449c2a7 a54baa46732cad [16]=7df7264f35cb de40e96a [17]=eb1ed9b3d06370b90a aea8e7c36ffcaf [3]=331259e587dff6c bb9100bd [4]=97d9e f06bff 0297ab80cf816 [5]=62647b26af61ca6233e 047b157a57b45 [6]=86ddc1d9ed715112eaa fc1375 [7]=15471b0e37d8b71835b c52969b23de01 [8]=bfc ac 343c18b [9]=92069c94a7b105b9a5b de16af4 [10]=60c08813a9c646413d 137ebf148365ad [11]=bdc7c27d0ea015ba cde4d597b [12]=274dd074ff7de2f929 9cd09225fc1969 [13]=16664c0985ec67da86 8dca8caf8f2086 [14]= d6fdc33a7 ebab1a5c [15]= b9ef57e6529 cf7c1ccacceef4 [16]=18abaf6eead2b3b5c ba76f2 [17]=b2dbe79decc648aa29 7bc09133ac255f [18]=13cf47ba28161d11ee 983b [3]=f589496c0f5cd4fedf9 8c150c9f41025 [4]=a2ed243f4090db2f974 af40e96b24f24 [5]=3fbaecb1cede43a9d58 02c21e46c053e [6]=5c706d3e8c99d2b2ff1 2a7e7c1af1ed0 [7]=f58a9cb63576c0366fd 3a8c0d1966b8e [8]=b457e902ea fc afe0 [9]=525bf4a36d99e628db8 a1ee78ff4d82c [10]=574e7cd71f01a8975b 778cd7854e008b [11]=53521c2dcbbc4afa37 8c46b263cba6ef [12]=11edddb40dcb570e3f 72bcea9583be6a [13]=d5205afc6f66e43499 b4c0c02a893b6d [14]=00787c2f6d67ed65f c04c1d [15]=de81d950e832b9fb26 da258f634cd529 [16]=4df0a258fe93fe7dc2 3a2fc264d3dd92 [17]=9d43d6ea63c5b521c0 bc19d1da2921be [18]= e263060adb 2c748f60d612b3 [19]=1abb9c6c4e8b1c002f 8a68cad72a94b4 [20]=d76818c8a52c915e89 f78ee600b59fcf [21]=cb1e4a6819a6cbad a06b0b0eae [22]=8f bd e2ff2d169cfd4f [23]= e91e3df6427 4c5a663d3381fa e. Biword yang telah dienkripsi dengan MD5 kemudian dilakukan perhitungan nilai hash (rolling hash). Berikut ini hasil perhitungan hash masing-masing dokumen dengan rolling hash dimana b=2 dan k=32 : Tabel 4.8 Hasil Rolling Hash Biword Masing-masing dokumen yang telah Dienkripsi dengan MD5 Dok1 Dok2 Dok3 [0]= [0]= [0]= [1]= [1]= [1]= [2]= [2]= [2]= [3]= [3]= [3]= IV-29

30 [4]= [4]= [4]= [5]= [5]= [5]= [6]= [6]= [6]= [7]= [7]= [7]= [8]= [8]= [8]= [9]= [9]= [9]= [10]= [10]= [10]= [11]= [11]= [11]= [12]= [12]= [12]= [13]= [13]= [13]= [14]= [14]= [14]= [15]= [15]= [15]= [16]= [16]= [16]= [17]= [17]= [17]= [18]= [18]= [19]= [20]= [21]= [22]= [23]= Pada Tabel 4.8 merupakan hasil rolling hash berdasarkan nilai enkripsi MD5 pada Tabel 4.7. Pada dokumen 1 biword pertama yang dienkripsi dengan MD5 menghasilkan nilai rolling hash Pada dokumen 2 biword pertama yang dienkripsi dengan MD5 menghasilkan nilai rolling hash Pada dokumen 3 biword pertama yang dienkripsi dengan MD5 menghasilkan nilai rolling hash Nilai rolling hash selanjutnya dapat dilihat di Tabel 4.8. f. Nilai-nilai hash yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. Kemudian pilih nilai hash terkecil tiap window. Berikut contoh pembentukan window masingmasing dokumen dengan ukuran w = 4. Window pada dokumen 1 IV-30

31 [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] Window pada dokumen 2 [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] Window pada dokumen 3 [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] [16]=[ , , , ] [17]=[ , , , ] [18]=[ , , , ] [19]=[ , , , ] [20]=[ , , , ] IV-31

32 Nilai hash yang di-bold menunjukkan nilai hash terkecil dalam satu window dan akan dijadikan sebagai fingerprint. Jika nilai hash terkecil dalam window selanjutnya sama dengan nilai hash window sebelumnya, maka tidak perlu di-bold lagi. Dalam window pada dokumen 1, window pertama adalah [ , , , ]. Dari window tersebut dilakukan pemilihan nilai hash yang terkecil sebagai fingerprint dokumen dan nilai hash yang terkecil adalah g. Pemilihan nilai hash menjadi fingerprint. Dari hasil proses pembentukan window masing-masing dokumen diperoleh nilai hash yang menjadi fingerprint adalah Fingerprint Dokumen 1 [ ,0][ ,1][ ,5] [ ,8][ ,9][ ,11] [ ,14] Fingerprint Dokumen 2 [ ,3][ ,7][ ,9] [ ,13] [ ,15] Fingerprint Dokumen 3 [ ,0][ ,3][ ,5] [ ,6][ ,9][ ,11] [ ,14][ ,18][ ,22] [ ,23] fingerprint [ ,0] menunjukkan nilai hash dan posisi fingerprint dalam dokumen. Dok h. Pembuatan database fingerprint. Berikut ini hasil pembuatan database fingerprint yang ditunjukkan pada tabel 4.9. Tabel 4.9 Hasil Pembuatan Database Fingerprint Fingerprint 1 [ ,0][ ,1][ ,5][ ,8][ ,9][ ,11][ ,14] IV-32

33 2 [ ,3][ ,7][ ,9][ ,13] [ ,15] 3 [ ,0][ ,3][ ,5][ ,6][ ,9][ ,11][ ,14][ ,18][ ,22][ ,23] 2. Pembentukan fingerprint dokumen yang diduga plagiarisme dengan algoritma biword winnwoing. Pada Proses ini akan dilakukan: Dokumen diduga plgiarisme Pembersihan Teks Pemotongan Teks menjadi kata tunggal Membentuk Biword dan enkripsi MD5 Pemilihan Fingerprint Membentuk Window Menghitung nilai hash Gambar 4.8 Proses Pembentukan Fingerprint Dokumen Diduga Plagiarisme a. Melakukan pembersihan teks. Pada tahap ini dilakukan pembuangan karakter-karakter tidak relevan seperti tanda baca dan mengubah huruf kapital menjadi huruf kecil. b. Melakukan pemotongan teks menjadi kata tunggal, kemudian dibentuk menjadi biword (dua kata) yang dienkripsi dengan menggunakan MD5. c. Menghitung nilai hash. Pada tahap ini biword yang telah dienkripsi dengan MD5 akan dihitung nilai hash-nya dengan menggunakan persamaan rolling hash (persamaan 2.7). d. Membentuk window dengan ukuran w. Nilai-nilai yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. e. Pemilihan beberapa nilai hash menjadi document fingerprinting. Dari window yang telah dibentuk dilakukan pemilihan nilai hash terkecil pada tiap window untuk dijadikan fingerprint dokumen. Untuk lebih jelasnya, berikut adalah contoh Pembentukan fingerprint dokumen yang diduga plagiarisme dengan algoritma IV-33

34 biword winnowing. Dokumen yang digunakan sama dengan dokumen yang digunakan untuk pembuatan query. Tahapan yang dilakukan a. Pembersihan teks Dokumen diduga plagiarisme=algoritma genetika yang memiliki kehandalan dalam menghasilkan output yang optimal dapat dimanfaatkan untuk menyelesaikan masalah tersebut dengan bantuan aplikasi pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam disain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien b. Melakukan pemotongan teks menjadi kata tunggal -algoritma -genetika -yang -memiliki -kehandalan -dalam -menghasilkan -output -yang -optimal -dapat -dimanfaatkan -untuk -menyelesaikan -masalah -tersebut -dengan -bantuan -aplikasi -pemilihan -struktur -data -dan -algoritma -merupakan -permasalahan -yang -kritis -dalam -disain -sistem -yang -memungkinkan -temu -kembali -dengan -basis -data -berukuran -besar IV-34

35 -secara -dan -efektif -efisien c. Membentuk biword dari hasil proses pemotongan teks menjadi kata tunggal [0]=algoritma genetika [1]=genetika yang [2]=yang memiliki [3]=memiliki kehandalan [4]=kehandalan dalam [5]=dalam menghasilkan [6]=menghasilkan output [7]=output yang [8]=yang optimal [9]=optimal dapat [10]=dapat dimanfaatkan [11]=dimanfaatkan untuk [12]=untuk menyelesaikan [13]=menyelesaikan masalah [14]=masalah tersebut [15]=tersebut dengan [16]=dengan bantuan [17]=bantuan aplikasi [18]=aplikasi pemilihan [19]=pemilihan struktur [20]=struktur data [21]=data dan [22]=dan algoritma [23]=algoritma merupakan [24]=merupakan permasalahan [25]=permasalahan yang [26]=yang kritis [27]=kritis dalam [28]=dalam disain [29]=disain sistem [30]=sistem yang [31]=yang memungkinkan [32]=memungkinkan temu [33]=temu kembali [34]=kembali dengan [35]=dengan basis [36]=basis data [37]=data berukuran [38]=berukuran besar [39]=besar secara [40]=secara efektif [41]=efektif dan [42]=dan efisien d. Setelah biword terbentuk, biword dienkripsi dengan MD5 [0]=998d2e98c5e38b03a951ee3294c0e553 [1]=987bf6950cb20c2a1fb2a1e013b814e0 [2]=83d01da e49d25ca7b06 [3]=a531c2469c a1dc95fd7a27e55 IV-35

36 [4]=f0ce1a317c8eafa0d7bdbc3830a4ff67 [5]= e5d0114f3423feaff39acd2 [6]=2db424971a31301d889fdc26fa25ba65 [7]=c1d893c885690cb45a600abe8d51e0d1 [8]=625a209fb69c626bbcdbc68991a65137 [9]= fb03611d5dac24fcb827e7 [10]=3828e97b53b817f9d6e47b2610d22376 [11]= e97f174e26d a2b27 [12]=5a48a726ad11ea4612b1c43b133d8ab7 [13]=403a826a8c f79c80594f [14]= a174c00322f36a8b96d2 [15]=8f0c0e5ef42449c2a7a54baa46732cad [16]=7df7264f35cb de40e96a [17]=eb1ed9b3d06370b90aaea8e7c36ffcaf [18]=0e8f e1a300a992f8c71e1e [19]= c0a48fe21e1d7fb69c6be57 [20]=ed fb9b1d06c b92 [21]=bdc7c27d0ea015ba cde4d597b [22]=f589496c0f5cd4fedf98c150c9f41025 [23]=a2ed243f4090db2f974af40e96b24f24 [24]=3fbaecb1cede43a9d5802c21e46c053e [25]=5c706d3e8c99d2b2ff12a7e7c1af1ed0 [26]=f58a9cb63576c0366fd3a8c0d1966b8e [27]=b457e902ea fc afe0 [28]=525bf4a36d99e628db8a1ee78ff4d82c [29]=574e7cd71f01a8975b778cd7854e008b [30]=53521c2dcbbc4afa378c46b263cba6ef [31]=11edddb40dcb570e3f72bcea9583be6a [32]=d5205afc6f66e43499b4c0c02a893b6d [33]=00787c2f6d67ed65f c04c1d [34]=de81d950e832b9fb26da258f634cd529 [35]=4df0a258fe93fe7dc23a2fc264d3dd92 [36]=9d43d6ea63c5b521c0bc19d1da2921be [37]= e263060adb2c748f60d612b3 [38]=1abb9c6c4e8b1c002f8a68cad72a94b4 [39]=d76818c8a52c915e89f78ee600b59fcf [40]=cb1e4a6819a6cbad921060a06b0b0eae [41]=8f bde2ff2d169cfd4f [42]= e91e3df64274c5a663d3381fa e. Biword yang telah dienkripsi dengan MD5 kemudian dilakukan perhitungan nilai hash (rolling hash). Berikut ini hasil perhitungan hash dengan rolling hash dimana b=2 dan k=32 : [0]= [1]= [2]= [3]= [4]= [5]= [6]= [7]= [8]= [9]= [10]= [11]= IV-36

37 [12]= [13]= [14]= [15]= [16]= [17]= [18]= [19]= [20]= [21]= [22]= [23]= [24]= [25]= [26]= [27]= [28]= [29]= [30]= [31]= [32]= [33]= [34]= [35]= [36]= [37]= [38]= [39]= [40]= [41]= [42]= f. Nilai-nilai hash yang diperoleh selanjutnya dibentuk menjadi window dengan ukuran w. Kemudian pilih nilai hash terkecil tiap window. Berikut contoh pembentukan window dengan ukuran w = 4. [0] =[ , , , ] [1] =[ , , , ] [2] =[ , , , ] [3] =[ , , , ] [4] =[ , , , ] [5] =[ , , , ] [6] =[ , , , ] [7] =[ , , , ] [8] =[ , , , ] [9] =[ , , , ] [10]=[ , , , ] [11]=[ , , , ] [12]=[ , , , ] [13]=[ , , , ] [14]=[ , , , ] [15]=[ , , , ] [16]=[ , , , ] [17]=[ , , , ] [18]=[ , , , ] IV-37

38 [19]=[ , , , ] [20]=[ , , , ] [21]=[ , , , ] [22]=[ , , , ] [23]=[ , , , ] [24]=[ , , , ] [25]=[ , , , ] [26]=[ , , , ] [27]=[ , , , ] [28]=[ , , , ] [29]=[ , , , ] [30]=[ , , , ] [31]=[ , , , ] [32]=[ , , , ] [33]=[ , , , ] [34]=[ , , , ] [35]=[ , , , ] [36]=[ , , , ] [37]=[ , , , ] [38]=[ , , , ] [39]=[ , , , ] Nilai hash yang di-bold menunjukkan nilai hash terkecil dalam satu window dan akan dijadikan sebagai fingerprint. Jika nilai hash terkecil dalam window selanjutnya sama dengan nilai hash window sebelumnya, maka tidak perlu dibold lagi. Window pertama adalah [ , , , ]. Dari window tersebut dilakukan pemilihan nilai hash yang terkecil sebagai fingerprint dokumen dan nilai hash yang terkecil adalah g. Pemilihan nilai hash menjadi fingerprint. Dari hasil proses pembentukan window diperoleh nilai hash yang menjadi fingerprint adalah [ ,0][ ,1][ ,5] [ ,8][ ,9][ ,11 ][ ,14][ ,18][ ,19][ ,22][ ,24][ ,25][ ,28][ ,30][ ,33][ ,37][ ,41] [ ,42] IV-38

39 3. Menghitung tingkat kemiripan ( similiarity) dokumen dengan menggunakan persamaan jaccard coeficient. Pada tahap ini fingerprint dokumen yang diduga plagiarisme akan dilakukan perhitungan kemiripan terhadap fingerprint dokumen-dokumen sumber yang diperoleh. Perhitungan kemiripan dilakukan dengan menggunakan persamaan jaccard coeficient (Persamaan 2.9) Untuk lebih jelasnya, berikut adalah contoh menghitung tingkat kemiripan (similiarity) dokumen dengan menggunakan persamaan jaccard coeficient. Berdasarkan perhitungan relevansi (RSV) dokumen terhadap query diperoleh bahwa dokumen yang relevan adalah dokumen 1 dan dokumen 2. Dokumen yang relevan tersebut kemudian akan dihitung kemiripannya dengan dokumen uji. Similaritas(d i,d j ) = ( ) ( ) ( ) ( ) x 100% Fingerprint dokumen diduga plagiarisme [ ,0][ ,1][ ,5][ ,8][ ,9][ ,11][ ,14][ ,18][ ,19][ ,22][ ,2 4][ ,25][ ,28][ ,30][ ,33][ ,37][ ,41][ ,42 ] Fingerprint dokumen 1 [ ,0][ ,1][ ,5][ ,8][ ,9][ ,11][ ,14] ( ) ( 1) = [ ][ [ ][ ][ ][ ][ ] ( ) ( 1) =7 IV-39

40 ( ) ( 1) = [ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ][ ] ( ) ( 1) =18 Similaritas(d plagiarisme,d 1 ) = 7/18 * 100% = 38,89% Similaritas(d plagiarisme,d 3 ) = 10/18 * 100% = 55,56% Dari perhitungan diatas dapat disimpulkan bahwa dokumen 3 memiliki similaritas jaccard yang lebih tinggi di bandingkan dokumen 1 terhadap dokumen yang diduga plagiarisme. Nilai similaritas jaccard antara dokumen 3 dengan dokumen yang diduga plagiarisme adalah 55,56% sedangkan dokumen 1 terhadap dokumen yang diduga plagiarisme adalah 38,89%. 4.2 Perancangan Aplikasi Pada tahap ini akan dibahas tentang perancangan aplikasi pendeteksi penjiplakan berdasarkan tahapan analisa yang telah dilakukan sebelumnya. Adapun perancangan yang akan dibuat adalah perancangan file teks, perancangan struktur menu dan perancangan interface Perancangan File Teks (Flat File) Dalam penelitian ini, untuk penyimpanan data maupun informasi tidak menggunakan database relasional, melainkan flat file yang menggunakan file teks (plain text) sebagai media penyimpanannya. Sehingga seluruh informasi dari pengindeksan ( indexing), pembobotan global ( idf), panjang dokumen, rata-rata dokumen, jumlah dokumen, kata stopword dan kamus bahasa indonesia akan disimpan dalam file teks. Daftar kata stopwords disimpan dalam file stopwords.txt yang sebelumnya telah disimpan dalam pembangun sistem dan berjumlah 330 kata. Kamus bahasa indonesia yang dipergunakan saat stemming disimpan dalam file kamus-ind.txt IV-40

41 yang sebelumnya telah disimpan dalam pembangun sistem dan berjumlah kata. Setelah sistem dijalankan, informasi koleksi dokumen, panjang dokumen, jumlah dokumen, rata-rata dokumen, indexing, pembobotan idf, fingerprint dokumen akan disimpan dalam file filelist.txt, panjangdoc.txt, jum_doc.txt, rata_ratadoc.txt, indexing.txt, idf.txt dan dbfingerprint.txt. File Filelist.txt akan menyimpan informasi berupa id dokumen dan judul dokumen. File panjangdoc.txt akan menyimpan informasi berupa id dokumen dan panjang dokumen. File jum_doc.txt akan menyimpan informasi jumlah koleksi dokumen. File rata_ratadoc.txt akan menyimpan informasi rata-rata dokumen. File indexing.txt akan menyimpan informasi kata, id dokumen yang mengandung kata tersebut dan frekuensi kemunculan token tersebut dalam suatu dokumen seperti tabel 4.3. File idf.txt akan menyimpan informasi bobot masing-masing kata. File dbfingerprint.txt akan menyimpan informasi fingerprint seluruh koleksi dokumen seperti tabel Perancangan Struktur Menu Perancangan struktur menu adalah tahap merancang menu-menu yang dapat digunakan pengguna untuk menjalankan aplikasi, sehingga dapat memudahkan pengguna dalam memilih proses yang akan dijalankannya. Untuk lebih jelasnya dapat dilihat pada gambar struktur menu berikut: Struktur Menu Beranda Koleksi Dokumen Source Detection Bantuan Gambar 4.9 Rancangan Struktur Menu IV-41

42 4.2.3 Perancangan Interface Interface sistem adalah sarana pengembangan sistem yang digunakan untuk membuat komunikasi yang lebih mudah, dan konsisten antara sistem dengan pemakainya. Penekanan interface meliputi tampilan yang baik, mudah dipahami dan tombol-tombol yang familiar. Berikut ini rancangan interface source detection dokumen yang akan dibangun : Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan ISI Gambar 4.10 Rancangan Interface Rancangan Interface Menu Beranda Menu beranda adalah halaman utama yang ditampilkan aplikasi kepada pengguna. Halaman ini berisi tentang informasi sistem source detection dokumen, alur kerja sistem, dan tujuan sistem. Berikut ini adalah rancangan interface menu halaman beranda : IV-42

43 Source Detection System Beranda Koleksi Dokumen Penjelasan informasi sistem Source Detection Bantuan Alur Kerja Sistem Gambar 4.11 Rancangan Interface Menu Beranda Rancangan Interface Menu Koleksi Dokumen Menu Koleksi Dokumen adalah halaman yang menampilkan seluruh koleksi dokumen yang ada pada system. Dalam halaman ini terdapat tombol tambah dokumen dan lihat isi. Tombol tambah berfungsi untuk menampilkan form tambah/upload dokumen baru. Tombol lihat isi berfungsi untuk menampilkan isi dokumen secara lengkap. Dalam menu ini juga terdapat fasiltas pencarian, yang befungsi untuk melakukan pencarian dokumen. Berikut ini adalah rancangan interface menu halaman koleksi dokumen: Source Detection System Beranda Koleksi Dokumen Koleksi Dokumen Tambah Dokumen Cari Source Detection Bantuan No Nama Dok Cuplikan Isi Lihat Isi 1 Dok1... Lihat Isi 2 Dok2... Lihat Isi 3 Dok3... Lihat Isi Gambar 4.12 Rancangan Interface Menu Koleksi Dokumen IV-43

44 Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan Form Tambah / Upload Dokumen Upload Pilih Berkas Gambar 4.13 Rancangan Interface Tambah Koleksi Dokumen Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan Nama Dokumen Gambar 4.14 Rancangan Interface Lihat Isi Dokumen Rancangan Interface Menu Source Detection Menu Source Detection adalah halaman yang digunakan untuk mencari sumber dari dokumen yang diduga plagiarisme. Ketika halaman ini pertama di akses, maka akan muncul form pembuatan query dari dokumen, disini pengguna harus mengupload dokumen yang akan dicari sumbernya. Kemudian pengguna menekan tombol buat query untuk pembuatan query. Setelah query terbentuk dan ditampilkan oleh sistem, user harus memilih salah satu dari enam buah query yang terbentuk untuk digunakan dalam mencari sumber dokumen. Setelah itu pengguna menekan tombol cari sumber, maka sistem akan menampilkan dokumen-dokumen sumber yang relevan berdasarkan query yang digunakan. IV-44

45 selain menampilkan dokumen-dokumen sumber yang relevan, juga menampilkan informasi nilai similiarity IR (RS V) dan nilai kemiripan dokumen ( Jaccard Coefficient). Terdapat juga tombol detail, yang berfungsi untuk menampilkan halaman perbandingan antara dokumen yang diduga plagiarisme dengan dokumen yang diperoleh. Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan Pembuatan Query Bua Query Pilih Berkas Gambar 4.15 Rancangan Interface Pembuatan Query Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan Query dengan stemming - Query Stemming Frek Tertinggi=... - Query Stemming Frek Tengah =... - Query Stemming Frek Terendah=... Query Tanpa stemming - Query non-stem Frek Tertinggi=... - Query non-stem Frek Tengah =... - Query non-stem Frek Terendah=... Pilih Query Cari Sumber Gambar 4.16 Rancangan Interface Pemilihan Query Source Detection System Beranda Koleksi Dokumen Query=... Dokumen Sumber yang diperoleh Source Detection Bantuan No Dokumen RSV 1 Dok1... Jaccard... Detail kemiripan Detail 2 Dok Detail 3 Dok Detail IV-45

46 Gambar 4.17 Rancangan Interface Dokumen Sumber Perbandingan Kemiripan Dokumen Dokumen 1 Dokumen 2 Waktu Proses Gambar 4.18 Rancangan Interface Perbandingan Dokumen Rancangan Interface Menu Bantuan Menu bentuan adalah halaman yang berfungsi untuk menampilkan informasi cara penggunaan sistem ini. Source Detection System Beranda Koleksi Dokumen Source Detection Bantuan BANTUAN Gambar 4.19 Rancangan Interface Halaman Bantuan IV-46

Menunjukkan lagi