BAB II LANDASAN TEORI

dokumen-dokumen yang mirip
IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

BAB II LANDASAN TEORI

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN :

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak

BAB 2 LANDASAN TEORI. 2.1 Text mining

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

SISTEM TEMU BALIK INFORMASI

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 2 TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

APLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP

TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp ISSN X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY

BAB 2 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut

BAB II LANDASAN TEORI

SKRIPSI APLIKASI PENDETEKSI KEMIRIPAN ISI TEKS DOKUMEN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

Learning Vector Quantization untuk Klasifikasi Abstrak Tesis

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 2 TINJAUAN PUSTAKA

Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang)

DAFTAR KODE SUMBER. xxxvii

Klasifikasi Konten Berita Dengan Metode Text Mining

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh

BAB II LANDASAN TEORI

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah

BAB 2 LANDASAN TEORI

APLIKASI STATISTIK PENDETEKSIAN PLAGIARISME DOKUMENT TEXT DENGAN ALGORITMA RABIN KARP

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

BAB 2 LANDASAN TEORI. 2.1 Pengertian Text Mining

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi. 1Volume. 1 Bulan AGUSTUS ISSN :

BAB 2 LANDASAN TEORI

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

BAB II LANDASAN TEORI

SISTEM DETEKSI KEMIRIPAN JUDUL SKRIPSI PRODI TEKNIK INFORMATIKA MENGGUNAKAN ALGORITMA RABIN-KARP

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

PERANCANGAN SISTEM PENENTUAN SIMILARITY KODE PROGRAM PADA BAHASA C DAN PASCAL DENGAN MENGGUNAKAN ALGORITMA RABIN-KARP

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

APLIKASI PENDETEKSI PLAGIARISME DALAM KARYA TULIS ILMIAH DENGAN ALGORITMA RABIN KARP

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

commit to user BAB II TINJAUAN PUSTAKA

IMPLEMENTASI ALGORITMA RABIN-KARP UNTUK MENDETEKSI DUGAAN PLAGIARISME BERDASARKAN TINGKAT KEMIRIPAN KATA PADA DOKUMEN TEKS

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Pemanfaatan teknologi pada era globalisasi telah menjadi satu hal yang

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB I PENDAHULUAN. berinovasi menciptakan suatu karya yang original. Dalam hal ini tindakan negatif

BAB I PENDAHULUAN 1.1 Latar Belakang

DETEKSI PLAGIAT DOKUMEN MENGGUNAKAN ALGORITMA RABIN-KARP

Penerapan Algoritma Jaro-Winkler Distance untuk Sistem Pendeteksi Plagiarisme pada Dokumen Teks Berbahasa Indonesia

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA

APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP

APLIKASI PENERJEMAH DARI BAHASA INDONESIA KE BAHASA MADURA DENGAN MENGGUNAKAN METODE RULE BASED

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

ANALISIS PENGUKURAN SELF PLAGIARISM MENGGUNAKAN ALGORITMA RABIN-KARP DAN JARO-WINKLER DISTANCE DENGAN STEMMING TALA

PERBANDINGAN PENGUNAAN STEMMING PADA DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN METODE RABIN KARP DAN JACCARD SIMILARITY

APLIKASI PENERJEMAH KALIMAT TUNGGAL BAHASA INDONESIA KE DALAM BAHASA JAWA DENGAN ATURAN ANALISIS KONTRASTIF AFIKSASI VERBA SKRIPSI.

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

Peningkatan Algoritma Porter Stemmer

Implementasi Algoritma Jaro-Winkler Distance Untuk Sistem Pendeteksi Plagiarisme Pada Dokumen Skripsi

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

KLASIFIKASI ARTIKEL BERITA BERBAHASA INDONESIA BERBASIS NAÏVE BAYES CLASSIFIER MENGGUNAKAN CONFIX-STRIPPING STEMMER

Text Pre-Processing. M. Ali Fauzi

ABSTRAKSI METODOLOGI PENELITIAN SAFITRI JUANITA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :

Implementasi Algoritma Rabin-Karp untuk Membantu Pendeteksian Plagiat pada Karya Ilmiah

EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI CLARA SRI MENDA BANGUN

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN TEXT MINING SKRIPSI. Boy Utomo Manalu

IMPLEMENTASI ALGORITMA RABIN KARP DAN STEMMING NAJIEF ANDRIANI UNTUK DETEKSI PLAGIARISME DOKUMEN

Gambar 1.1 Proses Text Mining [7]

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB 3 LANDASAN TEORI

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

IMPLEMENTASI ALGORITMA RABIN-KARP MENGGUNAKAN STEMMING NAZIEF DAN ADRIANI UNTUK MENDETEKSI TINGKAT KEMIRIPAN FILE TEKS YANG BERBENTUK SKRIPSI SKRIPSI

ANALISIS K-GRAM, BASIS DAN MODULO RABIN-KARP SEBAGAI PENENTU AKURASI PERSENTASE KEMIRIPAN DOKUMEN

BAB II LANDASAN TEORI

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

Rancang Bangun Penilaian Keaktifan Menggunakan Teknik Text Similarity Pada Sistem Tutorial Matematika Diskret

LAMPIRAN A: Kode Program

BAB II LANDASAN TEORI

BAB 2 LANDASAN TEORI

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB I PENDAHULUAN. dengan mudah diduplikasi (Schleimer, Wilkerson, & Aiken, 2003). Dengan

Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity

PERBANDINGAN ALGORITMA WINNOWING DENGAN ALGORITMA RABIN KARP UNTUK MENDETEKSI PLAGIARISME PADA KEMIRIPAN TEKS JUDUL SKRIPSI

IMPLEMENTASI ALGORITMA ENHANCED CONFIX STRIPPING STEMMER PADA KAMUS SISTEM BAHASA ISYARAT INDONESIA SKRIPSI ANNIFA IQRAMITHA

Transkripsi:

BAB II LANDASAN TEORI 2.1 Plagiarisme Menurut Peraturan Menteri Pendidikan RI Nomor 17 Tahun 2010 dikatakan: "Plagiat adalah perbuatan sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh kredit atau nilai untuk suatu karya ilmiah, dengan mengutip sebagian atau seluruh karya dan atau karya ilmiah pihak lain yang diakui sebagai karya ilmiahnya, tanpa menyatakan sumber secara tepat dan memadai" Menurut Soelistyo (2011) ada beberapa tipe plagiarisme: 1. Plagiarisme Kata demi Kata (Word for word Plagiarism). Penulis menggunakan kata-kata penulis lain (persis) tanpa menyebutkan sumbernya. 2. Plagiarisme atas sumber (Plagiarism of Source). Penulis menggunakan gagasan orang lain tanpa memberikan pengakuan yang cukup (tanpa menyebutkan sumbernya secara jelas). 3. Plagiarisme Kepengarangan (Plagiarism of Authorship). Penulis mengakui sebagai pengarang karya tulis karya orang lain. 4. Self Plagiarism. Termasuk dalam tipe ini adalah penulis mempublikasikan satu artikel pada lebih dari satu redaksi publikasi. Dan mendaur ulang karya tulis/ karya ilmiah. Yang penting dalam self plagiarism adalah bahwa ketika mengambil karya sendiri, maka ciptaan karya baru yang dihasilkan harus memiliki perubahan yang berarti. Artinya Karya lama merupakan bagian kecil dari karya baru yang dihasilkan. Sehingga pembaca akan memperoleh hal baru, yang benar-benar penulis tuangkan pada karya tulis yang menggunakan karya lama) 5

6 2.2 Ekstraksi Dokumen Menurut Triawati(2009) Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap preprocessing yang dilakukan secara umum dalam text mining pada dokumen, yaitu case folding, tokenizing,filtering, stemming, tagging dan analyzing. Case folding adalah tahap mengubah semua huruf menjadi huruf kecil serta menghilangkan karakter selain a-z. Gambar 2. 1 Ilustrasi Case Folding Tokenizing merupakan proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men-scan kalimat dengan pemisah (delimiter) white space (spasi, tab, dan newline).

7 Gambar 2. 2 Ilustrasi Tokenizing Proses filtering merupakan tahap untuk menghilangkan kata-kata tidak penting (stop word) seperti yang, dan, ini dan sebagainya. Gambar 2. 3 Ilustrasi Filtering Proses stemming merupakan proses pencarian suatu kata dasar dari tiap kata yang dihasilkan dari tahap filtering. Gambar 2. 4 Ilustrasi Stemming

8 2.3 Algoritma Rabin Karp Algoritma Rabin-Karp adalah algoritma pencocokan string yang menggunakan fungsi hash sebagai pembanding antara string yang dicari (m) dengan substring pada teks (n). Apabila hash value keduanya sama maka akan dilakukan perbandingan sekali lagi terhadap karakter-karakternya. Apabila hasil keduanya tidak sama, maka substring akan bergeser ke kanan. Pergeseran dilakukan sebanyak (n-m) kali. Perhitungan nilai hash yang efisien pada saat pergeseran akan mempengaruhi performa dari algoritma ini (Nugroho, 2011). Secara garis besar, algoritma Rabin Karp dapat dijelaskan dengan pseudocode berikut: Gambar 2. 5 Pseudocode algoritma Rabin Karp (Nugroho, 2011)

9 Secara garis besar, pseudocode untuk algoritma Rabin Karp untuk pencarian kumpulan string berpola banyak adalah: (diasumsikan semua string masukan pada himpunan s memiliki panjang yang sama m). Gambar 2. 6 Pseudocode algoritma Rabin Karp berpola banyak (Nugroho, 2011) Berikut ini adalah ilustrasi cara kerja algoritma Rabin Karp dikutip dari Nugroho (2011): Diberikan masukan cab dan teks aabbcaba. Fungsi hash yang dipakai misalnya akan menambahkan nilai keterurutan setiap huruf dalam alfabet (a = 1, b = 2, dst.) dan melakukan modulo dengan 3. Didapatkan nilai hash cab adalah 0 dan tiga karakter pertama pada teks yaitu aab adalah 1(Nugroho, 2011). Gambar 2. 7 String Awal (Nugroho, 2011)

10 Hasil perbandingan ternyata tidak sama, maka substring pada teks akan begeser satu karakter ke kanan. Algoritma tidak menghitung kembali nilai hashsubstring. Disinilah dilakukan apa yang disebut rolling hash yaitu mengurangi nilai karakter yang keluar dan menambahkan nilai karakter yang masuk sehingga didapatkan kompleksitas waktu yang relatif konstan pada setiap kali pergeseran. Gambar 2. 8 Menggeser String (Nugroho, 2011) Setelah pergeseran, didapatkan nilai hash dari fingerprint abb (abb = aab a + b) menjadi dua (2 = 1 1 + 2). Gambar 2. 9 Pembandingan kedua (Nugroho, 2011) Hasil perbandingan juga tidak sama, maka dilakukan pergeseran. Begitu pula dengan perbandingan ketiga. Pada perbandingan keempat, didapatkan nilai hash yang sama. Gambar 2. 10 Perbandingan keempat (Nugroho, 2011) Karena nilai hash sama, maka dilakukan perbandingan string karakter per karakter antara bca dan cab. Didapatkan hasil bahwa kedua string tidak sama. Kembali substring bergeser ke kanan.

11 Gambar 2. 11 Perbandingan kelima string ditemukan(nugroho, 2011) Pada perbandingan ke 5 nilai hash sama sehingga string tersebut dinyatakan sama. 2.4 Algoritma Nazief dan Andriani Algoritma stemming Nazief dan Adriani (1996) dikembangkan berdasarkan aturan morfologi Bahasa Indonesia yang mengelompokkan imbuhan menjadi awalan (prefix), sisipan (infix), akhiran (suffix) dan gabungan awalan akhiran (confixes). Algoritma ini menggunakan kamus kata dasar dan mendukung recoding, yakni penyusunan kembali kata-kata yang mengalami proses stemming berlebih. Aturan morfologi Bahasa Indonesia mengelompokkan imbuhan ke dalam beberapa kategori sebagai berikut : 1. Inflection suffixes yakni kelompok akhiran yang tidak merubah bentuk kata dasar. Sebagai contoh, kata "duduk" yang diberikan akhiran "-lah" akan menjadi "duduklah". Kelompok ini dapat dibagi menjadi dua : a. Particle (P) atau partikel, yakni termasuk di dalamnya "-lah", "-kah", "-tah", dan "-pun". b. Possessive Pronoun (PP) atau kata ganti kepunyaan, termasuk di dalamnya adalah "-ku", "-mu", dan "-nya". 2. Derivation Suffixes (DS) yakni kumpulan akhiran asli Bahasa Indonesia yang secara langsung ditambahkan pada kata dasar yaitu akhiran "-i", "-kan", dan "-an". 3. Derivation Prefixes (DP) yakni kumpulan awalan yang dapat langsung diberikan pada kata dasar murni, atau pada kata dasar yang sudah mendapatkan penambahan sampai dengan 2 awalan. Termasuk di dalamnya adalah : a. Awalan yang dapat bermorfologi ("me-", "be-", "pe-", dan "te-") b. Awalan yang tidak bermorfologi ("di-", "ke-" dan "se-").

12 Berdasarkan pengklasifikasian imbuhan-imbuhan di atas, maka bentuk kata berimbuhan dalam Bahasa Indonesia dapat dimodelkan sebagai berikut : [ DP+ [ DP+ [ DP+] ] ] Kata Dasar [ [+DS] [+PP] [+P] ] Dengan model Bahasa Indonesia di atas serta aturan-aturan dasar morfologi Bahasa Indonesia, aturan yang dipergunakan dalam proses stemming algoritma Nazief-Adriani sebagai berikut : 1. Tidak semua kombinasi awalan dan akhiran diperbolehkan. Kombinasikombinasi imbuhan yang tidak diperbolehkan, yaitu "be-i", "di-an", "ke-i", "ke-kan", "mean", "se-i", "se-kan", dan yang terakhir "te-an". 2. Penggunaan imbuhan yang sama secara berulang tidak diperkenankan. 3. Jika suatu kata hanya terdiri dari satu atau dua huruf, maka proses stemming tidak dilakukan. 4. Penambahan suatu awalan tertentu dapat mengubah bentuk asli kata dasar, ataupun awalan yang telah diberikan sebelumnya pada kata dasar bersangkutan (bermorfologi). Sebagai contoh, awalan "me-" dapat berubah menjadi "meng- ", "men-", "meny-", dan "mem-". Oleh karena itu, diperlukan suatu aturan yang mampu mengatasi masalah morfologi ini. Algoritma stemmer yang diperkenalkan Nazief dan Adriani didefinisikan sebagai berikut : 1. Di awal proses stemming dan setiap langkah yang selanjutnya dilakukan, lakukan pengecekan hasil proses stemming kata yang di-input-kan pada langkah tersebut kekamus kata dasar. Jika kata ditemukan, berarti kata tersebut sudah berbentuk kata dasar dan proses stemming dihentikan. Jika tidak ditemukan, maka langkah selanjutnya dilakukan. 2. Hilangkan inflectional suffixes. Dimulai dari inflectional particle, kemudian possessive pronoun. 3. Hilangkan derivation suffixes. 4. Hilangkan derivation prefixes. a. Langkah 4 berhenti jika : i. Terjadi kombinasi awalan dan akhiran yang terlarang.

13 ii. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya. iii. Tiga awalan telah dihilangkan b. Identifikasikan tipe awalan dan hilangkan.awalan terdiri dari dua tipe : i. Standar ("di-", "ke-", "se-") yang dapat langsung dihilangkan dari kata. ii. Kompleks ("me-", "be-", "pe", "te-") adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. Oleh karena itu, gunakan aturan pada Tabel 2.1 untuk mendapatkan hasil pemenggalan yang tepat. c. Cari kata yang telah dihilangkan awalannya ini di dalam kamus kata dasar. Apabila tidak ditemukan, maka langkah 4 diulangi kembali. Apabila ditemukan, maka keseluruhan proses dihentikan. 5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses recoding dilakukan dengan mengacu pada aturan pada Tabel 2.1. Recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Pada Tabel 2.1, karakter recoding adalah huruf kecil setelah tanda hubung ("-") dan terkadang berada sebelum tanda kurung. Sebagai contoh, kata "menangkap" (aturan 15), setelah dipenggal menjadi "nangkap". Karena tidak valid, maka recoding dilakukan dan menghasilkan kata "tangkap". Catatan : Disini ditemukan kejanggalan pada aturan pemenggalan awalan pada Tabel 2.1, dimana tidak tercantum aturan ke-22. Hingga tulisan ini selesai dibuat, belum ada konfirmasi atas kekurangan ini. 6. Jika semua langkah gagal, maka input kata yang diuji pada algoritma ini dianggap sebagai kata dasar.

14 Tabel 2. 1 Aturan Pemenggalan Awalan Stemmer Nazief dan Adriani Aturan Format Kata Pemenggalan 1 berv... ber-v... be-rv... 2 bercap... ber-cap... dimana C!= r & P!= er 3 bercaerv... ber-caerv... dimana C!= r 4 belajar bel-ajar 5 bec1erc2... be-c1erc2... dimana C1!={ r l } 6 terv... ter-v... te-rv... 7 tercerv... ter-cerv... dimana C!= r 8 tercp... ter-cp... dimana C!= r dan P!= er 9 tec1erc2... te-c1erc2... dimana C1!= r 10 me{l r w y}v.. me-{l r w y}v... 11 mem{b f v}... mem-{b f v}... 12 mempe{r l}... mem-pe... 13 mem{rv V}... me-m{rv V}... me-p{rv V}... 14 men{c d j z}... men-{c d j z}... 15 menv... me-nv... me-tv 16 meng{g h q}... meng-{g h q}... 17 mengv... meng-v... meng-kv... 18 menyv... meny-sv 19 mempv... mem-pv... dimana V!= e 20 pe{w y}v... pe-{w y}v... 21 perv... per-v... pe-rv... 22 percap per-cap... dimana C!= r danp!= er 23 percaerv... per-caerv... dimana C!= r 24 pem{b f V}... pem-{b f V}... 25 pem{rv V}... pe-m{rv V}... pe-p{rv V}... 26 pen{c d j z}... pen-{c d j z}... 27 penv... pe-nv... pe-tv... 28 peng{g h q}... peng-{g h q}... 29 pengv... peng-v... peng-kv... 30 penyv... peny-sv pe-lv... kecuali pelajar yang 31 32 pelv... pecerv... menghasilkan per-erv... dimana ajar C!={r w y l m n} pe-cp... dimana C!={r w y l m n} Keterangan simbol huruf : C: huruf konsonan V: huruf vokal 33 pecp... A: huruf vokal atau konsonan dan P!= er P: partikel atau fragmen dari suatu kata, misalnya er

15 2.5 K-Gram K-Gram adalah rangkaian terms dengan panjang K. Kebanyakan yang digunakan sebagai terms adalah kata. K-Gram merupakan sebuah metode yang diaplikasikan untuk pembangkitan kata atau karakter. Metode K-Gram ini digunakan untuk mengambil potongan-potongan karakter huruf sejumlah k dari sebuah kata yang secara kontinuitas dibaca dari teks sumber hingga akhir dari dokumen.(kadek Versi Yana Yoga, Kumpulan Artikel Mahasiswa, 2012) Berikut ini adalah contoh k-grams dengan k=5 : Text: universitas mercubuana Kemudian dilakukan penghilangan spasi : universitasmercubuana Sehingga dihasilkan rangkaian 5-grams yang diturunkan dari text unive niver ivers versi ersit rsita sitas itasm tasme asmer smerc mercu ercub rcubu cubua ubuan buana 2.6 Pengukuran Nilai Similarity Untuk pengukuran nilai persentase similarity menggunakan Dice s Similarity Coeficient. Nilai similarity tersebut dapat dihitung dengan : Similaritas (x, y) = Untuk menentukan jenis kesamaan antara dokumen yang diuji, ada 5 jenis penilaian persentase similarity (Mutiara-Agustina, 2008): 0% : Hasil uji 0% berarti kedua dokumen tersebut benar-benar berbeda baik dari segi isi dan kalimat secara keseluruhan < 15% : Hasil uji 1-14% berarti kedua dokumen tersebut hanya mempunyai sedikit kesamaan 15-50%: Hasil uji 15-50% berarti menandakan dokumen tersebut termasuk plagiat tingkat sedang >50% : Hasil uji lebih dari 51-99% berarti dapat dikatakan bahwa dokumen tersebut mendekati plagiarisme 100% : Hasil uji 100% menandakan bahwa dokumen tersebut adalah plagiat karena dari awal sampai akhir mempunyai isi yang sama persis.