BAB 2 TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
BAB 2 LANDASAN TEORI. 2.1 Pengertian Text Mining

DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER SKRIPSI IQBAL MAULANA DJAFAR

BAB I PENDAHULUAN. dengan mudah diduplikasi (Schleimer, Wilkerson, & Aiken, 2003). Dengan

APLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP

PERBANDINGAN ALGORITMA WINNOWING DENGAN ALGORITMA RABIN KARP UNTUK MENDETEKSI PLAGIARISME PADA KEMIRIPAN TEKS JUDUL SKRIPSI

BAB I PENDAHULUAN 1.1 Latar Belakang

APLIKASI STATISTIK PENDETEKSIAN PLAGIARISME DOKUMENT TEXT DENGAN ALGORITMA RABIN KARP

BAB I PENDAHULUAN. berinovasi menciptakan suatu karya yang original. Dalam hal ini tindakan negatif

Analsis dan Implementasi Algoritma Winnowing dengan Synonym Recognition pada Deteksi Plagiarisme untuk Dokumen Teks Berbahasa Indonesia

BAB 2 LANDASAN TEORI

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. penjiplakan suatu tulisan. Neville (2010) dalam buku The Complete Guide to

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. yang cepat sangat berpengaruh terhadap gaya hidup manusia. Pertukaran

PERBANDINGAN PENGUNAAN STEMMING PADA DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN METODE RABIN KARP DAN JACCARD SIMILARITY

APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP

DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

PERBANDINGAN PENDEKATAN DETEKSI PLAGIARISM DOKUMEN DALAM BAHASA INGGRIS. ABSTRAK

ANALISIS PENGUKURAN SELF PLAGIARISM MENGGUNAKAN ALGORITMA RABIN-KARP DAN JARO-WINKLER DISTANCE DENGAN STEMMING TALA

BAB III METODOLOGI PENELITIAN

Implementasi Algoritma Jaro-Winkler Distance Untuk Sistem Pendeteksi Plagiarisme Pada Dokumen Skripsi

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME DOKUMEN DENGAN PENDEKATAN K-GRAM BERBASIS FRASA

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen

Jurnal Informatika dan Komputer PENS

BAB I PENDAHULUAN. masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan

IMPLEMENTASI ALGORITMA RABIN KARP DAN STEMMING NAJIEF ANDRIANI UNTUK DETEKSI PLAGIARISME DOKUMEN

BAB II LANDASAN TEORI

Implementasi Algoritma Rabin Karp untuk Pendeteksian Plagiat Dokumen Teks Menggunakan Konsep Similarity

ANALISIS K-GRAM, BASIS DAN MODULO RABIN-KARP SEBAGAI PENENTU AKURASI PERSENTASE KEMIRIPAN DOKUMEN

SISTEM PENDETEKSIAN KEMIRIPAN JUDUL SKRIPSI MENGGUNAKAN ALGORITMA WINNOWING

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh

APLIKASI PENDETEKSI DUPLIKASI DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA WINNOWING DENGAN METODE K-GRAM DAN SYNONYM RECOGNITION

DETEKSI PLAGIARISME TINGKAT KEMIRIPAN JUDUL SKRIPSI DENGAN ALGORITMA WINNOWING

PERANCANGAN SISTEM PENENTUAN SIMILARITY KODE PROGRAM PADA BAHASA C DAN PASCAL DENGAN MENGGUNAKAN ALGORITMA RABIN-KARP

PENERAPAN ALGORITMA WINNOWING UNTUK MENDETEKSI KEMIRIPAN TEKS PADA TUGAS AKHIR MAHASISWA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Pemanfaatan teknologi pada era globalisasi telah menjadi satu hal yang

UKDW. Bab 1 PENDAHULUAN

BAB II TINJAUAN PUSTAKA. seolah-olah karya orang lain tersebut adalah karya kita dan mengakui hasil

Deteksi Plagiarisme Gambar menggunakan Algoritma Pencocokan Pola Rabin-Karp

BAB III METODOLOGI PENELITIAN

Aplikasi Pendeteksi Penjiplakan pada File Teks dengan Algoritma Winnowing

BAB 2 LANDASAN TEORI

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

TUGAS AKHIR. Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang. Oleh :

BAB IV HASIL DAN UJI COBA

Analisis Perbandingan Algoritma Rabin-Karp Dan Levenshtein Distance Dalam Menghitung Kemiripan Teks

Gambar 2.1 Diagram Alir Algoritma Rabin-Karp

PENDETEKSIAN PLAGIASI DENGAN SISTEM PENGUKURAN SIMILARITAS PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN STRING MATCHING ALGORITMA RABIN-KARP

SISTEM PENILAIAN ESAI OTOMATIS PADA E-LEARNING DENGAN ALGORITMA WINNOWING

BAB 3 ANALISIS DAN PERANCANGAN

Penerapan Algoritma Jaro-Winkler Distance untuk Sistem Pendeteksi Plagiarisme pada Dokumen Teks Berbahasa Indonesia

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB III METODE PENELITIAN

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV ANALISA DAN PERANCANGAN

KUTIPAN DAN PARAPRASI (Quoting and Paraphrasing)

SISTEM DETEKSI KEMIRIPAN JUDUL SKRIPSI PRODI TEKNIK INFORMATIKA MENGGUNAKAN ALGORITMA RABIN-KARP

SINONIM DAN WORD SENSE DISAMBIGUATION UNTUK MELENGKAPI DETEKTOR PLAGIAT DOKUMEN TUGAS AKHIR. Devi Dwi Purwanto

Aplikasi Pendeteksi Duplikasi Dokumen Teks Bahasa Indonesia Menggunakan Algoritma Winnowing Dengan Metode K-Gram Dan Synonym Recognition

BAB IV ANALISA DAN PERANCANGAN

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

PENENTUAN PENANGANAN KERUSAKAN MESIN PRODUKSI RESLETING DI PT. HERO TOP ZIP MENGGUNAKAN CASE BASED REASONING DAN SORENSEN COEFFICIENT

PEMBUATAN APLIKASI PENGUKURAN TINGKAT KEMIRIPANDOKUMEN BERBASIS WEB MENGGUNAKAN ALGORITMA WINNOWING

DETEKSI PLAGIAT DOKUMEN MENGGUNAKAN ALGORITMA RABIN-KARP

BAB 3 LANDASAN TEORI

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. Jiménez-Peris, dkk dalam paper-nya yang berjudul New Technologies in

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

IMPLEMENTASI ALGORITMA RABIN-KARP MENGGUNAKAN STEMMING NAZIEF DAN ADRIANI UNTUK MENDETEKSI TINGKAT KEMIRIPAN FILE TEKS YANG BERBENTUK SKRIPSI SKRIPSI

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. terjadi diberbagai kalangan. Dalam Kamus Besar Bahasa Indonesia, definisi

Implementasi Pencocokan String Tidak Eksak dengan Algoritma Program Dinamis

IMPLEMENTASI ALGORITMA RABIN-KARP UNTUK MENDETEKSI DUGAAN PLAGIARISME BERDASARKAN TINGKAT KEMIRIPAN KATA PADA DOKUMEN TEKS

BAB I PENDAHULUAN. Hadirnya teknologi informasi berdampak pada banyak sektor, termasuk

BAB II LANDASAN TEORI

Rancang Bangun Penilaian Keaktifan Menggunakan Teknik Text Similarity Pada Sistem Tutorial Matematika Diskret

SISTEM DETEKSI DINI PLAGIARISME TUGAS AKHIR MAHASISWA MENGGUNAKAN ALGORITMA N- GRAMS DAN WINNOWING

BAB II LANDASAN TEORI

PERBANDINGAN N-GRAM TECHNIQUE DAN RABIN KARP PADA APLIKASI PENDETEKSI PLAGIARISME DOKUMEN TEKS BAHASA INDONESIA

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB III METODOLOGI PENELITIAN

APLIKASI DETEKSI PLAGIARISME BERDASARKAN STRING-MATCHING MENGGUNAKAN ALGORITMA RABIN-KARP SKRIPSI. oleh : DENI HADI SANTOSO NIM

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

Aplikasi Pendeteksi Dugaan Awal Plagiarisme Pada Tugas Siswa Dan Mahasiswa Berdasarkan Kemiripan Isi Teks Menggunakan Algoritma Levenshtein Distance

PENDETEKSIAN TINGKAT SIMILARITAS DOKUMEN BERBASIS WEB MENGGUNAKAN ALGORITMA WINNOWING

DETEKSI KEBERADAAN KALIMAT SAMA SEBAGAI INDIKASI PENJIPLAKAN DENGAN ALGORITMA HASHINGBERBASISN-GRAM

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

Transkripsi:

BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori mengenai pendeteksian kemiripan dokumen teks yang mengkhususkan pada pengertian dari keaslian dokumen, plagiarisme, kemiripan dokumen, dan penjelasan mengenai algoritma yang digunakan yaitu algoritma Manber serta teknik pendukung berupa stemming dan Synonym Recognition. Pada akhir bab ini akan dipaparkan penelitian-penelitian terdahulu mengenai pendeteksian kemiripan dokumen teks. 2.1 Keaslian Dokumen Teks Keaslian sebuah dokumen teks merupakan naskah yang berasal dari ide pengarang tanpa adanya penambahan ide dari pengarang lainnya. Jika pun ada, nama pengarang harus dicantumkan di dalam referensi serta tidak menuliskan secara utuh kutipan ide tersebut melainkan menuliskannya ke dalam bahasa sendiri. Hal ini dilakukan untuk menghindari tindak plagiarisme. 2.2 Penjiplakan Penjiplakan atau plagiarisme adalah teknik peniruan atau penyalinan ide orang lain tanpa menuliskan referensi darimana ide tersebut berasal, artinya secara tidak langsung penulis sudah menglaim bahwa ide tersebut berasal dari idenya sendiri. Tidak adanya keinginan ataupun kemudahannya dalam menyalin hasil karya atau ide orang lain menjadi faktor utama terjadinya penjiplakan (Novia, et al. 2012).

8 Berdasarkan hasil penelitian yang dilakukan oleh Gipp & Meuschke (2011), dijelaskan bahwa teknik plagiat memiliki ragam bentuk, diantaranya: 1. Copy & Paste Plagiarism, yaitu menyalin seluruh kata tanpa adanya perubahan konten dari naskah aslinya. 2. Disguised Plagiarism, yaitu menutupi beberapa bagian yang telah disalin dari naskah aslinya dengan menggunakan konten bermakna sama. 3. Technical Disguise, yaitu menyembunyikan serta melakukan peringkasan pada beberapa konten dari naskah yang telah disalin. 4. Undue Paraphrasing, yaitu mengubah susunan serta bahasa yang digunakan (dari bahasa yang satu ke bahasa lainnya) dengan menggunakan gaya penulisannya sendiri tanpa menuliskan sumber aslinya. 5. Translated Plagiarism, yaitu mengubah dari bahasa satu ke bahasa lainnya tanpa menuliskan sumber aslinya. 6. Idea Plagiarism, yaitu menggunakan ide orang lain tanpa menuliskan sumber darimana ide berasal. 2.3 Kemiripan Dokumen Teks Pendeteksian plagiarisme pada dokumen teks dilakukan dengan cara membandingkan isi dari dokumen yang akan diuji dengan dokumen yang dijadikan sebagai pembandingnya. Adapun syarat dokumen pembanding adalah sudah dinyatakan keasliannya sehingga pengujian kemiripan dokumen menjadi valid. Dalam menentukan hasil akhir pendeteksian kemiripan dokumen teks, biasanya digunakan persentase similaritas sehingga pembacaan hasil akhir menjadi lebih mudah. Adapun teknik pendeteksian kemiripan dokumen teks menurut Stein & Eissen (2006) adalah: 1. Perbandingan Teks Lengkap, yaitu membandingkan seluruh kata yang terdapat di dalam dokumen teks. 2. Kesamaan Kata Kunci, yaitu membandingkan seluruh kata yang merupakan perwakilan isi dokumen. 3. Fingerprint, yaitu membandingkan rangkaian pembentuk teks dengan panjang tertentu dan diubah menjadi bilangan unik menggunakan teknik hash.

9 2.4 Text Mining Text Mining diartikan sebagai penambangan data berupa teks yang bersumber dari dokumen untuk mencari kata-kata yang merupakan perwakilan isi atau pembentuk dokumen teks sehingga penganalisisan dapat dilakukan. Berikut ini merupakan tahapan umum pada proses Text Mining, yaitu (Nugroho, 2011): 1. Text Preprocessing, yaitu pemrosesan awal yang ditujukan untuk membentuk teks menjadi data siap olah pada proses selanjutnya. a. Case Folding, yaitu pengubahan seluruh karakter yang merupakan huruf kapital menjadi huruf kecil. b. Filtering, yaitu pengambilan kata-kata yang penting sesuai dengan kondisi yang diinginkan. c. Tokenizing, yaitu tahap pemecahan kalimat yang di-input berdasarkan kata yang menyusunnya, biasanya dipisah oleh karakter whitespace. 2. Text Transformation, yaitu pembentukan teks yang mengacu pada proses untuk mendapatkan representasi dokumen yang sesuai. a. Stemming, yaitu pencarian kata dasar dari setiap kata hasil tokenizing. b. Synonym Recognition, yaitu pengubahan kata yang memiliki makna yang sama dengan penulisan berbeda. 3. Feature Selection, yaitu pengurangan dimensi teks sehingga nantinya akan dihasilkan kata-kata yang merupakan dasar dari isi teks. 4. Pattern Discovery, yaitu penemuan pola atau pengetahuan dari keseluruhan teks. 2.5 Algoritma Manber Algoritma Manber merupakan salah satu dari tiga algoritma yang menggunakan fingerprint dalam proses penyelesaian permasalahannya, selain algoritma Winnowing dan Rabin-Karp. Penggunaan fingerprint ini ditujukan agar dapat mengidentifikasi penjiplakan termasuk bagian-bagian kecil yang mirip dalam dokumen pada dokumen dengan jumlah kata yang cukup banyak (Purwitasari, et al. 2009).

10 Setiap algoritma memiliki penyelesaian permasalahan yang berbeda, namun algoritma Manber dan Winnowing memiliki langkah penyelesaian yang hampir sama. Adapun perbedaan algoritma Manber dari algoritma Winnowing adalah sebagai berikut (Kurniawati & Wicaksana, 2008): 1. Jumlah langkah yang lebih sedikit sehingga waktu pemrosesan dokumen menjadi lebih cepat. 2. Tidak memberikan informasi dimana posisi fingerprint berada. 3. Pemilihan fingerprint yang berbeda. Pada Algoritma Manber, fingerprint dipilih dari setiap nilai hash yang memenuhi persyaratan H mod P = 0, di mana H adalah nilai hash dan P adalah nilai pembagi yang digunakan, sementara pada Algoritma Winnowing dipilih nilai hash minimum dalam setiap window. Adapun secara singkat, konsep dasar algoritma Manber dimulai dari tahap awal baik penghapusan noise dan whitespace hingga hasil akhirnya berupa persentase adalah : 1. Penghapusan noise dan whitespace. 2. Pembentukan rangkaian gram dengan panjang N karakter. 3. Penghitungan nilai hash dari setiap gram menggunakan fungsi hash. 4. Pemilihan beberapa nilai hash menjadi fingerprint dokumen. 5. Menentukan persentase kemiripan antar dokumen menggunakan persamaan Jaccard Coefficient. 2.5.1 Penghapusan Noise & Whitespace Banyak algoritma atau metode yang dapat digunakan untuk mendeteksi kemiripan dokumen teks. Ada beberapa persyaratan yang harus dipenuhi oleh algoritma pendeteksi kemiripan dokumen teks (Pratama, 2012), yaitu: 1. Whitespace Insensitivity, artinya dalam melakukan pendeteksian terhadap dokumen teks, algoritma tidak boleh dipengaruhi oleh spasi, jenis huruf (kapital atau normal), tanda baca dan sebagainya. Oleh sebab itu, dilakukan penghapusan terhadap karakter yang tidak relevan tersebut sehingga nantinya hanya akan tersisa satu rangkaian yang terdiri atas huruf dan angka.

11 2. Noise Surpression, artinya dalam melakukan pendeteksian, algoritma harus dapat menghindari adanya kata yang tidak penting, misal: di, ke, dan sebagainya. Panjang kata yang ditengarai harus cukup untuk membuktikan bahwa kata-kata tersebut telah dijiplak dan bukan merupakan kata yang umum digunakan. 3. Position Independence, artinya pendeteksian tidak boleh bergantung pada posisi kata sehingga apabila posisi kata berbeda maka pendeteksian tetap dapat dilakukan. 2.5.2 Metode N-Gram Algoritma yang menggunakan fingerprint seperti algoritma Manber memiliki satu metode utama yaitu metode N-Gram. Metode N-Gram merupakan metode yang berfungsi untuk memecah kata ataupun kalimat menjadi sebuah rangkaian dengan panjang N karakter. Sebagai contoh : KEMEJA Dengan menggunakan nilai N = 2, maka akan dihasilkan : KE, EM, ME, EJ, JA Metode N-Gram memunyai peran yang cukup penting karena merupakan langkah awal dalam proses pembentukan fingerprint. Dengan kata lain, metode N- Gram memiliki pengaruh terbesar pertama pada hasil akhir yang dikeluarkan. Pengaruh dari nilai N pada metode N-Gram yaitu semakin kecil nilai N yang digunakan akan semakin besar pula persentase yang dihasilkan nantinya. Namun, tidak selalu dengan menggunakan nilai N = 1, hasil yang didapatkan lebih baik. Alasannya adalah jika kalimat terdiri dari huruf yang sama dengan kalimat bandingnya, maka akan menghasilkan persentase kemiripan sebesar 100%. Sebagai contoh : RAMAH : R, A, M, H MARAH : M, A, R, H Didapatkan 4 huruf yang sama, sehingga menghasilkan persentase sebesar 100%. Oleh karena itu, penggunaan N-Gram harus disesuaikan dengan kondisi dari teks yang akan diuji.

12 2.5.3 Hash Hash merupakan teknik untuk mengubah sebuah string menjadi nilai unik dengan panjang tertentu yang nantinya akan berfungsi sebagai penanda string tersebut (Pratama, et al. 2012) Hash terdiri dari dua elemen, yaitu fungsi hash dan nilai hash. Hubungan kedua elemen tersebut adalah rangkaian gram yang dihasilkan dari proses N-Gram kemudian diolah menggunakan fungsi hash sehingga terbentuklah rangkaian nilai hash yang nantinya akan dipilih menjadi fingerprint dokumen (Purwitasari, et al. 2009). Fungsi hash yang digunakan pada algoritma Manber adalah fungsi hash yang mengubah setiap karakter pada rangkaian string ke dalam bentuk kode ASCII dan memrosesnya ke dalam persamaan (2.1) berikut : H k k 1 k 2 c c c * b c * b *... ck * b c 1... ) 1 2 1 k (2.1) ( 1 Keterangan: H : nilai hash c : nilai ASCII karakter b : basis (bilangan prima) k : banyak karakter 2.5.4 Fingerprint Dokumen Fingerprint dokumen adalah ciri khas yang terdapat pada sebuah dokumen teks. Ciri ini dapat dikatakan pula sebagai rangkaian pembentuk atau dasar dari dokumen tersebut. Fingerprint berasal dari rangkaian nilai hash yang sudah memenuhi persyaratan. Fingerprint merupakan tujuan pertama dari algoritma yang menggunakan fingerprint sebagai langkah penyelesaiannya. Masing-masing algoritma memiliki cara yang berbeda dalam memilih fingerprint. Pada algoritma Manber, pemilihan fingerprint dilakukan dengan cara mengecek apakah nilai hash memenuhi persamaan (2.2) berikut:

13 H Mod P = 0 (2.2) Keterangan: H : Nilai Hash, Mod : Modulo (pembagian sisa), P : Nilai Pembagi, 0 : Hasil pembagian sisa harus bernilai 0. Ada tiga faktor yang mempengaruhi pemilihan fingerprint, yaitu : 1. Nilai N pada metode N-Gram, perubahan panjang karakter yang terbentuk akan mengubah fingerprint yang dipilih. 2. Basis pada fungsi hash, tentunya perubahan basis akan mengubah nilai hash yang dihasilkan serta fingerprint yang dipilih. 3. Nilai pembagi pada persamaan (2.2). Perubahan pada nilai pembagi akan mengubah nilai hash yang akan dipilih menjadi fingerprint. Penggunaan nilai pembagi ini harus disesuaikan dengan kondisi dokumen teks. 2.5.5 Persamaan Jaccard Coefficient Persamaan Jaccard Coefficient merupakan persamaan yang digunakan untuk mengukur nilai similaritas atau kemiripan. Banyak hal yang dapat diukur nilai similaritasnya, seperti similaritas dokumen teks. Oleh karena itu, persamaan ini diimplementasikan ke dalam algoritma Manber sebagai pengukur persentase similaritas dokumen teks. Persamaan Jaccard Coefficient dapat ditulis sesuai dengan persamaan (2.3) berikut: w( di ) w( d j ) Similaritas (d i,d j ) = x100 % w( d ) w( d ) i j (2.3) Keterangan: 1. w( d ) w( d ) : Irisan fingerprint teks uji dengan teks banding, i j 2. w( d ) w( d ) : Gabungan fingerprint teks uji dan teks banding, dan i j 3. Similaritas (d i,d j ) : Hasil bagi irisan dengan gabungan fingerprint yang dikalikan 100%.

14 2.6 Stemming Stemming adalah teknik pencarian kata dasar dari setiap kata hasil tokenizing. Di dalam bahasa Indonesia, stemming digunakan untuk menghilangkan bubuhan yang melekat pada kata dasar baik imbuhan (awalan, akhiran, sisipan), partikel, dan kata ganti orang. Sebagai contoh : mempermainkannya = mem + per + main + kan + nya Kata mempermainkannya merupakan hasil gabungan dari : 1. Satu kata dasar (root word) : main 2. Dua imbuhan awal (prefiks) : mem dan per 3. Satu imbuhan akhir (sufiks) : kan 4. Satu kata ganti orang (possessive pronoun) : nya Stemming lebih susah diimplementasikan ke dalam teks berbahasa Indonesia karena bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen (Triawati, 2009). Banyak penelitian mengenai teknik stemming, salah satunya adalah Stemming Porter yang akan digunakan pada penelitian ini. Secara singkat langkah penyelesaian pada Stemming Porter adalah sebagai berikut: 1. Menghapus partikel, 2. Menghapus kata ganti (possessive pronoun), 3. Menghapus awalan pertama. Jika tidak ditemukan, maka lanjut ke langkah 4a, dan jika ada, maka lanjut ke langkah 4b, 4. a. Menghapus awalan kedua, dan dilanjutkan pada langkah 5a, b. Menghapus akhiran, jika tidak ditemukan, maka kata diasumsikan sebagai kata dasar. Jika ditemukan lanjut ke langkah 5b, 5. a. Menghapus akhiran dan kata akhir diasumsikan sebagai kata dasar. b. Menghapus awalan kedua dan kata akhir diasumsikan sebagai kata dasar. Pendeteksian kemiripan dokumen sangat bergantung pada proses stemming, artinya jika proses stemming tidak berjalan dengan baik, maka hasil yang didapatkan juga tidak akan sesuai. Oleh karena itu, stemming menjadi salah satu kunci untuk mendapatkan hasil deteksi kemiripan dokumen teks yang akurat.

15 2.7 Synonym Recognition Synonym Recognition atau pengenalan kata bersinonim adalah teknik yang digunakan untuk mengenali kata dengan penulisan berbeda namun memiliki makna yang sama. Teknik penjiplakan dokumen teks tidak lepas dari penggunaan kata bersinonim sehingga dokumen teks hasil penjiplakan berbeda secara penulisan dari dokumen teks aslinya meskipun makna yang dihasilkan tetaplah sama. Jenis penjiplakan tersebut dapat digolongkan ke dalam Disguised Plagiarism dan Technical Disguise. Jenis penjiplakan ini sangat sulit dideteksi oleh sistem yang tidak mengimplementasikan teknik Synonym Recognition. Di dalam bahasa Indonesia, hampir setiap kata memiliki sinonim, tentu hal ini semakin menyulitkan pendeteksian. Apabila sistem penyimpan kata hanya memiliki sedikit kata bersinonim, maka semakin kecil pula keakuratan pendeteksian. Hal ini juga dipersulit dengan adanya penulisan kata bersinonim yang sama meskipun maknanya berbeda, serta sinonim kata yang menggunakan imbuhan. Synonym Recognition merupakan kunci kedua terpenting setelah stemming. Hal ini diakibatkan karena banyaknya kata sinonim yang berasal dari kata dasar, meskipun beberapa sinonim kata memang memiliki imbuhan. Apabila proses stemming tidak berjalan dengan baik, maka pengenalan kata bersinonim juga menjadi tidak sesuai, dan berdampak pada berkurangnya keakuratan pendeteksian. 2.8 Penelitian Terdahulu Pendeteksian kemiripan dokumen teks sudah banyak dilakukan oleh peneliti-peneliti sebelumnya, baik dengan menggunakan algoritma pendeteksi kemiripan teks yang berbeda, teknik pendukung yang berbeda maupun pengimplementasian dalam bentuk yang berbeda, dan lain sebagainya. Heriyanto (2011) menggunakan algoritma exact match dalam melakukan penelitiannya. Algoritma exact match tidak memerdulikan proses stemming sehingga apabila ada kata yang memiliki awalan dan akhiran, maka tidak dianggap sama. Kata dasar ditambah dengan awalan dan akhiran akan berarti kata yang berbeda-beda. Hal ini tentu mengurangi keefektifan dari sistem yang dibuat.

16 Ramadhani, et al (2013) menggunakan algoritma Winnowing, dimana algoritma ini memiliki langkah yang hampir sama dengan algoritma Manber. Sesuai dengan kesimpulan yang dituliskan bahwa keakuratan pendeteksian cukup baik, yaitu memberikan selisih perbedaan sebesar 4-7% dengan responden yang mencari kesamaan dokumen secara manual, namun kecepatan proses algoritma masih kalah dari algoritma Manber, meskipun dari segi keakuratan Winnowing lebih unggul. Salmuasih (2013) yang menggunakan algoritma Rabin-Karp dan konsep similarity menyimpulkan bahwa penggunaan teknik stemming sangat berpengaruh pada persentase hasil yang didapatkan, serta perlu ditambahkan teknik pengenalan sinonim. Modulo yang digunakan dalam penelitiannya tidak berpengaruh pada hasil persentase, namun berpengaruh pada waktu proses. Goenawan, et al (2005) menyimpulkan bahwa algoritma Edit Distance lebih tepat digunakan untuk mencari kecocokan antara dua string. Dimana dalam proses perbandingannya, string kedua dimanipulasi sehingga pada akhirnya serupa dengan string pertama. Dalam proses pengubahan string tersebut, dibuat sebuah tabel dua dimensi dengan baris sesuai dengan panjang string terpanjang dan jumlah kolom sebanyak panjang string terpendek. Keunggulan algoritma Edit Distance yaitu dapat melihat perbedaan di antara dua string dengan cepat dan akurat. Dani, et al (2006) lebih meneliti pada kompleksitas waktu algoritma Levenshtein Distance dan pendeteksian pada kemiripan kode program. Disimpulkan bahwa kemiripan antar kode program yang diimplementasi dengan bahasa pemrograman yang berbeda, sebelumnya dapat dilakukan proses deteksi bahasa dan konversi ke dalam satu bahasa standar yang dipilih. Dalam kata lain, diperlukan pengubahan bahasa pemrograman satu ke bahasa lain tanpa mengubah inti dari program tersebut atau dapat disebut sebagai sinonim bahasa pemrograman. Oleh karena itu, diperlukan sebuah pengembangan sistem menggunakan algoritma dengan kompleksitas waktu yang baik serta menambahkan teknik stemming dan Synonym Recognition. Penelitian sebelumnya dapat dipaparkan secara ringkas dalam Tabel 2.1 :

17 Tabel 2.1 Penelitian Terdahulu No. Nama (Tahun) Metode Kelebihan Kelemahan 1. Heriyanto (2011) Exact Match Waktu proses algoritma yang relatif singkat 2. Ramadhani, et al Winnowing Memberikan hasil (2013) yang baik dengan selisih 4-7% dari proses manual 3. Salmuasih (2013) Rabin Karp Dapat mengecek kata & Similarity yang memiliki kemiripan dalam penulisan 4. Goenawan, et al Edit Distance Dapat melihat (2005) perbedaan di antara dua string dengan cepat dan akurat 5. Dani, et al (2006) Levenshtein Mendeteksi Distance kemiripan kode program dengan tingkat keakuratan yang baik Hanya memroses kesamaan dan letak kata Hasil tidak optimal, dan waktu proses lebih tinggi dari algoritma Manber Proses pengecekan kata lama dan modulo hanya menambah waktu proses Maksimal string yang dapat digunakan adalah dua Tingkat akurasi rendah dalam mendeteksi kemiripan skala besar maupun pada data yang banyak mengalami perubahan penulisan