Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara

Transkripsi

1 Pendeteksian Kesamaan pada Dokumen Teks Kombinasi Algoritma Enhanced Confix Stripping dan Algoritma Winnowing 1 Ade Chania Sion Sagala, 2 Maya Silvi Lydia, 3 Romi Fadillah Rahmat 1,3 Program Studi S1 Teknologi Informasi 2 Program Studi S1 Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara ade.chania.sion.sagala@students.usu.ac.id maya2@usu.ac.id romi.fadillah@usu.ac.id Abstrak Maraknya tindakan plagiarisme di dunia perkuliahan, baik plagiarisme dalam hal penyelesaian tugas maupun penyusunan karya ilmiah dapat mengurangi bahkan mematikan kreativitas seseorang dalam berkarya. Oleh karena itu, dibutuhkan sebuah aplikasi untuk mendeteksi tingkat kesamaan (similarity) sebuah dokumen teks dengan dokumen yang sudah ada. Penelitian ini menggunakan kombinasi dari algoritma Enhanced Confix Stripping (ECS) Stemmer untuk proses stemming teks yang dimasukkan dan algoritma Winnowing untuk menghitung tingkat kesamaannya (similarity) dengan dokumen dari database. Dengan ditentukannya nilai gram dan window pada perhitungan algoritma Winnowing, diharapkan dapat memudahkan user menggunakan aplikasi ini tanpa harus bingung menentukan nilai gram dan window-nya untuk menghasilkan nilai similarity yang akurat. Hasil pengujian menyimpulkan nilai kesamaan (similarity) sekitar 23-26% dengan percobaan 3 jurnal yang berkategori sama dengan jurnal pembanding. Dan untuk pendeteksian tanpa stemming menghasilkan tingkat kesamaan (similarity) 35-40% dengan jumlah jurnal dan kategori yang sama pula. Kata kunci: enhanced confix stripping (ecs) stemmer, winnowing, plagiarisme, tingkat plagiat, similarity I. PENDAHULUAN Tugas akhir merupakan kewajiban yang harus diselesaikan setiap mahasiswa yang ingin mendapatkan status kelulusan. Dalam teknik penulisan tugas akhir salah satu ciri utamanya adalah keasliannya. Setiap karya memiliki kekhasan penulisannya masing-masing tergantung karakter dari setiap penulis. Keaslian suatu karya dapat ditunjukkan pula dengan adanya copyright dari pemilik tulisan itu sendiri [1]. Dari penelitian [2] ada sekitar 89% mahasiswa yang setuju dan mengerti arti dari plagiarisme dalam dunia pendidikan, dan menyarankan agar materi tentang hal itu dijelaskan pada awal perkuliahan. Tetapi sekitar 65% mengaku bahwa mereka merasa bingung dengan pengertian plagiat, 59% diantaranya menyatakan bahwa mereka tidak diberi tutorial yang cukup untuk menghindari tindak plagiat dalam menyelesaikan tugas mereka. Proses pendeteksian dapat dilakukan dengan mengurai isi dokumen menjadi string yang memiliki nilai dan dilakukan pencocokan dengan dokumen yang tersedia di dalam database. Dalam awal pendeteksian diperlukan proses stemming, yang berarti menghilangkan akhiran dari suatu kata Berbeda dengan proses stemming pada bahasa Inggris, proses stemming pada bahasa Indonesia lebih sulit dilakukan karena bahasa Indonesia mengenal imbuhan awalan (prefixes), sisipan (infixes), akhiran (suffixes), dan kombinasi awalan dan akhiran (confixes). Dalam penelitian yang akan dilakukan, algoritma Enhanced Confix Stripping Stemmer dipilih untuk proses penguraian teks dari imbuhannya. Untuk menghitung nilai kesamaan teks dengan dokumen dalam database digunakan algoritma Winnowing dengan teknik rolling hash. Algoritma Winnowing membuang seluruh pemakaian karakter yang tidak relevan, seperti, tanda baca, spasi, angka, dan karakter lainnya. Hanya karakter berupa huruf yang akan diproses ke tahap berikutnya [3]. II. IDENTIFIKASI MASALAH Maraknya tindakan plagiarisme di dunia perkuliahan, baik plagiarisme dalam hal penyelesaian tugas maupun penyusunan karya ilmiah dapat mengurangi bahkan mematikan kreativitas seseorang dalam berkarya. Berdasarkan hal tersebut, diperlukan sebuah aplikasi yang akan difungsikan untuk mendeteksi kesamaan pada dokumen teks sehingga didapatkan perbandingan antara jurnal yang diuji user dan jurnal yang terdeteksi. III. PENELITIAN TERDAHULU Penelitian tentang plagiat/kesamaan pada dokumen teks telah banyak dilakukan sebelumnya dengan algoritma yang berbeda-beda, diantaranya dengan metode Latent Semantic Analysis [4], algoritma Smith-Waterman [5], algoritma Hashing Berbasis N-Gram [6], algoritma Rabin-Karp [7][8].

2 Sedangkan untuk penelitian tentang penggunaan algoritma Enhanced Confix Stripping Stemmer yaitu pada Pengklasifikasian Dokumen Berita [9]. IV. METODE PENELITIAN A. Plagiarisme Plagiarisme merupakan proses pengambilan gagasan dari orang lain tanpa menyertakan citasi penulis asli. Hal ini dapat dicontohkan dengan menggunakan poin-poin umum atau mengutip beberapa kata dan mengubahnya dari tulisan asli tanpa menyebutkan sumber tulisan [10]. Berbagai pemicu untuk melakukan tindakan plagiat di dunia akademi didasarkan pada tiga faktor umum berikut [11]: 1. Kecerobohan mahasiswa dan kelalaian dosen 2. Desakan finansial (biasanya dilakukan oleh dosen) 3. Ketidakpuasan terhadap ketenaran produk dan diri sendiri Seperti yang telah dijelaskan di awal, keaslian suatu karya, seperti karangan atau ciptaan merupakan suatu hal esensial dalam perlindungan hukum melalui hak cipta. Perlindungan hukum melalui hak cipta diberikan kepada karya pengarang, artis, musisi, programer, dan lainnya, yakni melindungi hak-hak pencipta dari tindakan peniruan dan mereproduksi tanpa izin [12]. B. Citasi Citasi merupakan sebuah cara/alternatif untuk memberitahukan kepada publik bahwa beberapa bagian dari karya ilmiah yang dituliskan berasal dari karya ilmiah lain dengan mencantumkan informasi penulis, judul karya ilmiah yang dikutip, nama perusahaan atau penerbit yang mempublikasikan, tanggal publikasi, dan nomor halaman yang dikutip. Beberapa model citasi yang dapat diikuti oleh penulis karya ilmiah (dapat disesuaikan dengan instansi terkait), seperti [13]: 1. Model Humaniora, terdiri dari: Chicago dan MLA (Modern Language Association) 2. Model Sains, terdiri dari: ACS (American Chemical Society), IEEE (Institute of Electrical and Electronics Engineers), NLM (National Library of Medicine), dan Vancouver (Biological Science) 3. Model Ilmu Sosial, terdiri dari: AAA (American Anthropological Association), APA (American Psychological Association), APSA (American Political Science Association), dan Legal C. Algoritma Stemming Bahasa Indonesia Stemming merupakan bagian dari proses Information Retrieval (IR), yang mengubah beberapa kata ke bentuk kata dasarnya sebelum dilakukan pengindeksan. Contoh, kata dibaca, membaca, pembaca, akan diubah ke kata dasarnya, yaitu baca [14]. Pada dasarnya proses stemming bekerja tergantung pada bahasa yang diteliti. Khusus untuk topik berbahasa Indonesia, proses stemming awalnya bekerja berdasarkan struktural morfologi kalimat bahasa Indonesia, yang terdiri dari prefiks (awalan), sufiks (akhiran), infiks (sisipan), dan konfiks (awalan+akhiran). Lalu terjadi penambahan beberapa aturan, dan diperkenalkan dengan nama algoritma Confix Stripping Stemmer. Penelitian selanjutnya dilakukan dengan menambahkan kamus kata dasar dan mendukung recording, yakni penyusunan kembali kata-kata yang mengalami proses stemming berlebih. Algoritma terbaru yang diteliti oleh Mahendra [9], selanjutnya dinamakan algoritma Enhanced Confix Stripping (ECS) Stemmer. D. Algoritma Enhanced Confix Stripping (ECS) Stemmer Merujuk pada penelitian yang dilakukan oleh [15] proses stemming untuk bahasa Indonesia dengan performa yang paling baik adalah dengan menggunakan algoritma Enhanced Confix Stripping (ECS) Stemmer. Algoritma ini merupakan pengembangan dari algoritma Confix Stripping (CS) Stemmer, dan berhasil mereduksi jumlah term pada algoritma Confix Stripping Stemmer hingga 32.66%, sedangkan pada awalnya Confix Stripping Stemmer hanya mampu mereduksi 30.95% term [9]. Tabel 1. Aturan Pemenggalan Algoritma Enhanced Confix Stripping Stemmer Aturan Format Kata Pemenggalan 1 berv ber-v be-r-v 2 bercap ber-cap dimana C!= r & P!= er 3 bercaerv ber-caerv dimana C!= r 4 belajar bel-ajar 5 bec 1 erc 2 be-c 1 erc 2 dimana C 1!={ r l } 6 terv ter-v te-rv 7 tercerv ter-cerv dimana C!= r 8 tercp ter-cp dimana C!= r dan P!= er 9 tec 1 erc 2 te-c 1 erc 2 dimana C 1!= r 10 me{l r w y}v me-{l r w y}v 11 mem{b f v mem-{b f v} 12 mempe mem-pe 13 mem{rv V} me-m{rv V} me-p{rv V} 14 men{c d j s z} men-{c d j s z} 15 menv me-nv me-tv 16 meng{g h q k} meng-{g h q k} 17 mengv meng-v meng-kv (mengvjika V= e ) 18 menyv meny-sv 19 mempa mem-pa dimana A!= e 20 pe{w y}v pe-{w y}v 21 perv per-v pe-rv 23 percap per-cap dimana C!= r dan P!= er 24 percaerv per-caerv dimana C!= r 25 pem{b f V} pem-{b f V} 26 pem{rv V} pe-m{rv V} pe-p{rv V} 27 pen{c d j z} pen-{c d j z} 28 penv pe-nv pe-tv 29 pengc peng-c 30 pengv peng-v peng-kv (pengvjika V= e ) 31 penyv peny-sv 32 pelv pe-lv kecuali pelajar yang menghasilkan ajar

3 Tabel 1. Aturan Pemenggalan Algoritma Enhanced Confix Stripping Stemmer (lanjutan) Aturan Format Kata Pemenggalan 33 pecerv per-erv dimana C!={r w y l m n} 34 pecp pe-cp dimana C!={r w y l m n} dan P!= er 35 terc 1 erc 2 ter-c 1 erc 2 dimana C 1!= r 36 pec 1 erc 2 pe-c 1 erc 2 dimana C 1!={r w y l m n} E. Algoritma Winnowing Salah satu algoritma yang digunakan untuk mendeteksi bentuk kesamaan pada dokumen teks adalah algoritma Winnowing. Pada dasarnya sistem pendeteksian haruslah memiliki 3 unsur utama yang harus dipenuhi, seperti [16]: 1. Whitespace insensitivity, sistem pencocokan teks seharusnya tidak terpengaruh pada spasi, adanya huruf kapital, berbagai tanda baca, dan sebagainya; 2. Noise surpression, sistem haruslah menghindari pencocokan kata yang terlalu pendek; 3. Position independence, sistem seharusnya tidak bergantung pada posisi kata yang dicari sehingga apabila ditemukan kata yang terindeksi sama dengan posisi berbeda masih dapat dikenali; Algoritma Winnowing dipilih karena algoritma ini sudah memenuhi unsur untuk proses pendeteksian. Setiap kata yang terkandung dalam file teks diubah terlebih dahulu menjadi sebuah kumpulan nilai hash dengan teknik rolling hash. Nilai hash merupakan nilai numerik dari perhitungan ASCII untuk setiap karakter. Lalu kumpulan nilai hash yang disebut fingerprint tersebut digunakan untuk mendeteksi kemiripan antardokumen [17]. Beberapa tahapan dalam penerapan algoritma Winnowing adalah sebagai berikut [3]: 1. Tahap Pertama: Membuang karakter yang tidak relevan seperti tanda baca, spasi, dan simbol-simbol lainnya. 2. Tahap Kedua: Membentuk rangkaian gram. 3. Tahap Ketiga: Melakukan proses rolling hash untuk mencari nilai hash dari setiap gram. 4. Tahap Keempat: Membentuk window yang terdiri dari nilai hash yang dihasilkan. 5. Tahap Kelima: Membentuk nilai fingerprint yang unik, dengan memilih nilai terendah dari setiap baris di dalam window. F. Rolling Hash Rolling Hash pada awalnya digunakan pada algoritma Rabin-Karp. Setiap karakter di dalam dokumen teks diubah (encode) menjadi nilai array bilangan bulat, sehingga nilai masukan yang awalnya berupa karakter menjadi fungsi hash berupa angka. Perhitungan operasi modulo digunakan agar tidak mempersulit sistem menghitung dalam jumlah banyak, selama nilai modulo yang digunakan tidak terlalu besar pula [18]. Persamaan teknik rolling hash [19] adalah sebagai berikut: ( ) ( [ ] [ ] [ ] [ ] [ ] ) Untuk menghitung hash lanjutan, persamaannya adalah: ( ) ( ( ) [ ]) [ ] dimana: b : Nilai bilangan basis (10) k : Nilai ASCII karakter h(k) : Nilai hash m : Nilai bilangan prima (10007) L : Banyaknya karakter yang di-hashing S(i) : Nilai hash awal S(i+1) : Nilai hash berikutnya G. Pengukuran dan Persentase Similarity Perhitungan similaritas antardua dokumen diambil dari pemilihan nilai fingerprint hash terunik, seperti [20]: dimana: S : Similaritas N t : Total hash yang sama N x : Total substring pembanding : Total substring uji N y Penilaian persentase similaritas antardua dokumen yang dibandingkan menurut [21] adalah sebagai berikut: 1. Kategori Nihil (0%) Kedua dokumen tidak terindikasi plagiat karena benarbenar berbeda baik dari segi isi dan kalimat secara keseluruhan. 2. Kategori Sedikit Kesamaan (<15%) Kedua dokumen hanya mempunyai sedikit kesamaan. 3. Kategori Plagiat Sedang (15-50%) Kedua dokumen terindikasi plagiat tingkat sedang. 4. Kategori Mendekati Plagiarisme (>50%) Hasil uji menunjukkan lebih dari 50%, dapat dikatakan bahwa dokumen yang diuji mendekati tingkat plagiarisme. 5. Kategori Plagiarisme (100%) Dokumen uji dapat dipastikan murni plagiat karena dari awal dan sampai akhir isi dokumen adalah sama. V. HASIL DAN PEMBAHASAN A. Analisis Data Data yang digunakan untuk membangun aplikasi Pendeteksian Kesamaan Pada Dokumen Teks ini terdiri dari jurnal mahasiswa USU sebanyak 645 buah yang terbagi atas 35 kategori, kata dasar bahasa Indonesia yang bersumber dari KBBI online, data stopword bahasa Indonesia yang bersumber dari [22] sebanyak 758 kata. B. Analisis dibagi atas 2 proses utama, yaitu proses yang dilakukan admin dan proses yang dilakukan user. 1. Proses admin Tahapan proses yang dilakukan admin adalah sebagai berikut: a. Masukkan dokumen pdf (jurnal) sebagai data input. b. melakukan proses parsing pdf. Gambar dan tabel tidak dibaca, terkecuali teks dalam tabel. Pdf yang terkunci (secured) tidak dapat di-parsing oleh sistem.

4 c. Proses dilanjutkan dengan tahapan text preprocessing. d. Lalu sistem membagi 2 tahapan dalam sekali proses, yaitu penghapusan stopwords pada teks yang akan di-stemming dan tidak melakukan proses penghapusan stopwords pada teks tanpa stemming. e. Selanjutnya sistem melakukan proses stemming. Untuk teks tanpa stemming, teks akan diproses ke tahap berikutnya. Tahapan stemming hanya diperuntukkan untuk teks berbahasa Indonesia. Apabila di dalam pdf tersebut terdapat beberapa teks berbahasa asing, maka proses stemming tidak berlaku untuk teks tersebut. f. Setelah seluruh teks di-stemming, sistem melalukan proses pembentukan nilai hash dan fingerprint ke dalam tabel. g. Tahapan selanjutnya, admin memilih kategori dari teks pdf yang telah diproses. Lalu sistem akan melakukan penyimpanan data berupa, nilai hash dan fingerprint, teks yang telah di-stemming, dan teks tanpa stemming beserta nilai hash dan fingerprint-nya ke dalam database. 2. Proses user Tahapan proses yang dilakukan admin adalah sebagai berikut: Mulai Masukkan pdf/teks Parsing pdf Menampilkan isi pdf ke dalam textarea Pilih Kategori Text Preprocessing Pembentukan nilai hash dan fingerprint Stemming Stopwords Perlu di-stemming Gambar 1. Flowchart Proses User Menampilkan nama file, nilai kedekatan, waktu proses, file uji, dan file banding Selesai Proses stemming dilakukan sesuai dengan algoritma Enhanced Confix Stripping Stemmer. Tahapan yang dilakukan adalah sebagai berikut: 1. Sisa arraykata dari proses penghapusan stopwords dijadikan data masukan. 2. Setiap arraykata akan dicek ke, yaitu ke tabel kata dasar yang ada di database. Jika terdapat arraykata yang sama dengan kata dasar maka algoritma berhenti. Sebaliknya, jika arraykata tidak sama dengan kata dasar maka proses stemming dilanjutkan. 3. Lakukan pengecekan aturan awalan dan akhiran yang tidak diperbolehkan (Prefix Disallowed Sufixes), seperti be--i, di--an, ke--i, ke--kan, me--an, se--i, se--kan. 4. Tahapan penghapusan awalan dan akhiran terdiri dari: a. Inflection Suffixes (akhiran). Proses ini meliputi penghapusan particle (partikel) berupa -kah, -lah, -pun, -tah dan penghapusan possessive pronoun (kata ganti kepunyaan) berupa -ku, -mu, -nya. b. Derivation Suffixes (akhiran). Proses ini menghapus akhiran -an, -i, -kan. c. Derivation Prefixes (awalan). Proses ini meliputi penghapusan awalan be-, di-, ke-..., me-, pe-, se-, dan te- awalan di-, ke-, dan se- dapat langsung dihapus. Dan penghapusan awalan be-, me-, pe-, te- mengikuti aturan pada Tabel Proses penghapusan awalan dan akhiran dimulai dari penghapusan akhiran lalu awalan. 6. Setiap melakukan proses penghapusan, kata dicek ke. Jika kata yang sudah mengalami penghapusan awalan/akhiran sudah sama dengan kata dasar, maka proses stemming dihentikan. Dan sebaliknya. Proses stemming Enhanced Confix Stripping Stemmer dapat dilihat pada Gambar 2. C. Pengujian Kerja Dilakukan pengujian pada 3 jurnal yang berkategori terhadap 3 jurnal mahasiswa Prodi Teknologi Informasi dan Ilmu Komputer USU yang berkategori sama. melakukan pendeteksian dengan alur one-tomany. Maksudnya, setiap 1 jurnal yang dimasukkan oleh user akan dilakukan pengecekan nilai fingerprint terhadap setiap jurnal pembanding dari kategori yang dipilih. Hasil nilai kesamaan (similarity) tertinggi di antara beberapa jurnal yang terdapat pada kategori yang dipilih, itulah yang akan ditampilkan pada halaman hasil pendeteksian. Data uji dan pembanding dirangkum dalam Tabel 3. dan Tabel 4. Tabel 3. Daftar Uji No Judul Size (kb) 1. Analisa PSNR Pada 296 Spread Spectrum [23] 2. Kriptografi Dan 747 [24] 3. Steganography Metode Least Significant Bit (Lsb) Pada Mobile Phone Berbasis Symbian Os [25] 453 Tabel 4. Daftar Pembanding No Judul Size (kb) 1. Pesan Text Ke 534 Dalam File Sound (.Wav) Dengan Modifikasi Jarak Byte Pada Algoritma Least Significant Bit (Lsb) 2. Perancangan Perangkat Lunak 456 Audio MP3 Metode Least Significant Bit (LSB) Dengan Visual Basic End of 1051 File

5 Mulai Masukkan teks hasil penghapusan stopwords dan Akhiran Yang Tidak Diperbolehkan (be--i, di--an, ke--i, ke--kan, me--an, se- -i, se--kan) Akhiran Partikel (-kah, -lah, -pun, -tah) Akhiran Kata Ganti Kepunyaan (-ku, -mu, -nya) Akhiran (-an, -i, -kan) (di-, ke-, se-) (be-, me-, pe-, te-) mengikuti aturan pada Tabel 1. kamus data Akhiran Partikel Akhiran Kata Ganti Kepunyaan Akhiran Akhiran Teks merupakan kata dasar Selesai Tabel Kata Dasar Gambar 2. Flowchart Stemming Enhanced Confix Stripping Stemmer D. Hasil Pengujian Pengujian dilakukan dengan 2 cara. Cara ke-1 dilakukan dengan proses stemming dan cara ke-2 dilakukan dengan tanpa proses stemming. Hasil pengujian ditampilkan dengan beberapa nilai fingerprint yang sama dari proses kedua jurnal. Hasil pengujian dengan proses stemming dapat dilihat pada Tabel 5. dan hasil pengujian tanpa proses stemming dapat dilihat pada Tabel 6. Tabel 5. Hasil Pengujian Dengan Proses Stemming Uji Analisa PSNR Pada Spread Spectrum Kriptografi Dan Steganography Metode Least Significant Bit (Lsb) Pada Mobile Phone Berbasis Symbian Os Pembanding Mengguna kan Perancangan Perangkat Lunak Audio MP3 Metode Least Significant Bit (LSB) Dengan Visual Basic 6.0 Fingerprint yang sama [906, 6232] [187, 13262] [550, 1057] [2049, 11683] [2684,1895] [3617, 3172] [532, 5577] [2789, 4367] [2383, 10775] [583, 5133] [446, 3295] [1660,503] [4009, 2303] [882, 544] [2202, 11625] [1125, 5708] [3105, 0] [2773, 7809] [1646, 318] [2177, 1466] [3105, 4360] [4405, 477] [3211, 311] [328, 145] [5383, 9402] [1313, 5477] [630, 2942] [641, 1712] [2797, 1717] [3514, 1718] Kesama Lama an (%) Proses (s) ± ± ± Proses pengujian sistem berhasil dilakukan. Penggunaan waktu pada proses pendeteksian dengan stemming maupun tanpa stemming dapat dikatakan relatif, tergantung penggunaan personal computer user pada saat dijalankannya aplikasi ini. Pengkategorian tingkat kesamaan (similarity) menggunakan persentase similaritas yang dikemukakan oleh [21]. Dari percobaan pada Tabel 5. dan Tabel 6. dapat disimpulkan rata-rata pengujian menghasilkan nilai persentase kategori plagiat sedang (15-50%). Dari hasil analisis dan pengujian yang dilakukan, penulis menyimpulkan penggunaan algoritma Enhanced Confix Stripping (ECS) Stemmer pada aplikasi pendeteksian ini dapat menghasilkan tingkat kesamaan (similarity) sekitar 23-26% dengan percobaan 3 jurnal yang berkategori sama dengan

6 jurnal pembanding (database). Dan untuk pendeteksian tanpa proses stemming menghasilkan tingkat kesamaan (similarity) 35-40% dengan jumlah jurnal dan kategori yang sama pula. Uji Analisa PSNR Pada Spread Spectrum Imple mentasi Kripto grafi Dan Steganography Metode Least Significant Bit (Lsb) Pada Mobile Phone Berbasis Symbian Os Tabel 6. Hasil Pengujian Tanpa Proses Stemming Pembanding Perancangan Perangkat Lunak Audio MP3 Metode Least Significant Bit (LSB) Dengan Visual Basic 6.0 Fingerprint yang sama [2083, 19135] [906, 350] [187, 4960] [677, 1494] [550, 1595] [2684, 5977] [3617, 5657] [3140, 14386] [532, 20835] [862, 1221] [3105, 41] [103, 13765] [4020, 11567] [4036, 11548] [696, 8252] [1091, 95] [6146, 100] [2048, 101] [1757, 14318] [325, 250] [3105, 3534] [3211, 1117] [328, 17081] [5383, 17086] [1245, 14338] [1134, 671] [1687, 676] [2037, 681] [2080, 3725] [641, 3339] VI. KESIMPULAN Kesama an (%) Lama Proses (s) ± ± ± A. Kesimpulan Berdasarkan hasil penelitian yang dilakukan dapat disimpulkan bahwa: 1. dapat melakukan pendeteksian pada dokumen teks dengan format pdf (nonsecured). 2. dapat melakukan pendeteksian pada teks berbahasa Indonesia. Apabila dalam suatu dokumen terdapat teks berbahasa asing, maka pada teks tersebut tidak dilakukan proses stemming. 3. melakukan pendeteksian dengan alur one-to-many, dengan arti satu dokumen teks dideteksi terhadap banyak dokumen (database). Untuk memudahkan sistem melakukan pendeteksian, data pembanding (database) dikelompokkan dalam beberapa kategori. 4. Penggunaan algoritma Enhanced Confix Stripping (ECS) Stemmer dapat menghasilkan nilai kesamaan (similarity) sekitar 23-26% dengan percobaan 3 buah jurnal yang berkategori sama dengan jurnal pembanding. Dan untuk pendeteksian tanpa stemming menghasilkan tingkat kesamaan (similarity) 35-40% dengan jumlah jurnal dan kategori yang sama pula. B. Saran Untuk penelitian selanjutnya disarankan: 1. pendeteksian dapat dilakukan untuk beberapa opsi dokumen teks lainnya dengan metode parsing yang lebih baik. 2. Penelitian selanjutnya dilakukan dengan metode lain yang memungkinkan penggunaan waktu yang lebih minim dan menampilkan highlight kalimat/paragraf yang sama. DAFTAR PUSTAKA [1] Sonneborn, L Frequently Asked Questions About Plagiarism. The Rosen Publishing Group, Inc.: New York (google-books) [2] Thompsett, A., Ahluwalia, J Students Turned Off by Turnitin? Perception of Plagiarism and Collusion by Undergraduate Bioscience Students. School of Health and Biosciences, University of East London. Volume 16: December [3] Purwitasari, D. Kusmawan, P.Y., Yuhana, U.L Deteksi Keberadaan Kalimat Sama Sebagai Indikasi Penjiplakan Dengan Algoritma Hashing Berbasis N- Gram. Kursor Menuju Solusi Teknologi Informasi 6(1): [4] Alfarisi Analisis Dan Perancangan Pendeteksi Kesamaan Dokumen Teks Metode Latent Semantic Analysis. Skripsi. Universitas Sumatera Utara. [5] Novanta, A Pendeteksian Plagiarisme Pada Dokumenn Teks Dengan Algoritma Smith-Waterman. Skripsi. Universitas Sumatera Utara. [6] Purwitasari, D. Kusmawan, P.Y., Yuhana, U.L Deteksi Keberadaan Kalimat Sama Sebagai Indikasi Penjiplakan Dengan Algoritma Hashing Berbasis N- Gram. Kursor Menuju Solusi Teknologi Informasi 6(1): [7] Nugroho, E Perancangan Deteksi Plagiarisme Dokumen Teks Dengan Algoritma Rabin-Karp. Skripsi. Universitas Brawijaya. [8] Salmuasih Perancangan Deteksi Plagiat Pada Dokumen Teks Dengan Konsep Similarity Algoritma Rabin Karp. Skripsi. Sekolah Tinggi Manajemen Informatika Dan Komputer Amikom Yogyakarta. [9] Mahendra, I P. A. K., Arifin, A. Z., & Ciptaningtyas, H. T Enhanced Confix Stripping Stemmer And Ants Algorithm For Classifying News Document In Indonesian Language. International Conference on Information & Communication Technology and System (ICTS) ISSN :

7 [10] Lancaster, T Effective and Efficient Plagiarism Detection. Thesis. School of Computing, Information Systems and Mathematics. South Bank University. [11] Lako, A Plagiarisme Akademik. Harian Jawa Pos Radar Semarang, 25 Juni 2012: 0PLAGIARISME%20AKADEMIK1.pdf [12] Purwaningsih, E Perkembangan Hukum Intellectual Property Rights: Kajian Hukum Terhadap Hak Atas Kekayaan Intelektual dan Kajian Komparatif Hukum Paten. Ghalia Indonesia. [13] Plagiarism.org (Online) (6 Desember 2013). [14] Peng, F., Ahmed, N., Li, X., & Lu, Y Context Sensitive Stemming for Web Search. Domain Specific NLP. Sunnyvale, California. [15] Tahitoe, A. D. & Purwitasari, D Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia Dengan Metode Corpus Based Stemming. [16] Schleimer, S., Wilkerson, D., & Aiken, A Winnowing: Local Algorithms for Document Printing. Proceedings of the ACM SIGMOD International Conference on Management of Data, pp [17] Aziz, I. W., Hermawan, & Cahyani, A. D Pengembangan Mesin Pencarian Antiplagiasi Pada SIM Mahasiswa Algoritma Winnowing Fuzzy K-Means. Sarjana Informatika. 1(1): [18] Ellard, D The Rabin-Karp Algorithm. (Online) 97/HTML/root/node43.html (16 Desember 2013) [19] Cormen, T. H., Leiserson, C. E., Rivest, R. L., & Stein, C Introduction to Algorithms 3 rd Ed. The MIT Press: United States of America. [20] Taufik, D. A Pengukuran Tingkat Similaritas Dokumen. Skripsi. Universitas Komputer Indonesia. [21] Mutiara, A.B., Agustina, S Anti Plagiarism Application with Algorithm Karp-Rabin. Thesis. Gunadarma University. Depok, Indonesia. [22] Tala, F. Z. A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia. Netherland, Universiteit van Amsterdam, (27 Januari 2014). [23] Pratiarso, A., Yuliana, M., Hadi, M.Z.S., & H, F.B., & W. B Analisa PSNR Pada Spread Spectrum. The 14 th Industrial Electronics Seminar 2012 (IES 2012). Communication and Network Systems, Technologies and Applications pp [24] Firmansyah, R., Suadi, W., M.M Kriptografi Dan Pada Media Gambar Dengan Metode Des Dan Region-Embed Data Density. Paper Tugas Akhir Periode Juli Pp.1-7. [25] Prasetia, D., Steganography Metode Least Significant Bit (Lsb) Pada Mobile Phone Berbasis Symbian Os.