Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

Transkripsi

1 Vol. 4, No. 1, Tahun Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : pustaka@pcr.ac.id Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Fenny Changriana 1, Syefrida Yulina 2 dan Kartina Diah Kesuma Wardhani 3 1 Program Studi Sistem Informasi, Politeknik Caltex Riau, fenny11si@mahasiswa.pcr.ac.id 2 Program Studi Teknik Informatika, Politeknik Caltex Riau, syefrida@pcr.ac.id 3 Program Studi Teknik Informatika, Politeknik Caltex Riau, diah@pcr.ac.id Abstrak Karya ilmiah merupakan hasil dari pemikiran peneliti. Akan tetapi, suatu karya ilmiah yang bukan merupakan ide asli dari pemikiran peneliti dianggap plagiarisme, yaitu tindakan yang menjiplak karya seseorang dimana karya tersebut diakui sebagai karya sendiri. Oleh karena itu, perlu adanya pembangunan suatu sistem yang dapat mendeteksi kemiripan pada Proyek Akhir (PA), khususnya abstrak yang merupakan uraian ringkas, cermat, dan menyeluruh dari isi suatu karangan ilmiah. Penelitian ini menggunakan Vector Space Model dengan algoritma Term Frequency Inverse Document Frequency (TF-IDF) untuk pembobotan kata dan cosine similarity untuk melakukan perhitungan kemiripan antar dokumen abstrak jurnal yang dibandingkan. Hasil pengujian menunjukkan Vector Space Model dengan representasi cosine similarity dapat digunakan untuk mendeteksi kemiripan abstrak jurnal PA dengan fungsionalitas sistem pada aplikasi yang dapat dipenuhi sebesar 100%, hasil pengujian keluaran sistem dengan manual mendapatkan nilai akurasi sebesar 86,76%, dapat mengambil abstrak jurnal dengan nilai akurasi 68%, dan preprocessing menggunakan Porter Stemmer mendapatkan nilai akurasi sebesar 96,55%. Kata kunci: Abstrak PA, Vector Space Model, TF-IDF, Cosine Similarity Abstract A scientific paper is the result from researcher thoughts. However, a scientific paper which isn t an original idea from researcher thoughts is considered plagiarism, i.e. the act of plagiarizing the work of a person where the work is recognized as the work itself. Therefore, we need to develop a system that can detect a resemblance of a Final Project (PA) at the Polytechnic Caltex Riau (PCR), especially abstract which is a brief, careful, and thorough description of the contents in a scientific essay. This study uses a Vector Space Model with Term Frequency Inverse Document Frequency (TF-IDF) algorithm for word weighting and cosine similarity to perform a similarity calculation between the compared documents of journal abstracts. The test results shows that the PA abstract similarity checking system using Vector Space Model with

2 Vol. 4, No. 1, Tahun TF-IDF and cosine similarity algorithms can be used to detect similarities of PA abstract journal with system functionality in application that can be fulfilled by 100% and the system is able to check the similarities in abstract so it can minimize the possibility of PA plagiarism with an accuracy of 93.33%. Keywords: PA Abstract, Vector Space Model, TF-IDF, Cosine Similarity 1. Pendahuluan Menulis suatu karya ilmiah merupakan bagian yang tidak dapat dipisahkan dari kehidupan akademik seorang mahasiswa [9]. Menurut Soeparno, karya ilmiah adalah sebuah tulisan yang berisi suatu permasalahan yang diungkapkan dengan metode ilmiah [5]. Dalam karya ilmiah, kita tentunya sudah tidak asing lagi mendengar kata abstrak. Surachman berpendapat bahwa abstrak adalah pemadatan dari sebuah karya seperti laporan penelitian, artikel majalah atau jurnal, prosiding, dan lain-lain. Abstrak biasanya dikumpulkan sesuai dengan subjek atau kekhususan informasinya dan disusun menurut abjad [7]. Dengan berkembangnya teknologi yang digunakan saat ini, perolehan informasi menjadi sangat mudah sehingga menyebabkan banyak mahasiswa yang mengambil jalan pintas dalam membuat karya ilmiah dengan cara menyalin sebagian atau keseluruhan karya ilmiah dari orang lain tanpa mencantumkan sumbernya. Hal ini disebut plagiarisme. Menurut kamus Merriam-Webster, kata plagiarisme berasal dari kata kerja transitif yaitu to plagiarize yang berarti to steal and pass off (the ideas or words of another) as one s own; use (another s production) without crediting the source [4]. Studi mengatakan bahwa 70% mahasiswa melakukan pekerjaannya menggunakan plagiarisme dan 40% mahasiswa hanya melakukan copy paste pekerjaan yang diberikan [3]. Hal ini menyebabkan mahasiswa menjadi lebih nyaman dalam melakukan plagiarisme. Sehubungan dengan masalah tersebut, maka diperlukan sebuah sistem untuk melakukan pemeriksaan terhadap karya ilmiah, khususnya pada abstrak. Oleh karena itu, dibangunlah sebuah web yang mengimplementasikan algoritma TF-IDF dan Vector Space Model untuk mendeteksi kemiripan abstrak PA. 2. Landasan Teori 2.1 Proyek akhir Proyek Akhir merupakan kristalisasi ide atau buah pikiran yang dilakukan dengan menerapkan pengetahuan yang telah dipelajari selama di politeknik sehingga terbangun identitas dan kepercayaan diri yang profesional di bidangnya. 2.2 Document Preprocessing Koleksi dokumen diproses terlebih dahulu sebelum digunakan dalam program. Proses ini disebut document preprocessing. Document preprocessing bertujuan untuk mengurangi volume kosakata, menyeragamkan kata dan menghilangkan noise [1]. Proses document preprocessing terdiri dari: 1. Case Folding adalah pengubahan semua huruf dalam dokumen menjadi huruf kecil. Karakter selain huruf dihilangkan dan dianggap delimiter [10]. 2. Tokenizing Tokenizing adalah pemisahan teks menjadi kalimat dan kata-kata. Dokumen dapat dipecah menjadi per bab, per bagian, per paragraf, per kalimat, per kata, dan bahkan per suku kata [10]. 3. Filtering Filtering adalah pengambilan katakata penting dari hasil tokenizing. Pada tahapan filtering akan dilakukan penghapusan stopwords.

3 Vol. 4, No. 1, Tahun Stopwords dapat berupa kata depan, kata penghubung, dan kata pengganti [1]. 4. Stemming Stemming merupakan suatu proses yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata dasarnya dengan menggunakan aturan-aturan tertentu [10]. Stemming ini menggunakan Porter Stemmer for Bahasa Indonesia dikembangkan oleh Fadillah Z. Tala yang didasarkan pada English Porter Stemmer yang dikembangkan oleh W.B. Frakes [8]. 2.3 Vector Space Model Vector Space Model (VSM) adalah suatu metode untuk melihat tingkat kedekatan yang kemiripan (similarity) term dengan cara melakukan pembobotan term. Yates menyatakan bahwa dokumen dan kata kunci dipandang sebagai sebuah vektor yang memiliki jarak dan arah. Relevansi sebuah dokumen ke sebuah query didasarkan pada similaritas diantara vektor dokumen dan vektor query. Pada Vector Space Model, setiap dokumen dan kata kunci dari pengguna direpresentasikan sebagai ruang vektor berdimensi n. Kata kunci dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi. Selanjutnya akan dihitung nilai cosinus sudut dari dua vektor, yaitu W (bobot) dari tiap dokumen dan W0 dari kata kunci. Penentuan relevansi dokumen dengan kata kunci dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor kata kunci. Semakin mirip suatu vektor dokumen dengan vektor kata kunci maka dokumen dapat dilihat sangat relevan dengan kata kunci [1]. 2.4 TF-IDF (Term Frequency Inversed Document Frequency) TF-IDF adalah suatu algoritma yang menggambarkan seberapa pentingnya kata (term) dalam sebuah dokumen dan corpus. Proses ini digunakan untuk menilai bobot relevansi term dari sebuah dokumen terhadap seluruh dokumen dalam corpus [6]. Formula yang digunakan untuk menghitung bobot (w) masing-masing dokumen terhadap kata kunci adalah [2]: Rumus : (1) Ket : d = dokumen ke-d t = kata ke-t dari kata kunci w = bobot dokumen ke-d terhadap kata ke-t Rumus mencari nilai IDF : (2) Setelah bobot (w) masing-masing dokumen diketahui, maka dilakukan proses sorting atau pengurutan dimana semakin besar nilai w, maka besar tingkat similaritas dokumen tersebut terhadap kata yang dicari, demikian sebaliknya [2]. 2.5 Cosine Similarity Cosine Similarity adalah metode similaritas yang digunakan untuk menghitung similaritas dua buah dokumen. Berikut rumus metode perhitungan cosine similarity [2]: (3) Ket : A = bobot TF-IDF dari kata kunci B = bobot TF-IDF dari dokumen = penjumlahan TF-IDF dari kata kunci = penjumlahan TF-IDF dari dokumen

4 Vol. 4, No. 1, Tahun Berdasarkan rumus di atas, rumus cosine similarity dapat diuraikan menjadi sebagai berikut: 1. Rumus perhitungan panjang vektor: 2. Rumus dot product: (4) (5) 3. Metodologi Penelitian 3.1 Use Case Diagram Berikut ini perancangan use case diagram pada sistem ini: Gambar 2 Halaman beranda 2. Halaman data jurnal Halaman ini merupakan halaman yang digunakan untuk menambah data jurnal terdahulu. Gambar 1 Use Case Diagram 4. Hasil dan Pembasan 4.1 Hasil Implementasi Berikut ini adalah hasil implementasi antar muka sistem yang ada pada aplikasi yang telah dibuat: 1. Halaman beranda Halaman ini merupakan halaman beranda utama pada web. Halaman ini memiliki beberapa menu, seperti Beranda, Pendeteksi Kemiripan, Data Jurnal, dan Tentang Kami. Gambar 3 Halaman tambah data jurnal 3. Halaman pendeteksi kemiripan Halaman ini adalah halaman dimana user dapat memasukkan jurnal yang diinginkan untuk dicari persentase kemiripannya dengan jurnal terdahulu.

5 Vol. 4, No. 1, Tahun Gambar 4 Halaman pendeteksi kemiripan 4. Halaman tentang kami Halaman ini berisi tentang profil pembuat aplikasi. jurnal yang dimasukkan bukan format jurnal PCR, menambah jurnal yang sama, dan berhasil menambah jurnal. Pada lihat persentase kemiripan abstrak PA, ada 5 kondisi yang diuji, yaitu data masukan tidak lengkap, data yang dimasukkan bukan berformat.pdf, jurnal yang dimasukkan bukan format jurnal PCR, mencari nilai kemiripan, dan simpan jurnal yang telah dideteksi di database. Pada simpan abstrak jurnal ke database, ada 3 kondisi yang diuji, yaitu berhasil menyimpan abstrak di database, tidak memasukkan abstrak di database, dan abstrak jurnal yang dideteksi sudah ada di database. Dari 13 kondisi dengan 4 fungsionalitas yang diuji dapat dilihat bahwa hasil pengujian berhasil dilakukan dengan persentase 100% Pengujian Perhitungan Keluaran Sistem dengan Perhitungan Manual Pengujian ini dilakukan untuk melihat apakah perhitungan algoritma pada sistem sudah sesuai dengan perhitungan algoritma manual. Pengujian ini dilakukan dengan cara membandingkan 10 jurnal uji tahun 2012, 10 jurnal uji tahun 2013, dan 10 jurnal uji 55 tahun 2014 dengan 70 jurnal yang telah di-preprocessing pada database. Gambar 5 Halaman tentang kami 4.2 Pengujian sistem Pengujian Black Box Testing Pengujian black box testing dilakukan pada 4 fungsionalitas use case, yaitu tambah data jurnal terdahulu, lihat persentase kemiripan abstrak PA, simpan abstrak jurnal ke database, dan melihat halaman tentang kami. Pada tambah data jurnal terdahulu, ada 5 kondisi yang diuji, yaitu data masukan tidak lengkap, data yang dimasukkan bukan berformat.pdf, Proses pengujian ini dilakukan dengan melakukan preprocessing pada 30 jurnal uji dan 70 jurnal yang ada di database sistem secara manual. Kemudian, hasil preprocessing dari 30 jurnal uji dan 70 jurnal yang ada di database tersebut dihitung dengan algoritma TF-IDF untuk pencarian bobot. Setelah bobot diketahui, bobot tersebut akan dihitung panjang vektor, dihitung dot product-nya, dan dihitung kemiripannya dengan cosine similarity dan diurutkan 3 yang paling besar kemiripannya. Setelah dihitung secara manual, kita akan membandingkan hasil perhitungan manual dengan sistem untuk dilihat statusnya apakah Benar atau Salah. Jika berstatus Benar, maka hasil manual dengan hasil sistem sama. Jika berstatus

6 Vol. 4, No. 1, Tahun Salah, maka hasil manual dengan hasil sistem berbeda Pengujian Pengambilan Abstrak Jurnal Pada penelitian ini dari 147 file.pdf yang diuji didapatkan 100 file.pdf yang berhasil, sedangkan 47 file lainnya gagal diidentifikasi. Untuk menentukan nilai akurasi, akurasi dihitung dengan jumlah data yang benar dibagi jumlah seluruh data dikali dengan 100%. Oleh karena itu, nilai akurasi yang didapat adalah: persentase kemiripan abstrak PA, simp-an abstrak jurnal ke database, dan melihat halaman tentang kami sesuai dengan yang tertera pada use case diagram. Dari test case yang telah diuji, maka black box testing dapat dikatakan berhasil karena dari 4 test case yang diuji tidak ada test case yang tidak berhasil dilakukan sehingga memiiki persentase 100% Analisis Perhitungan Keluaran Sistem dengan Perhitungan Manual Pengujian Preprocessing pada Proses Stemming Pengujian ini dilakukan untuk melihat apakah proses stemming pada sistem dan manual berjalan dengan benar. Proses stemming yang digunakan adalah Porter Stemmer untuk Bahasa Indonesia. Pengujian ini dilakukan dengan membandingkan hasil stemming manual dengan hasil stemming sistem. Pengujian ini dilakukan pada 1 jurnal yang telah diambil abstraknya. Hasil manual dihitung berdasarkan aturan Porter Stemmer untuk Bahasa Indonesia. Setelah itu, hasil manual akan dibandingkan dengan hasil sistem untuk ditentukan statusnya apakah Sesuai atau Tidak. Jika berstatus Sesuai, maka hasil manual dengan hasil sistem sama. Jika berstatus Tidak Sesuai, maka hasil manual dengan hasil sistem berbeda. Pada pengujian ini terdapat 1 kondisi dari 5 aturan stemming yang salah. Nilai akurasi yang didapat adalah 97,37% dari kata yang diuji. 4.3 Analisis Sistem Analisis Black Box Testing Pengujian black box testing dilakukan dengan menguji 4 test case yang tersedia. Test case tersebut ada 4, yaitu tambah data jurnal terdahulu, lihat hasil Dari hasil pengujian didapatkan nilai akurasi sebesar 93,33% dan dari 30 data yang diuji terdapat 2 data yang memiliki hasil perhitungan yang berbeda antara hasil keluaran sistem dengan manual. Penyebab 2 data tersebut mempunyai hasil yang berbeda karena adanya error pada kata-kata yang terdapat di jurnal yang diuji, seperti kesalahan dalam penulisan kata dan ada kata yang tergabung. Penulisan kata dalam abstrak jurnal yang asli berpengaruh pada perhitungan nilai TF-IDF karena kata yang seharusnya berjumlah dua menjadi satu di tabel term. Meskipun demikian, sistem yang dibuat ini hanyalah berupa decision support untuk memberikan informasi kepada user berupa persentase kemiripan. Keputusan terakhir tetap user yang menentukan Analisis Pengambilan Abstrak dari Jurnal Berdasarkan pengujian pengambilan abstrak dapat kita lihat bahwa sistem berhasil mengambil abstrak jurnal pada Gambar 4.5 dengan benar. Dari 147 file.pdf yang diuji, didapatkan 100 file.pdf yang berhasil dan 47 file lainnya gagal diidentifikasi dan nilai akurasi yang didapat sebesar 68%. Penyebab 47 file tersebut gagal teridentifikasi karena penulisan yang salah pada kata Abstrak, tidak ada tulisan Abstrak yang ditemui, format jurnal bukan format jurnal Politeknik Caltex Riau, penulisan kata Abstrak dan Abstract yang memakai huruf capital semua, abstrak yang tidak mempunyai kata kunci, abstrak

7 Vol. 4, No. 1, Tahun yang tidak mempunyai kata kunci dan kata Abstract, dan penulisan yang salah pada kata Kata kunci. Penulisan kata Abstrak, Kata kunci, dan Abstract yang benar mempengaruhi pengambilan abstrak karena bagian abstrak yang diambil adalah bagian setelah kata Abstrak dan sebelum kata Kata atau Abstract Analisis Preprocessing pada Proses Stemming Pada pengujian preprocessing dapat dilihat bahwa nilai akurasi yang didapat adalah 97,37% dari kata yang diuji berdasarkan aturan dari Porter Stemmer terdapat 1 kondisi yang berbeda antara hasil yang diharapkan dan hasil aktual. Penyebab 1 kondisi tersebut berbeda hasil karena adanya ambiguitas dalam aturan morfologi Bahasa Indonesia dan algoritma ini berbasis aturan sehingga dapat mempengaruhi akurasi hasil akhir. 3. Penulisan kata yang baik dapat mempengaruhi hasil TF-IDF dan cosine similarity. 4. Porter Stemmer untuk Bahasa Indonesia dapat menghasilkan kata yang ambigu dan tidak sesuai dengan aturan morfologi Bahasa Indonesia. 5.2 Saran Untuk pengembangan aplikasi ini, maka beberapa hal yang dapat penulis sarankan adalah: 1. Pengembangan integrasi dengan sistem informasi proyek akhir yang ada. 2. Pengembangan pendeteksian seluruh jurnal dengan format berbeda, seperti jurnal AES, ABEC, dan lain-lain. 5. Kesimpulan dan Saran 5.1 Kesimpulan Setelah dilakukan pengujian beserta analisa pada penelitian ini, maka dapat diambil kesimpulan yaitu: 1. Sistem pengecekan kemiripan abstrak PA yang menggunakan Vector Space Model dengan algoritma TF-IDF untuk pembobotan kata dan cosine similarity untuk pengecekan kemiripan dapat digunakan untuk mendeteksi kemiripan abstrak jurnal PA dengan fungsionalitas sistem pada aplikasi yang dapat dipenuhi sebesar 100%. 2. Berdasarkan pengujian hasil keluaran sistem dan manual, sistem dapat melakukan pengecekan kemiripan pada abstrak sehingga dapat memperkecil kemungkinan Daftar Pustaka [1] Annisa, N, Implementasi Algoritma Vector Space Model pada Pencarian E-book, Sistem Informasi, Politeknik Caltex Riau, Rumbai, [2] Damanik, R. M. U., Pembangunan Aplikasi Pencarian Dokumen Menggunakan Text Mining Berbasis Web, Teknik Informatika, Universitas Atma Jaya Yogyakarta, Yogyakarta, [3] Hariharan, S., Automatic Plagiarism Detection Using Similarity Analysis. The International Arab Journal of Information Technology, , [4] Herqutanto, Plagiarisme, Runtuhnya Tembok Kejujuran Akademik, ejurnal Kedokteran Indonesia, 1-3, [5] Mukhlish, Pedoman Penulisan Karya Ilmiah (Laporan Penelitian), terjadinya plagiarisme PA.

8 Vol. 4, No. 1, Tahun Dinas Pendidikan, Pemuda, dan Olahraga, [6] Saadah, M. N., Sistem Temu Kembali Dokumen Teks Dengan Pembobotan TF-IDF dan LCS, JUTI, 17-20, [7] Surachman, A., Penelusuran Informasi: sebuah pengenalan, UPU Perpustakaan UGM s.com/2012/09/penelusuran_informas i.docx, (2015, Februari 3). [8] Tala, F. Z., A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia, Institute for Logic, Language and Computation Universiteit Van Amsterdam, Amsterdam, [9] Universitas Pendidikan Indonesia, Pedoman Penulisan Karya Ilmiah Universitas Pendidikan Indonesia Tahun 2014, Universitas Pendidikan Indonesia, [10] Yuliana, Sistem Pengelolaan Proyek Akhir Menggunakan Text Mining pada Politeknik Caltex Riau, Sistem Informasi, Politeknik Caltex Riau, Rumbai, 2014.