Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

dokumen-dokumen yang mirip
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB I PENDAHULUAN 1.1 Latar Belakang

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB II TINJAUAN PUSTAKA

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Politeknik Caltex Riau

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

1.5 Metode Penelitian

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

SKRIPSI. Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata Satu Program Studi Informatika

BAB III METODOLOGI PENELITIAN

Sistem Deteksi Plagiarisme Dokumen Bahasa Indonesia Menggunakan Metode Vector Space Model

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB II LANDASAN TEORI

BAB I PENDAHULUAN Latar Belakang

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II TINJAUAN PUSTAKA

BAB 3 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

BAB I PENDAHULUAN 1.1 Latar Belakang

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

BAB II LANDASAN TEORI

Identifikasi Plagiasi Karya Ilmiah berbasis Temu Kembali Informasi Menggunakan Algoritam Edit Distance Melalui Peringkasan Teks Otomatis

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

Identifikasi Plagiasi Karya Ilmiah berbasis Temu Kembali Informasi Menggunakan Algoritam Edit Distance Melalui Peringkasan Teks Otomatis

BAB IV ANALISA DAN PERANCANGAN

BAB 2 TINJAUAN PUSTAKA

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB 1 PENDAHULUAN UKDW

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

BAB II LANDASAN TEORI

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

BAB III METODOLOGI PENELITIAN

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

ANALISIS PENGUKURAN SELF PLAGIARISM MENGGUNAKAN ALGORITMA RABIN-KARP DAN JARO-WINKLER DISTANCE DENGAN STEMMING TALA

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

commit to user BAB II TINJAUAN PUSTAKA

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

BAB III ANALISIS DAN PERANCANGAN

BAB III METODOLOGI PENELITIAN

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

BAB I PENDAHULUAN 1.1. Latar Belakang

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

Perbandingan Penggunaan Algoritma Cosinus dan Wu Palmer untuk Mencari Kemiripan Kata dalam Plagiarism Checker

BAB 1 PENDAHULUAN UKDW

BAB III METODELOGI PENELITIAN

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

APLIKASI DETEKSI KEMIRIPAN TUGAS PAPER

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

INFORMATION RETRIEVAL DOKUMEN TESIS UNTUK MENGETAHUI KEMIRIPANNYA DENGAN PENELITIAN YANG TELAH ADA

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP

ROCCHIO CLASSIFICATION

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI ALGORITMA VECTOR SPACE MODEL DALAM PENCARIAN E-BOOK

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Penerapan Algoritma Jaro-Winkler Distance untuk Sistem Pendeteksi Plagiarisme pada Dokumen Teks Berbahasa Indonesia

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

SISTEM PENILAIAN OTOMATIS JAWABAN ESAI PADA ELEARNING BELAJARDISINI.COM

UKDW. Bab 1 PENDAHULUAN

BAB II LANDASAN TEORI

SISTEM TEMU KEMBALI INFORMASI

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME

BAB I PERSYARATAN PRODUK

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+

Transkripsi:

Vol. 4, No. 1, Tahun 2015 61 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : https://jurnal.pcr.ac.id/index.php/jakt/about Email : pustaka@pcr.ac.id Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Fenny Changriana 1, Syefrida Yulina 2 dan Kartina Diah Kesuma Wardhani 3 1 Program Studi Sistem Informasi, Politeknik Caltex Riau, email: fenny11si@mahasiswa.pcr.ac.id 2 Program Studi Teknik Informatika, Politeknik Caltex Riau, email:syefrida@pcr.ac.id 3 Program Studi Teknik Informatika, Politeknik Caltex Riau, email: diah@pcr.ac.id Abstrak Karya ilmiah merupakan hasil dari pemikiran peneliti. Akan tetapi, suatu karya ilmiah yang bukan merupakan ide asli dari pemikiran peneliti dianggap plagiarisme, yaitu tindakan yang menjiplak karya seseorang dimana karya tersebut diakui sebagai karya sendiri. Oleh karena itu, perlu adanya pembangunan suatu sistem yang dapat mendeteksi kemiripan pada Proyek Akhir (PA), khususnya abstrak yang merupakan uraian ringkas, cermat, dan menyeluruh dari isi suatu karangan ilmiah. Penelitian ini menggunakan Vector Space Model dengan algoritma Term Frequency Inverse Document Frequency (TF-IDF) untuk pembobotan kata dan cosine similarity untuk melakukan perhitungan kemiripan antar dokumen abstrak jurnal yang dibandingkan. Hasil pengujian menunjukkan Vector Space Model dengan representasi cosine similarity dapat digunakan untuk mendeteksi kemiripan abstrak jurnal PA dengan fungsionalitas sistem pada aplikasi yang dapat dipenuhi sebesar 100%, hasil pengujian keluaran sistem dengan manual mendapatkan nilai akurasi sebesar 86,76%, dapat mengambil abstrak jurnal dengan nilai akurasi 68%, dan preprocessing menggunakan Porter Stemmer mendapatkan nilai akurasi sebesar 96,55%. Kata kunci: Abstrak PA, Vector Space Model, TF-IDF, Cosine Similarity Abstract A scientific paper is the result from researcher thoughts. However, a scientific paper which isn t an original idea from researcher thoughts is considered plagiarism, i.e. the act of plagiarizing the work of a person where the work is recognized as the work itself. Therefore, we need to develop a system that can detect a resemblance of a Final Project (PA) at the Polytechnic Caltex Riau (PCR), especially abstract which is a brief, careful, and thorough description of the contents in a scientific essay. This study uses a Vector Space Model with Term Frequency Inverse Document Frequency (TF-IDF) algorithm for word weighting and cosine similarity to perform a similarity calculation between the compared documents of journal abstracts. The test results shows that the PA abstract similarity checking system using Vector Space Model with

Vol. 4, No. 1, Tahun 2015 62 TF-IDF and cosine similarity algorithms can be used to detect similarities of PA abstract journal with system functionality in application that can be fulfilled by 100% and the system is able to check the similarities in abstract so it can minimize the possibility of PA plagiarism with an accuracy of 93.33%. Keywords: PA Abstract, Vector Space Model, TF-IDF, Cosine Similarity 1. Pendahuluan Menulis suatu karya ilmiah merupakan bagian yang tidak dapat dipisahkan dari kehidupan akademik seorang mahasiswa [9]. Menurut Soeparno, karya ilmiah adalah sebuah tulisan yang berisi suatu permasalahan yang diungkapkan dengan metode ilmiah [5]. Dalam karya ilmiah, kita tentunya sudah tidak asing lagi mendengar kata abstrak. Surachman berpendapat bahwa abstrak adalah pemadatan dari sebuah karya seperti laporan penelitian, artikel majalah atau jurnal, prosiding, dan lain-lain. Abstrak biasanya dikumpulkan sesuai dengan subjek atau kekhususan informasinya dan disusun menurut abjad [7]. Dengan berkembangnya teknologi yang digunakan saat ini, perolehan informasi menjadi sangat mudah sehingga menyebabkan banyak mahasiswa yang mengambil jalan pintas dalam membuat karya ilmiah dengan cara menyalin sebagian atau keseluruhan karya ilmiah dari orang lain tanpa mencantumkan sumbernya. Hal ini disebut plagiarisme. Menurut kamus Merriam-Webster, kata plagiarisme berasal dari kata kerja transitif yaitu to plagiarize yang berarti to steal and pass off (the ideas or words of another) as one s own; use (another s production) without crediting the source [4]. Studi mengatakan bahwa 70% mahasiswa melakukan pekerjaannya menggunakan plagiarisme dan 40% mahasiswa hanya melakukan copy paste pekerjaan yang diberikan [3]. Hal ini menyebabkan mahasiswa menjadi lebih nyaman dalam melakukan plagiarisme. Sehubungan dengan masalah tersebut, maka diperlukan sebuah sistem untuk melakukan pemeriksaan terhadap karya ilmiah, khususnya pada abstrak. Oleh karena itu, dibangunlah sebuah web yang mengimplementasikan algoritma TF-IDF dan Vector Space Model untuk mendeteksi kemiripan abstrak PA. 2. Landasan Teori 2.1 Proyek akhir Proyek Akhir merupakan kristalisasi ide atau buah pikiran yang dilakukan dengan menerapkan pengetahuan yang telah dipelajari selama di politeknik sehingga terbangun identitas dan kepercayaan diri yang profesional di bidangnya. 2.2 Document Preprocessing Koleksi dokumen diproses terlebih dahulu sebelum digunakan dalam program. Proses ini disebut document preprocessing. Document preprocessing bertujuan untuk mengurangi volume kosakata, menyeragamkan kata dan menghilangkan noise [1]. Proses document preprocessing terdiri dari: 1. Case Folding adalah pengubahan semua huruf dalam dokumen menjadi huruf kecil. Karakter selain huruf dihilangkan dan dianggap delimiter [10]. 2. Tokenizing Tokenizing adalah pemisahan teks menjadi kalimat dan kata-kata. Dokumen dapat dipecah menjadi per bab, per bagian, per paragraf, per kalimat, per kata, dan bahkan per suku kata [10]. 3. Filtering Filtering adalah pengambilan katakata penting dari hasil tokenizing. Pada tahapan filtering akan dilakukan penghapusan stopwords.

Vol. 4, No. 1, Tahun 2015 63 Stopwords dapat berupa kata depan, kata penghubung, dan kata pengganti [1]. 4. Stemming Stemming merupakan suatu proses yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata dasarnya dengan menggunakan aturan-aturan tertentu [10]. Stemming ini menggunakan Porter Stemmer for Bahasa Indonesia dikembangkan oleh Fadillah Z. Tala yang didasarkan pada English Porter Stemmer yang dikembangkan oleh W.B. Frakes [8]. 2.3 Vector Space Model Vector Space Model (VSM) adalah suatu metode untuk melihat tingkat kedekatan yang kemiripan (similarity) term dengan cara melakukan pembobotan term. Yates menyatakan bahwa dokumen dan kata kunci dipandang sebagai sebuah vektor yang memiliki jarak dan arah. Relevansi sebuah dokumen ke sebuah query didasarkan pada similaritas diantara vektor dokumen dan vektor query. Pada Vector Space Model, setiap dokumen dan kata kunci dari pengguna direpresentasikan sebagai ruang vektor berdimensi n. Kata kunci dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi. Selanjutnya akan dihitung nilai cosinus sudut dari dua vektor, yaitu W (bobot) dari tiap dokumen dan W0 dari kata kunci. Penentuan relevansi dokumen dengan kata kunci dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor kata kunci. Semakin mirip suatu vektor dokumen dengan vektor kata kunci maka dokumen dapat dilihat sangat relevan dengan kata kunci [1]. 2.4 TF-IDF (Term Frequency Inversed Document Frequency) TF-IDF adalah suatu algoritma yang menggambarkan seberapa pentingnya kata (term) dalam sebuah dokumen dan corpus. Proses ini digunakan untuk menilai bobot relevansi term dari sebuah dokumen terhadap seluruh dokumen dalam corpus [6]. Formula yang digunakan untuk menghitung bobot (w) masing-masing dokumen terhadap kata kunci adalah [2]: Rumus : (1) Ket : d = dokumen ke-d t = kata ke-t dari kata kunci w = bobot dokumen ke-d terhadap kata ke-t Rumus mencari nilai IDF : (2) Setelah bobot (w) masing-masing dokumen diketahui, maka dilakukan proses sorting atau pengurutan dimana semakin besar nilai w, maka besar tingkat similaritas dokumen tersebut terhadap kata yang dicari, demikian sebaliknya [2]. 2.5 Cosine Similarity Cosine Similarity adalah metode similaritas yang digunakan untuk menghitung similaritas dua buah dokumen. Berikut rumus metode perhitungan cosine similarity [2]: (3) Ket : A = bobot TF-IDF dari kata kunci B = bobot TF-IDF dari dokumen = penjumlahan TF-IDF dari kata kunci = penjumlahan TF-IDF dari dokumen

Vol. 4, No. 1, Tahun 2015 64 Berdasarkan rumus di atas, rumus cosine similarity dapat diuraikan menjadi sebagai berikut: 1. Rumus perhitungan panjang vektor: 2. Rumus dot product: (4) (5) 3. Metodologi Penelitian 3.1 Use Case Diagram Berikut ini perancangan use case diagram pada sistem ini: Gambar 2 Halaman beranda 2. Halaman data jurnal Halaman ini merupakan halaman yang digunakan untuk menambah data jurnal terdahulu. Gambar 1 Use Case Diagram 4. Hasil dan Pembasan 4.1 Hasil Implementasi Berikut ini adalah hasil implementasi antar muka sistem yang ada pada aplikasi yang telah dibuat: 1. Halaman beranda Halaman ini merupakan halaman beranda utama pada web. Halaman ini memiliki beberapa menu, seperti Beranda, Pendeteksi Kemiripan, Data Jurnal, dan Tentang Kami. Gambar 3 Halaman tambah data jurnal 3. Halaman pendeteksi kemiripan Halaman ini adalah halaman dimana user dapat memasukkan jurnal yang diinginkan untuk dicari persentase kemiripannya dengan jurnal terdahulu.

Vol. 4, No. 1, Tahun 2015 65 Gambar 4 Halaman pendeteksi kemiripan 4. Halaman tentang kami Halaman ini berisi tentang profil pembuat aplikasi. jurnal yang dimasukkan bukan format jurnal PCR, menambah jurnal yang sama, dan berhasil menambah jurnal. Pada lihat persentase kemiripan abstrak PA, ada 5 kondisi yang diuji, yaitu data masukan tidak lengkap, data yang dimasukkan bukan berformat.pdf, jurnal yang dimasukkan bukan format jurnal PCR, mencari nilai kemiripan, dan simpan jurnal yang telah dideteksi di database. Pada simpan abstrak jurnal ke database, ada 3 kondisi yang diuji, yaitu berhasil menyimpan abstrak di database, tidak memasukkan abstrak di database, dan abstrak jurnal yang dideteksi sudah ada di database. Dari 13 kondisi dengan 4 fungsionalitas yang diuji dapat dilihat bahwa hasil pengujian berhasil dilakukan dengan persentase 100%. 4.2.2 Pengujian Perhitungan Keluaran Sistem dengan Perhitungan Manual Pengujian ini dilakukan untuk melihat apakah perhitungan algoritma pada sistem sudah sesuai dengan perhitungan algoritma manual. Pengujian ini dilakukan dengan cara membandingkan 10 jurnal uji tahun 2012, 10 jurnal uji tahun 2013, dan 10 jurnal uji 55 tahun 2014 dengan 70 jurnal yang telah di-preprocessing pada database. Gambar 5 Halaman tentang kami 4.2 Pengujian sistem 4.2.1 Pengujian Black Box Testing Pengujian black box testing dilakukan pada 4 fungsionalitas use case, yaitu tambah data jurnal terdahulu, lihat persentase kemiripan abstrak PA, simpan abstrak jurnal ke database, dan melihat halaman tentang kami. Pada tambah data jurnal terdahulu, ada 5 kondisi yang diuji, yaitu data masukan tidak lengkap, data yang dimasukkan bukan berformat.pdf, Proses pengujian ini dilakukan dengan melakukan preprocessing pada 30 jurnal uji dan 70 jurnal yang ada di database sistem secara manual. Kemudian, hasil preprocessing dari 30 jurnal uji dan 70 jurnal yang ada di database tersebut dihitung dengan algoritma TF-IDF untuk pencarian bobot. Setelah bobot diketahui, bobot tersebut akan dihitung panjang vektor, dihitung dot product-nya, dan dihitung kemiripannya dengan cosine similarity dan diurutkan 3 yang paling besar kemiripannya. Setelah dihitung secara manual, kita akan membandingkan hasil perhitungan manual dengan sistem untuk dilihat statusnya apakah Benar atau Salah. Jika berstatus Benar, maka hasil manual dengan hasil sistem sama. Jika berstatus

Vol. 4, No. 1, Tahun 2015 66 Salah, maka hasil manual dengan hasil sistem berbeda. 4.2.3 Pengujian Pengambilan Abstrak Jurnal Pada penelitian ini dari 147 file.pdf yang diuji didapatkan 100 file.pdf yang berhasil, sedangkan 47 file lainnya gagal diidentifikasi. Untuk menentukan nilai akurasi, akurasi dihitung dengan jumlah data yang benar dibagi jumlah seluruh data dikali dengan 100%. Oleh karena itu, nilai akurasi yang didapat adalah: persentase kemiripan abstrak PA, simp-an abstrak jurnal ke database, dan melihat halaman tentang kami sesuai dengan yang tertera pada use case diagram. Dari test case yang telah diuji, maka black box testing dapat dikatakan berhasil karena dari 4 test case yang diuji tidak ada test case yang tidak berhasil dilakukan sehingga memiiki persentase 100%. 4.3.2 Analisis Perhitungan Keluaran Sistem dengan Perhitungan Manual 4.2.4 Pengujian Preprocessing pada Proses Stemming Pengujian ini dilakukan untuk melihat apakah proses stemming pada sistem dan manual berjalan dengan benar. Proses stemming yang digunakan adalah Porter Stemmer untuk Bahasa Indonesia. Pengujian ini dilakukan dengan membandingkan hasil stemming manual dengan hasil stemming sistem. Pengujian ini dilakukan pada 1 jurnal yang telah diambil abstraknya. Hasil manual dihitung berdasarkan aturan Porter Stemmer untuk Bahasa Indonesia. Setelah itu, hasil manual akan dibandingkan dengan hasil sistem untuk ditentukan statusnya apakah Sesuai atau Tidak. Jika berstatus Sesuai, maka hasil manual dengan hasil sistem sama. Jika berstatus Tidak Sesuai, maka hasil manual dengan hasil sistem berbeda. Pada pengujian ini terdapat 1 kondisi dari 5 aturan stemming yang salah. Nilai akurasi yang didapat adalah 97,37% dari kata yang diuji. 4.3 Analisis Sistem 4.3.1 Analisis Black Box Testing Pengujian black box testing dilakukan dengan menguji 4 test case yang tersedia. Test case tersebut ada 4, yaitu tambah data jurnal terdahulu, lihat hasil Dari hasil pengujian didapatkan nilai akurasi sebesar 93,33% dan dari 30 data yang diuji terdapat 2 data yang memiliki hasil perhitungan yang berbeda antara hasil keluaran sistem dengan manual. Penyebab 2 data tersebut mempunyai hasil yang berbeda karena adanya error pada kata-kata yang terdapat di jurnal yang diuji, seperti kesalahan dalam penulisan kata dan ada kata yang tergabung. Penulisan kata dalam abstrak jurnal yang asli berpengaruh pada perhitungan nilai TF-IDF karena kata yang seharusnya berjumlah dua menjadi satu di tabel term. Meskipun demikian, sistem yang dibuat ini hanyalah berupa decision support untuk memberikan informasi kepada user berupa persentase kemiripan. Keputusan terakhir tetap user yang menentukan. 4.3.3 Analisis Pengambilan Abstrak dari Jurnal Berdasarkan pengujian pengambilan abstrak dapat kita lihat bahwa sistem berhasil mengambil abstrak jurnal pada Gambar 4.5 dengan benar. Dari 147 file.pdf yang diuji, didapatkan 100 file.pdf yang berhasil dan 47 file lainnya gagal diidentifikasi dan nilai akurasi yang didapat sebesar 68%. Penyebab 47 file tersebut gagal teridentifikasi karena penulisan yang salah pada kata Abstrak, tidak ada tulisan Abstrak yang ditemui, format jurnal bukan format jurnal Politeknik Caltex Riau, penulisan kata Abstrak dan Abstract yang memakai huruf capital semua, abstrak yang tidak mempunyai kata kunci, abstrak

Vol. 4, No. 1, Tahun 2015 67 yang tidak mempunyai kata kunci dan kata Abstract, dan penulisan yang salah pada kata Kata kunci. Penulisan kata Abstrak, Kata kunci, dan Abstract yang benar mempengaruhi pengambilan abstrak karena bagian abstrak yang diambil adalah bagian setelah kata Abstrak dan sebelum kata Kata atau Abstract. 4.3.4 Analisis Preprocessing pada Proses Stemming Pada pengujian preprocessing dapat dilihat bahwa nilai akurasi yang didapat adalah 97,37% dari kata yang diuji berdasarkan aturan dari Porter Stemmer terdapat 1 kondisi yang berbeda antara hasil yang diharapkan dan hasil aktual. Penyebab 1 kondisi tersebut berbeda hasil karena adanya ambiguitas dalam aturan morfologi Bahasa Indonesia dan algoritma ini berbasis aturan sehingga dapat mempengaruhi akurasi hasil akhir. 3. Penulisan kata yang baik dapat mempengaruhi hasil TF-IDF dan cosine similarity. 4. Porter Stemmer untuk Bahasa Indonesia dapat menghasilkan kata yang ambigu dan tidak sesuai dengan aturan morfologi Bahasa Indonesia. 5.2 Saran Untuk pengembangan aplikasi ini, maka beberapa hal yang dapat penulis sarankan adalah: 1. Pengembangan integrasi dengan sistem informasi proyek akhir yang ada. 2. Pengembangan pendeteksian seluruh jurnal dengan format berbeda, seperti jurnal AES, ABEC, dan lain-lain. 5. Kesimpulan dan Saran 5.1 Kesimpulan Setelah dilakukan pengujian beserta analisa pada penelitian ini, maka dapat diambil kesimpulan yaitu: 1. Sistem pengecekan kemiripan abstrak PA yang menggunakan Vector Space Model dengan algoritma TF-IDF untuk pembobotan kata dan cosine similarity untuk pengecekan kemiripan dapat digunakan untuk mendeteksi kemiripan abstrak jurnal PA dengan fungsionalitas sistem pada aplikasi yang dapat dipenuhi sebesar 100%. 2. Berdasarkan pengujian hasil keluaran sistem dan manual, sistem dapat melakukan pengecekan kemiripan pada abstrak sehingga dapat memperkecil kemungkinan Daftar Pustaka [1] Annisa, N, Implementasi Algoritma Vector Space Model pada Pencarian E-book, Sistem Informasi, Politeknik Caltex Riau, Rumbai, 2014. [2] Damanik, R. M. U., Pembangunan Aplikasi Pencarian Dokumen Menggunakan Text Mining Berbasis Web, Teknik Informatika, Universitas Atma Jaya Yogyakarta, Yogyakarta, 2013. [3] Hariharan, S., Automatic Plagiarism Detection Using Similarity Analysis. The International Arab Journal of Information Technology, 322 326, 2012. [4] Herqutanto, Plagiarisme, Runtuhnya Tembok Kejujuran Akademik, ejurnal Kedokteran Indonesia, 1-3, 2013. [5] Mukhlish, Pedoman Penulisan Karya Ilmiah (Laporan Penelitian), terjadinya plagiarisme PA.

Vol. 4, No. 1, Tahun 2015 68 Dinas Pendidikan, Pemuda, dan Olahraga, 2012. [6] Saadah, M. N., Sistem Temu Kembali Dokumen Teks Dengan Pembobotan TF-IDF dan LCS, JUTI, 17-20, 2013. [7] Surachman, A., Penelusuran Informasi: sebuah pengenalan, UPU Perpustakaan UGM https://akupunktursolo.files.wordpres s.com/2012/09/penelusuran_informas i.docx, (2015, Februari 3). [8] Tala, F. Z., A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia, Institute for Logic, Language and Computation Universiteit Van Amsterdam, Amsterdam, 2003. [9] Universitas Pendidikan Indonesia, Pedoman Penulisan Karya Ilmiah Universitas Pendidikan Indonesia Tahun 2014, Universitas Pendidikan Indonesia, 2014. [10] Yuliana, Sistem Pengelolaan Proyek Akhir Menggunakan Text Mining pada Politeknik Caltex Riau, Sistem Informasi, Politeknik Caltex Riau, Rumbai, 2014.