BAB 2 LANDASAN TEORI. 2.1 Pengertian Text Mining

dokumen-dokumen yang mirip
BAB 2 TINJAUAN PUSTAKA

Fungsi Hash Kriptografis

Fungsi Hash dan Metode Collision Resolution

APLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP

Analisis Cara Kerja Beragam Fungsi Hash Yang Ada. Christian Angga

APLIKASI STATISTIK PENDETEKSIAN PLAGIARISME DOKUMENT TEXT DENGAN ALGORITMA RABIN KARP

FILE BERKAS LANGSUNG. Rudi Susanto

BAB III ANALISIS DAN PERANCANGAN SISTEM

ORGANISASI BERKAS RELATIF

BAB II LANDASAN TEORI

Penerapan Fungsi Hash dalam Penempatan Parkir Mobil

DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER SKRIPSI IQBAL MAULANA DJAFAR

BAB I PENDAHULUAN. dengan mudah diduplikasi (Schleimer, Wilkerson, & Aiken, 2003). Dengan

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

Praktikum Algoritma dan Struktur Data 2010

PERANCANGAN SISTEM PENENTUAN SIMILARITY KODE PROGRAM PADA BAHASA C DAN PASCAL DENGAN MENGGUNAKAN ALGORITMA RABIN-KARP

BAB IV ANALISA DAN PERANCANGAN

BAB II LANDASAN TEORI

APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP

SISTEM DETEKSI KEMIRIPAN JUDUL SKRIPSI PRODI TEKNIK INFORMATIKA MENGGUNAKAN ALGORITMA RABIN-KARP

PERBANDINGAN ALGORITMA WINNOWING DENGAN ALGORITMA RABIN KARP UNTUK MENDETEKSI PLAGIARISME PADA KEMIRIPAN TEKS JUDUL SKRIPSI

APLIKASI TEORI BILANGAN UNTUK AUTENTIKASI DOKUMEN

BEBERAPA METODE PENYELESAIAN COLLISION PADA ORGANISASI BERKAS SECARA HASHING

SEARCHING (PENCARIAN)

Gambar 2.1 Diagram Alir Algoritma Rabin-Karp

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

IV. RANCANG BANGUN SISTEM. Perangkat lunak bantu yang dibuat adalah perangkat lunak yang digunakan untuk

BAB 4 ORGANISASI BERKAS RELATIF

PEMANFAATAN PRINSIP SARANG MERPATI UNTUK MEMBUAT PERFECT HASH

BAB 2 LANDASAN TEORI

PERBANDINGAN PENGUNAAN STEMMING PADA DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN METODE RABIN KARP DAN JACCARD SIMILARITY

P14 Hash Function TIF42/SIF42

BAB II LANDASAN TEORI

ORGANISASI BERKAS LANGSUNG. Sistem Berkas materi 6

BAB 2 LANDASAN TEORI

PENDETEKSIAN PLAGIASI DENGAN SISTEM PENGUKURAN SIMILARITAS PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN STRING MATCHING ALGORITMA RABIN-KARP

ORGANISASI BERKAS RELATIF

Bab 1 Pengantar Struktur Data

BAB II LANDASAN TEORI

BAB X Hashing. typedef char *NomorBuku[100]; Buku = NomorBuku;

Perbandingan dan Pengujian Beberapa Algoritma Pencocokan String

BAB III METODOLOGI PENELITIAN

ANALISIS PENGUKURAN SELF PLAGIARISM MENGGUNAKAN ALGORITMA RABIN-KARP DAN JARO-WINKLER DISTANCE DENGAN STEMMING TALA

PERANCANGAN APLIKASI PENCARIAN ISI FILE YANG SAMA PADA HARDISK DRIVE DENGAN ALGORITMA STRING MATCHING

BAB I PENDAHULUAN. penjiplakan suatu tulisan. Neville (2010) dalam buku The Complete Guide to

TUGAS BASIS DATA FILE ORGANIZATION IF2250 SEMESTER GENAP 2013/2014

Pengenalan Algoritma & Struktur Data. Pertemuan ke-1

ALGORITMA ELGAMAL UNTUK KEAMANAN APLIKASI

Pembangkit Kunci Acak pada One-Time Pad Menggunakan Fungsi Hash Satu-Arah

DETEKSI PLAGIAT DOKUMEN MENGGUNAKAN ALGORITMA RABIN-KARP

BAB 3 ANALISIS DAN PERANCANGAN

BAB 2 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

PERBANDINGAN ALGORITMA STRING SEARCHING BRUTE FORCE, KNUTH MORRIS PRATT, BOYER MOORE, DAN KARP RABIN PADA TEKS ALKITAB BAHASA INDONESIA

BAB I PENDAHULUAN. masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

JURNAL ILMIAH FIFO P-ISSN / E-ISSN

ANALISIS K-GRAM, BASIS DAN MODULO RABIN-KARP SEBAGAI PENENTU AKURASI PERSENTASE KEMIRIPAN DOKUMEN

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM

Komputer menggunakan dan memanipulasi data untuk perhitungan aritmatik, pemrosesan data dan operasi logik. Data adalah bilangan biner dan informasi

BAB II TINJAUAN PUSTAKA

Bab 2: Kriptografi. Landasan Matematika. Fungsi

PENERAPAN ALGORITMA WINNOWING UNTUK MENDETEKSI KEMIRIPAN TEKS PADA TUGAS AKHIR MAHASISWA

BAB III ANALISIS DAN DESAIN SISTEM

PERBANDINGAN N-GRAM TECHNIQUE DAN RABIN KARP PADA APLIKASI PENDETEKSI PLAGIARISME DOKUMEN TEKS BAHASA INDONESIA

Implementasi Struktur Data Rope menggunakan Binary Tree dan Aplikasinya dalam Pengolahan Teks Sangat Panjang

TUGAS AKHIR. Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang. Oleh :

Analisis Perbandingan Performansi Algoritma Zhu-Takaoka dan Algoritma Karp-Rabin Pada Pencarian Kata Di Rumah Baca Buku Sunda

Penerapan digital signature pada social media twitter

Type Data terdiri dari : - Data Tunggal : Integer, Real, Boolean dan Karakter. - Data Majemuk : String

Teknik Konversi Berbagai Jenis Arsip ke Dalam bentuk Teks Terenkripsi

Analisis Perbandingan Algoritma Rabin-Karp Dan Levenshtein Distance Dalam Menghitung Kemiripan Teks

Tanda Tangan Digital Dengan Menggunakan SHA-256 Dan Algoritma Knapsack Kunci-Publik

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI. Universitas Sumatera Utara

Rancang Bangun Penilaian Keaktifan Menggunakan Teknik Text Similarity Pada Sistem Tutorial Matematika Diskret

Mata Kuliah : Pemrograman Web II. Pokok Bahasan : Type Data & Operator. Okta Jaya Harmaja, M.Kom

Topic Complexity of Hashing Search & Binary Search Tree Algorithm

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB II LANDASAN TEORI

Implementasi Algoritma Rabin-Karp untuk Membantu Pendeteksian Plagiat pada Karya Ilmiah

PENENTUAN PENANGANAN KERUSAKAN MESIN PRODUKSI RESLETING DI PT. HERO TOP ZIP MENGGUNAKAN CASE BASED REASONING DAN SORENSEN COEFFICIENT

Digital Signature Algorithm (DSA)

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

TUGAS AKHIR SISTEM BERKAS HASH FILE DAN MULTIRING FILE

Struktur dan Organisasi Data 2 STRUKTUR DATA

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB III METODOLOGI PENELITIAN


Brigida Arie Minartiningtyas, M.Kom

BAB III ANALISIS DAN PERANCANGAN

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB II LANDASAN TEORI

BAB 3 ANALISIS DAN PERANCANGAN. utuh ke dalam bagian-bagian komponennya dengan maksud untuk

BAB 2 LANDASAN TEORI

Database System 8 Hash-Based Indexing

BAB III ANALISIS DAN PERANCANGAN

Transkripsi:

13 BAB 2 LANDASAN TEORI 2.1 Pengertian Text Mining Text Mining dapat juga diartikan sebagai penambangan data berupa teks yang bersumber dari dokumen untuk mencari karta-kata yang merupakan perwakilan isi atau pembentuk dokumen teks sehingga penganalisisan dapat dibuat. Berikut ini merupakan tahapan umum pada proses Text Mining, yaitu (Nugroho, 2011): 1. Text Preprocessing, adalah pemrosesan pertama kali yang ditujukan untuk membuat teks menjadi data yang siap olah pada proses berikutnya. 2. Case Folding, adalah pengubahan semua karakter yang merupakan huruf kapital menjadi huruf kecil. 3. Filtering, adalah proses pengambilan kata-kata penting sesuai dengan kondisi yang diinginkan. 4. Tokenizing, adalah tahapan pemecah kalimat yang di-input berdasarkan kata yang penyusunnya, biasanya dipisah oleh karakter whitespace. 5. Text Transformation, adalah pembentukan teks yang masuk pada proses untuk mendapatkan representasi dokumen yang sesuai. a. Stemming, adalah proses pencarian kata dasar dari setiap kata hasil tokenizing. b. Synonim Recognation, adalah pengubahan kata yang memiliki makna yang sama dengan penulisan berbeda. c. Feature Selection, adalah pengurangan dimensi teks sehingga akan menghasilkan kata-kata yang merupakan dasar dari isi teks. d. Pattern Discovery, adalah penemuan pola atau pengetahuan dari seluruh teks

2.2 Algoritma Manber Algoritma Manber merupakan salah satu dari tiga algoritma yang menggunakan fingerprint dalam proses penyelesaian permasalahannya, selain algoritma Winowing dan Rabin-Karp. Penggunaan fingerprint ini ditujukan agar dapat mengidentifikasi penjiplakan termasuk bagian-bagian kecil yang mirip dalam dokumen dengan jumlah kata yang cukup banyak (Purwaetasari, et al.2009). Setiap algoritma memiliki penyelesaian permasalahan yang berbeda, namun algoritma Manber dan Winowing memiliki langkah penyelesain yang hampir sama. Adapun perbedaan algoritma Manber dan algoritma Winowing adalah sebagai berikut (Kurniawati & Wicaksana, 2008): 1. Jumlah langkah yang lebih sedikit sehingga waktu pemrosesan dokumen menjadi lebih cepat. 2. Tidak memberikan informasi dimana posisi fingerprint berada. 3. Pemilihan fingerprint yang berbeda. Pada Algoritma Manber, fingerprint dipilih dari setiap nilai hash yang memenuhi persyaratan. H mod P = 0 di mana H adalah nilai hash dan P adalah nilai pembagi yang digunakan, sementara pada Algoritma Winowing dipilih nilai hash minimum dalam setiap window. Adapun secara singkat, konsep dasar algoritma Manber dimulai dari tahap pencarian kata sehingga hasil akhirnya berupa presentase adalah: 1. Pembentukan rangkaian gram dengan panjang N karakter. 2. Penghitungan nilai hash dari setiap gram menggunakan fungsi hash. 3. Pemilihan beberapa nilai hash menjadi fingerprint dokumen. 4. Menentukan presentase kemiripan antar dokumen menggunakan persamaan Jaccard Coefficient.

2.3 Metode N-Gram Teknik N-Gram didasarkan pada pemisahan teks menjadi string dengan panjang n mulai dari posisi tertentu dalam suatu teks. Posisi N-Gram berikutnya dihitung dari posisi yang sebenarnya bergeser sesuai dengan offset yang diberikan. Nilai offset bergantung pada pembagian yang digunakan dalam N-Gram. Pembagian N-Gram dapat bervariasi tergantung dari pendekatan dalam membagi teks menjadi bentuk N- Gram. N-Gram untuk setiap string dihitung dan kemudian dibandingkan satu per satu. N-Gram dapat berupa unigram (n=1), bigram (n=2), trigram (n=3), dan seterusnya. Teknik N-Gram melibatkan 2 (dua) langkah, yaitu membagi string menjadi overlapping N-Gram (suatu set substring dengan panjang n) dan melakukan pengecekan untuk mendapatkan substring yang memiliki struktur yang sama. Dalam memperkirakan similarity maka teknik N-Gram sering dipadukan dengan pendekatan statistika untuk memperoleh similarity dari 2 (dua) buah sample, seperti Sorensen-Dice Coefficient, Jaccard Coefficient, dan lainnya (Eric, 2015). Algoritma yang menggunakan fingerprint seperti algoritma Manber memiliki satu metode utama yaitu metode N-Gram. Metode N-Gram merupakan metode yang berfungsi untuk memecah kata ataupun kalimat menjadi sebuah rangkaian dengan panjang N karakter. sebagai contoh : PEPAYA dengan nilai N = 2, maka akan menghasilkan : PE, EP, PA, AY, YA Metode N-Gram mempunyai peranan yang sangat penting karena merupakan langkah awal dalam memproses pembentukan fingerprint. Dengan kata lain metode N-Gram memiliki pengaruh terbesar pertama pada hasil akhir yang dikeluarkan. Pengaruh nilai N pada metode N-Gram yaitu semakin kecil nilai N yang

digunakan akan semakin besar persentase yang dihasilkan nantinya. Namun tidak selalu dengan menggunakan nilai N = 1, maka hasil yang didapatkan lebih baik. Alasannya adalah jika kalimat terdiri dari huruf yang sama dengan kalimat bandingnya, maka akan menghasilkan presentase kemiripan 100%. Sebagai contoh : RAMAH : R, A, M, A, H MARAH : M, A, R, A, H Didapatkan 4 huruf yang sama, sehingga menghasilkan persentase sebesar 100%. Oleh karena itu, pengguna N-Gram harus disesuaikan dengan kondisi dari teks yang akan diuji. 2.4 Nilai Hash Hash merupakan teknik untuk mengubah string menjadi nilai unik dengan panjang tertentu yang nantinya akan berfungsi sebagai penanda string tersebut (Pratama, et al 2012). Hashing adalah transformasi aritmatik sebuah string dari karakter menjadi nilai yang merepresentasikan string aslinya. Menurut bahasanya, hash berarti memenggal dan kemudian menggabungkan. Hashing digunakan sebagai metode untuk menyimpan data dalam sebuah array agar penyimpanan data, pencarian data, penambahan data, dan penghapusan data dapat dilakukan dengan cepat. Ide dasarnya adalah menghitung posisi record yang dicari dalam array, bukan membandingkan record dengan isi pada array. Fungsi yang mengembalikan nilai atau kunci disebut fungsi hash (hash function) dan array yang digunakan disebut tabel hash (hash table). Hash table menggunakan struktur data array asosiatif yang mengasosiasikan record dengan sebuah field kunci unik berupa bilangan (hash) yang merupakan representasi dari record tersebut (Ayhodia, 2010). Hash terdiri dari dua elemen, yaitu fungsi hash dan nilai hash. Hubungan kedua elemen tersebut adalah rangkaian gram yang dihasilkan dari proses N-Gram kemudian diolah dengan menggunakan fungsi hash yang nantinya akan dipilih mejadi fingerprint dokumen (Purwaetasari, et al 2009). Fungsi hash yang digunakan pada algoritma Manber adalah fungsi hash yang mengubah setiap karakter pada rangkaian string kedalam bentuk kode ASCII dan

memprosesnya kedalam persamaan (2.1) berikut: H( C1.. c k + 1 ) = c 1 * b k -1 + c 2 * b k-2 *.. + c k-1 * b + c k (2.1) Keterangan : H : nilai Hash c : nilai ASCII karakter b : basis bilangan prima k : banyaknya karakter 2.4.1 Macam - Macam Fungsi Hash Fungsi Hash (dilambangkan dengan h(k)) bertugas untuk mengubah k (key) menjadi suatu nilai dalam interval [0...X], dimana "X" adalah jumlah maksimum dari recordrecord yang dapat ditampung dalam tabel. Jumlah maksimum ini bergantung pada ruang memori yang tersedia. Fungsi Hash yang ideal adalah mudah dihitung dan bersifat random, agar dapat menyebarkan semua key. Dengan key yang tersebar, berarti data dapat terdistribusi secara seragam bentrokan dapat dicegah. Sehingga kompleksitas waktu model Hash dapat mencapai O(1), di mana kompleksitas tersebut tidak ditemukan pada struktur model lain. Ada beberapa macam fungsi hash yang relatif sederhana yang dapat digunakan dalam penyimpanan database: 1. Metode Pembagian Bersisa (Division-Remainder Method) Jumlah lokasi memori yang tersedia dihitung, kemudian jumlah tersebut digunakan sebagai pembagi untuk membagi nilai yang asli dan menghasilkan sisa. Sisa tersebut adalah nilai hash-nya. Secara umum, rumusnya h(k)= k mod m. Dalam hal ini m adalah jumlah lokasi memori yang tersedia pada array. Fungsi hash tersebut menempatkan record dengan kunci K pada suatu lokasi memori yang beralamat h(k). Metode ini sering menghasilkan nilai hash yang sama dari dua atau lebih nilai aslinya atau disebut dengan bentrokan. Karena itu, dibutuhkan mekanisme khusus untuk menangani bentrokan yang disebut kebijakan resolusi bentrokan. 2. Melipat (Folding) Metode ini membagi nilai asli ke dalam beberapa bagian, kemudian menambahkan

nilai-nilai tersebut, dan mengambil beberapa angka terakhir sebagai nilai hash-nya. 3. Transformasi Radiks (Radix Transformation) Karena nilai dalam bentuk digital, basis angka atau radiks dapat diganti sehingga menghasilkan urutan angka-angka yang berbeda. Contohnya nilai desimal (basis 10) bisa ditransformasikan kedalam heksadesimal (basis 16). Digit atas hasilnya bisa dibuang agar panjang nilai hash dapat seragam. 4. Pengaturan ulang digit (Digit Rearrangement) Metode ini mengubah urutan digit dengan pola tertentu. Contohnya mengambil digit ke tiga sampai ke enam dari nilai aslinya, kemudian membalikan urutannya dan menggunakan digit yang terurut terbalik itu sebagai nilai hash. Fungsi hash yang bekerja dengan baik untuk penyimpanan pada database belum tentu bekerja dengan baik untuk keperluan kriptografi atau pengecekan kesalahan. Ada beberapa fungsi hash terkenal yang digunakan untuk keperluan kriptografi. Diantaranya adalah fungsi hash message-diggest, contohnya MD2, MD4, dan MD5, digunakan untuk menghasilkan nilai hash dari tanda tangan digital yang disebut messagediggest. Ada pula Secure Hash Algorithm (SHA), sebuah algoritma standar yang menghasilkan message-diggest yang lebih besar (60-bit) dan serupa dengan MD4. 5. Kebijakan resolusi bentrokan di luar tabel Artinya tabel hash bukan lagi menjadi array of records, tetapi menjadi array of pointers. Setiap pointer menunjuk ke senarai berkait yang berisi record tersebut. Metode seperti ini dinamakan chaining. Dalam bentuk sederhananya berupa senarai berkait dari record-record yang menghasilkan nilai hash yang sama. Penambahan record dapat dilakukan dengan menambah senarai berisi record tersebut. Untuk pencarian pada tabel, pertama-tama dicari nilai hash terlebih dahulu, kemudian dilakukan pencarian dalam senarai berkait yang bersangkutan. Untuk menghapus suatu record, hanya menghapus senarainya saja. Kelebihan dari metode chaining ini adalah proses penghapusan yang relatif mudah dan penambahan ukuran tabel hash bisa ditunda untuk waktu yang lebih lama karena penurunan kinerjanya berbanding lurus meskipun seluruh lokasi pada tabel sudah penuh. Bahkan, penambahan ukuran tabel bisa saja tidak perlu dilakukan sama sekali karena penurunan kinerjanya yang linier. Misalnya, tabel yang berisi record

sebanyak dua kali lipat kapasitas yang direkomendasikan hanya akan lebih lambat dua kali lipat dibanding yang berisi sebanyak kapasitas yang direkomendasikan. Kekurangan dari metode chaining ini sama dengan kekurangan dari senarai berkait. Operasi traversal pada senarai berkait memiliki performa cache yang buruk. Struktur data lain dapat digunakan sebagai pengganti senarai berkait. Misalnya dengan pohon seimbang, kompleksitas waktu terburuk bisa diturunkan menjadi O(log n) dari yang sebelumnya O(n). Namun demikian, karena setiap senarai diharapkan untuk tidak panjang, struktur data pohon ini kurang efisien kecuali tabel hash tersebut memang didesain untuk jumlah record yang banyak atau kemungkinan terjadi bentrokan sangat besar yang mungkin terjadi karena masukan memang disengaja agar terjadi bentrokan. 6. Kebijakan resolusi bentrokan di dalam tabel Berbeda dengan kebijakan resolusi bentrokan di luar tabel, pada kebijakan resolusi di dalam tabel data disimpan di dalam hash tabel tersebut, bukan dalam senarai berkait yang bertambah terus menerus. Dengan demikian data yang disimpan tidak mungkin bisa lebih banyak daripada jumlah ruang pada tabel hash. Jika suatu record akan dimasukkan ke dalam tabel hash pada lokasi sesuai nilai hash-nya dan ternyata lokasi tersebut sudah diisi dengan record lain maka harus dicari lokasi alternatif yang masih belum terisi dengan cara tertentu, cara ini disebut Open Addressing. Ada beberapa metode untuk menemukan lokasi baru yang masih kosong. Dalam proses menemukan lokasi baru ini harus menggunakan pola tertentu agar record yang disimpan tetap bisa dicari dengan mudah saat dibutuhkan kemudian. Metode-metode yang sering digunakan adalah: 1. Linear Probing Dengan menambahkan suatu interval pada hasil yang diperoleh dari fungsi hash sampai ditemukan lokasi yang belum terisi. 2. Quadratic Probing / Squared Probing Hampir sama dengan linear probing, hanya saja pada quadratic probing, hasil yang diperoleh dari fungsi hash ditambahkan dengan kuadrat dari interval yang digunakan. 3. Double Hashing Pada metode double hashing, jika lokasi yang diperoleh dengan fungsi hash sudah

terisi, maka dilakukan proses hash lagi sampai ditemukan lokasi yang belum terisi. 2.5 Fingerprint Dokumen Fingerprint dokumen adalah ciri khas yang terdapat pada sebuah dokumen teks. Ciri ini dapat dikatakan pula sebagai rangkaian pembentuk atau dasar dari dokumen tersebut. Fingerprint berasal dari rangkaian nilai hash yang sudah memenuhi persyaratan. Fingerprint merupakan tujuan pertama dari algoritma yang menggunakan fingerprint sebagai langkah penyelesaiannya. Masing-masing algoritma memilki cara yang berbeda dalam memilih fingerprint. Pada algoritma Manber, pemilihan fingerprint dilakukan dengan cara mengecek apabila nilai hash memenuhi persyaratan (2.2) berikut: (2.2) H Mod P = 0 Dimana : H = Nilai Hash Mod = Modulo sisa bagi P = Nilai Pembagi 0 = Hasil pembagian sisa harus bernilai 0 Ada tiga faktor yang mempengaruhi pemilihan fingerprint, yaitu : 1. Nilai N menggunakan N-Gram perubahan panjang yang terbentuk akan mengubah fingerprint yang dipilih. 2. Basis pada fungsi hash tentunya perubahan basis akan mengubah nilai hashyang dihasilkan serta fingerprint yang dipilih. 3. Nilai pembagi pada persamaan (2.2). Perubahan pada nilai pembagi akan mengubah nilai hash yang akan dipilih menjadi fingerprint. Penggunaan nilai pembagi ini harus disesuaikan dengan kondisi dokumen teks.

2.6 Jaccard s Similarity Coeficient Jaccard s Similarity Coeficient (Jacard 1912) merupakan index umum untuk variable biner. Hal ini didefenisikan sebagai hasil bagi persimpangan dan serikat variable dibandingkan berpasangan antara dua benda (Djafar, 2014). Untuk menghitung kemiripan dari dua dokumen, diperlukan Jaccard s Similarity Coeficient, dengan rumus : w(di ) w (dj) Similaritas (d i, d j ) = x 100 % w(di ) w (dj) Dimana : w(di ) w (dj) = irisan fingerprint teks uji dengan teks banding. w(di ) w (dj) = union fingerprint teks uji dengan teks banding. Similaritas (di, dj) = Hasil bagi irisan dengan gabungan fingerprint yang dikalikan 100 %.