APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY

Ukuran: px
Mulai penontonan dengan halaman:

Download "APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY"

Transkripsi

1 APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY Azhar Firdaus, Ernawati, dan Arie Vatresia Program Studi Teknik Informatika, Fakultas Teknik, Universitas Bengkulu ABSTRACT Ease of information exchange is frequently abused by some people. The abuse happens on academic envirotment and is commited by students. One of abuse act is plagiarism on process while completing subject, practicum and final assignment. It is one of plagiarisme that commited by students. Lecturer s method to anticipate plagiarisme act is to compare students s assignment independently. Lecturers have difficulty on evaluation of learning outcomes because number of subject participant is many. Method for comparing two objects is required to designing application for detecting similarity on text document. Cosine Similarity is one of method that can be implemented to compare text documents. Cosine Similary uses two vector parameters. The vector is based on number of similar word on both text documents so that Cosine Similarity is not be able to recognize meaning of sentence. Nazief & Adriani algorithm is algorithm to transform affix word into root word in Indonesia language. Comparing words are transformed into root word firstly in order to make Cosine Similarity s calculation more optimal. Final assignment results similarity of detection application on text document that implementing Nazief & Adriani algorithm and Cosine Similarity method. Key Word: Plagiarisme, Cosine Similarity, Nazief & Adriani algorithm 1. PENDAHULUAN 1.1. Latar Belakang Dewasa ini, perkembangan teknologi informasi berkembang dengan pesat dan memberikan dampak positif. Salah satu dampak positif perkembangan teknologi informasi adalah kemudahan dalam bertukar informasi. Kemudahan tersebut sering disalahgunakan oleh seseorang atau beberapa orang dalam penyelesaian pekerjaan. Penyalahgunaan tersebut merupakan salah satu dampak negatif dari perkembangan teknolog informasi. Penyalahgunaan ini sering terjadi di lingkungan akademis terutama oleh mahasiswa. Salah satu tindakan penyalahgunaan yang terjadi adalah melakukan penjiplakan terhadap seluruh atau beberapa teks dari satu atau beberapa berkas dokumen teks sumber ke berkas dokumen teks lain. Praktis penyalahgunaan ini sering terjadi pada proses pembuatan tugas mata kuliah, tugas praktikum dan tugas akhir. Plagiat adalah pengambilan karangan (pendapat) orang lain dan disiarkan sebagai karangan (pendapat) sendiri [1]. Tindakan pengambilan karangan atau ide bukan suatu hal yang baru bagi mahasiswa. Adanya alat bantu seperti komputer dan laptop, memberikan kemudahan untuk melakukan tindakan penjiplakan. Hal tersebut berdampak pada perilaku yang terkesan malas dalam mengerjakan tugas mata kuliah, tugas praktikum dan tugas akhir. Hal tersebut juga berpengaruh pada tahap evaluasi hasil pembelajaran. Peserta mata kuliah yang tidak sedikit memberikan kesulitan bagi para pengajar untuk memberikan hasil yang objektif. Hal tersebut menimbulkan kecurigaan terhadap tugas-tugas yang nantinya akan diakamulasikan ke tahap nilai akhir. Sehingga para pengajar akan direpotkan untuk menganalisis satu per satu tugas mahasiswa dikarenakan jumlah peserta mata kuliah tidak sedikit. Beberapa pengajar masih menggunakan cara manual untuk menentukan kemiripan suatu dokumen teks. Cara yang dimaksud adalah membandingkan dua atau lebih berkas dokumen dan menelusuri paragraf per paragraf dan menentukan kata, kalimat atau paragraf yang memiliki kemiripan. Cara tersebut 96

2 merupakan cara yang kurang efektif dan efisien. Oleh sebab itu, diperlukan adanya aplikasi yang mampu mendeteksi kemiripan pada dokumen teks. Untuk membangun aplikas pendeteksi kemiripan pada dokumen teks, diperlukan suatu ilmu yang mengacu pada pengolahan data teks. Text mining adalah proses menganalisis teks untuk mengekstrak informasi yang berguna untuk tujuan tertentu [2]. Tahap-tahap pada text mining secara umum terdiri dari case folding, tokenizing, filtering, stemming, tagging dan analyzing. Algoritma Nazief & Adriani adalah salah satu algoritma yang digunakan dalam tahap stemming. Algortima Nazief & Adriani merupakan algoritma untuk mengubah kata yang memiliki sufiks, prefiks dan/atau konfiks menjadi bentuk kata dasar. Algoritma Nazief & Adriani digunakan dalam penelitian ini sebagai algoritma pendukung dalam proses penentuan nilai kemiripan pada dokumen teks. Terdapat beberapa metode dalam menentukan kemiripan antar dua objek. Cosine Similarity adalah salah satu metode dalam menentukan nilai kemiripan antar dua objek. Salah satu contoh penerapan adalah penentuan kemiripan pada sidik jari manusia. Cosine Similarity dapat diterapkan dalam menentukan nilai kemiripan pada dua berkas dokumen teks. Parameter yang digunakan adalah jumlah kata-kata pada dua dokumen teks yang dibandingkan. Cosine Similarity menggunakan dua vektor yang mempresentasikan dua dokumen teks dimana nilai sudut kosinus dari kedua vektor tersebut adalah nilai kemiripan dari dua dokumen teks tersebut. Batasan nilai yang dihasilkan mulai dari 0 sampai dengan 1. Komposisi kata pada dokumen teks merupakan penentukan nilai yang diperoleh dari metode Cosine Similarity. Metode Cosine Similarity tidak dapat menentukan kesamaan makna dari setiap kata. Setiap kata yang memiliki komponen huruf yang berbeda dianggap kata yang berbeda. Algoritma Nazief & Adriani dapat mengenal kesamaan makna dari setiap kata, dimana kata yang memiliki sufiks, prefiks dan konfiks diubah menjadi bentuk dasar. Aplikasi pendeteksi kemiripan pada dokumen teks diharapkan dapat mempermudah proses dalam membandingkan berkas dokumen teks. Aplikasi ini diharapkan dapat membandingkan berkas dokumen teks dengan jumlah yang banyak. Hal tersebut dapat mempermudah pengguna aplikasi sehingga tidak perlu membuka berkas satu per satu. Selain itu, aplikasi juga diharapkan memberikan letak kata, kalimat atau paragraf yang memiliki kemiripan pada berkas dokumen teks. Pengguna aplikasi akan dipermudah menentukan bagian dari suatu dokumen teks yang memiliki kemiripan. Berdasarkan uraian di atas, penulis tertarik untuk melakukan penelitian dengan judul Aplikasi Pendeteksi Kemiripan Pada Dokumen Teks Menggunakan Algoritma Nazief & Adriani dan Metode Cosine Similarity. Penelitian ini diharapkan dapat menghasilkan aplikasi yang dapat mendeteksi kemiripan kemiripan pada berkas dokumen teks dan mampu memberikan letak kata, kalimat atau paragraf yang memiliki kemiripan pada berkas dokumen teks. Selain itu, penelitian ini juga diharapkan dapat menelusuri lebih jauh lagi informasi tentang pemanfaatan algoritma Nazief & Adriani dalam mengoptimalkan nilai yang dihasilkan oleh Cosine Similarity Rumusan Masalah Berdasarkan latar belakang dapat dirumuskan permasalah sebagai berikut: 1. Cara manual untuk menentukan kemiripan suatu dokumen teks merupakan cara yang kurang efektif dan efisien. 2. Algoritma Nazief & Adriani belum dimanfaatkan dalam mengoptimalkan nilai yang dihasilkan oleh Cosine Similarity. Aplikasi pendeteksi kemiripan pada dokumen teks menggunakan algoritma Nazief & Adriani dan Cosine Similarity dilakukan dengan batasan masalah sebagai berikut: 1. Berkas dokumen teks yang dibandingkan adalah berupa dokumen digital dengan ekstensi berkas antara lain: *.txt, *.odt, *.doc, *.docx, *.rtf dan *.pdf. 2. Berkas dokumen teks yang dibandingkan adalah dokumen teks yang seluruhnya atau sebagian besar menggunakan Bahasa Indonesia. 97

3 3. Berkas dokumen teks yang dibandingkan adalah dokumen teks yang memiliki penulisan ejaan yang dibenarkan (EYD) 4. Penelitian tidak meneliti manfaat dan kemudahan bagi pengguna aplikasi yang telah dirancang Tujuan Penelitian Tujuan yang ingin dicapai dalam penelitian ini adalah merancang dan membangun Aplikasi Pendeteksi Kemiripan pada Dokumen Teks Menggunakan Algoritma Nazief & Adriani dan Metode Cosine Similarity yang memiliki fungsi utama sebagai berikut: 1. Memberikan nilai kemiripan yang dimiliki dua atau lebih dokumen teks. 2. Mampu membandingkan dua atau lebih berkas dokumen teks 3. Memberikan informasi berupa letak kemiripan antara dua atau lebih dokumen teks yang tertuang pada letak kata. 4. Mampu memanfaatkan algoritma Nazief & Adriani dalam mengoptimal nilai perhitungan metode Cosine Similarity Manfaat Penelitian Adapun manfaat yang ingin dicapai dari penelitian ini adalah: Bagi pengguna perangkat lunak penelitian ini dapat memberikan kemudahan mencari kemiripan antardokumen teks dengan praktis dan cepat. Selain itu, membantu pengguna dalam menganalisis kemiripan pada dokumen teks berupa persentase kemiripan dokumen teks tersebut dan memberikan kata yang memiliki kemiripan. 2. TINJAUAN PUSTAKA 2.1 Landasan Teori Text Mining Text mining adalah proses menganalisis teks untuk mengekstrak informasi yang berguna untuk tujuan tertentu. Text mining memiliki tugas yang lebih kompleks karena melibatkan data teks yang sifatnya tidak terstruktur dan kabur (fuzzy). Text mining merupakan bidang multidisiplin yang melibatkan intampilanation retrieval, analisis teks, ekstraksi informasi, clustering, kategorisasi, visualisasi, teknologi basis data, machine learning, dan data mining. Perbedaan mendasar antara text mining dan data mining terletak pada sumber data yang digunakan. Pada data mining, pola-pola diekstrak dari basis data yang terstruktur, sedangkan di text mining, pola-pola diekstrak dari data tekstual (natural language). Secara umum, basis data didesain untuk program dengan tujuan melakukan pemrosesan secara otomatis, sedangkan teks ditulis untuk dibaca langsung oleh manusia. 1 Case Folding dan Tokenizing Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Tahap tokenizing/parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. 2 Filtering Filtering adalah tahap mengambil kata-kata penting dari hasil token. Terdapat beberapa algoritma dalam filtering yaitu stop-list dan word-list. Algoritma stop-word merupakan algoritma yang digunakan untuk mengeliminasi kata-kata yang tidak deskriptif. Algoritma word-list adalah algoritma yang digunakan untuk menyimpan kata-kata memiliki nilai deskriptif. 3 Stemming Stemming adalah proses untuk menggabungkan atau memecahkan setiap varian-varian suatu kata menjad kata dasar. Proses stemming pada kata Bahasa Indonesia berbeda dengan stemming pada kata Bahasa Indonesia. Proses stemming pada kata Bahasa Inggris adalah proses untuk mengeliminasi sufiks pada kata sementara proses stemming pada Bahasa Indonesia adalah proses untuk 98

4 mengeliminasi sufiks, prefiks dan konfiks. Terdapat beberapa algoritma dalam stemming, antara lain algoritma Porter dan algoritma Nazief & Adriani. 4 Analyzing Tahap Analyzing merupakan tahap penentuan seberapa jauh kemiripan antar dokumen teks. Terdapat beberapa metode untuk menentukan kemiripan antar dokumen teks antara lain metode Eucliden Distance, metode Cosine Similarity, metode Jaccard Coefficient, metode Person Correlation Coefficient dan metode Average Kullback-Leibler Divergence. Metode tersebut menggunakan persamaan matematika dalam menentukan nilai kemiripan antar berkas dokumen teks Stop-Word Stop-word adalah istilah untuk kata yang tidak memiliki keterkaitan makna yang kuat terhadap hubungan kata-kata lainnya pada suatu kalimat atau paragraf [3]. Stop-word adalah istilah untuk kata yang sering muncul pada suatu dokumen. Stop-word adalah kata yang sangat umum dan kemunculan kata tersebut sangat kecil untuk berpengaruh pada suatu dokumen teks [3]. Stop-word bilamana dieleminasi dari suatu dokumen teks tidak akan menghilangkan makna pada suatu kalimat atau dokumen teks. Dalam bahasa Inggris artikel dan preposisi seperti the, on dan with selalu dianggap sebagai stop-word. Selain itu, kata it, and dan to dapat ditemukan hampir disetiap kalimat pada dokumen berbahasa inggris. Suatu teknik pengeliminasian stop-word yang efisien dibutuhkan pada pengaplikasian pemprosesan bahasa seperti normalisasi ejaan, stemming,stem weighting, intampilanation retrieval [3]. Seperti yang dijelaskan dalam pembahasan diatas, bahwa stop-word merupakan kata-kata yang sering muncul dalam suatu kalimat. Dalam bahasa Indonesia salah satu kata yang sering muncul dalam suatu kalimat adalah preposisi dan konjungsi. Preposisi adalah kata yang merangkai kata-kata atau bagian kalimat dan biasanya diikut oleh nomina atau pronominal. Preposisi bisa berbentuk kata, contoh kata di dan untuk, atau gabungan kata, contoh kata bersama atau sampai dengan. Konjungsi adalah kata atau ungkapan yang menghubungkan dua satuan bahasa sederajat: kata dengan kata, frasa dengan frasa, klausa dengan klausa, serta kalimat dengan kalimat. Contoh konjungsi antara lain: dan, atau, serta. Selain itu terdapat konjungsi yang terdiri dari dua kata, antara lain: tidak hanya, tidak hanya, sedimikian rupa. Pengeleminasian stop-word mampu mengurangi jumlah kata pada dokumen teks. Cara umum yang digunakan dalam menentukan kata sebagai stop-word adalah dengan menghitung frekuensi kemunculan kata pada suatu dokumen. Kata yang memiliki frekuensi terbesar biasanya dianggap sebagai stop-word Algoritma Nazief & Adriani Konjungsi adalah Algoritma stemming Nazief dan Adriani dikembangkan berdasarkan aturan morfologi Bahasa Indonesia yang mengelompokkan imbuhan menjadi awalan (prefix), sisipan (infix), akhiran (suffix) dan gabungan awalan akhiran (confixes) [4]. Algoritma ini menggunakan kamus kata dasar dan mendukung recoding, yakni penyusunan kembali kata-kata yang mengalami proses stemming berlebih. Aturan morfologi Bahasa Indonesia mengelompokkan imbuhan ke dalam beberapa kategori sebagai berikut: [4] 1. Inflection suffixes yakni kelompok akhiran yang tidak merubah bentuk kata dasar. Sebagai contoh, kata duduk yang diberikan akhiran -lah akan menjadi duduklah. Kelompok ini dapat dibagi menjadi dua: i. Particle (P) atau partikel yakni termaksud di dalamnya -lah, kah, tah dan pun. ii. Possessive pronoun (PP) atau kata genti kepunyaan, termaksud di dalamnya -ku, -mu dan - nya. 2. Derivation suffixes (DS) yakni kumpulan akhiran asli Bahasa Indonesia yang secara langsung ditambahkan pada kata dasar yaitu akhiran -i, -kan, dan -an. 99

5 3. Derivation prefixes (DP) yakni kumpulan awalan yang dapat langsung diberikan pada kata dasar murni, atau pada kata dasar yang sudah mendapatkan penambahan sampai dengan 2 awalan. Termaksud di dalamnya adalah: i. Awalan yang dapat bermorfologi ( me-, be-, pe- dan te ). ii. Awalan yang tidak bermorfologi ( di-, ke- dan se- ). Berdasarkan pengklasifikasi imbuhan-imbuhan di atas, maka bentuk kata berimbuhan dalam Bahasa Indonesia dapat dimodelkan sebagai berikut: Gambar 1 Model Kata Berimbuhan dalam Bahasa Indonesia Keterangan : DP : Derivation prefixes DS : Derivation suffixes PP : Possessive pronoun Dengan model bahasa Indonesia di atas serta aturan-aturan dasar morfologi Bahasa Indonesia, aturan yang digunakan dalam proses algoritma Nazief & Adriani sebagai berikut: 1. Tidak semua kombinasi awalan dan akhiran diperbolehkan. Kombinasi-kombinasi imbuhan yang tidak diperbolehkan, yaitu be-i, ke-i, ke-kan, me-an, se-i, se-kan dan te-an. 2. Penggunaan imbuhan yang sama secara berulang tidak diperkenankan. 3. Jika suatu kata hanya terdiri dari satu atau dua huruf, maka proses tidak dilakukan. 4. Penambahan suatu awalan tertentu dapat mengubah bentuk asli kata dasar, ataupun awalan yang telah diberikan sebelumnya pada kata dasar bersangkutan. Sebagai contoh, awalan me- dapat berubah menjadi meng-, men-, meny-, dan mem-. Oleh karena itu diperlukan suatu aturan yang mampu mengatasi masalah morfologi ini. Algoritma Nazief & Adriani memiliki tahap-tahap sebagai berikut: [5] 1. Cari kata dalam kamus jika ditemukan maka diasumsikan bahwa kata tersebut adalah kata dasar. Algoritma berhenti. Jika tidak ditemukan maka lakukan langkah Hilangkan inflectional suffixes bila ada. Dimulai dari inflectional particle ( -lah, -kah, -tah dan -pun ), kemudian possessive pronoun ( -ku, -mu dan -nya ). Cari kata pada kamus jika ditemukan algoritma berhenti, jika kata tidak tidak ditemukan dalam kamus lakukan langkah Hilangkan derivation suffixes ( -an, -i dan -kan ). Jika akhiran -an dihapus dan ditemukan akhiran -k, maka akhiran -k dihapus. Cari kata pada kamus jika ditemukan algoritma berhenti, jika kata tidak tidak ditemukan maka lakukan langkah Pada langkah 4 terdapat tiga iterasi. 1) Iterasi berhenti jika : a Ditemukannya kombinasi awalan yang tidak diizikan berdasarkan awalan b c Tabel 2 Kombinasi Awalan Akhiran yang Tidak Diizinkan Awalan Akhiran yang tidak diijinkan be- -i di- -an ke- -i, -kan me- -an se- -i, kan Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya. Tiga awalan telah dihilangkan

6 2) Identifikasikasikan tipe awalan dan hilangkan. Awalan terdiri dari dua tipe: a Standar ( di-, ke-, se- ) yang dapat langsung dihilangkan dari kata. b Kompleks ( me-, be-, pe-, te ) adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya. Oleh karena itu dibutuhkan aturan pada tabel 2.4 untuk mendapatkan hasil pemenggalan yang tepat. Tabel 2 Aturan Pemenggalan Awalan Aturan Format Kata Pemenggalan 1 berv ber-v be-rv 2 bercap ber-cap dimana C!= r & P!= er 3 bercaerv ber-caerv dimana C!= r 4 Belajar bel-ajar 5 berc1erc2 be-c1erc2 dimana C1!= r l 6 terv ter-v te-rv 7 tercerv ter-cerv dimana C!= r 8 tercp Ter-CP dimana C!= r dan P!= er 9 tec1erc2 Te-C1erC2 dimana C1!= r 10 me{l r w y}v me {l r w y} V 11 mem{b f v} mem-{b f v} 12 Mempe mem-pe 13 mem{rv V} me-m{rv V} me-p{rv V} 14 men{c d j s z} men-{c d js z} 15 menv me-nv me-tv 16 meng{g h q k} meng-{g h q k} 17 mengv meng-v meng-kv mengv-... jika V= e 18 menyv meny-sv. 19 mempa mem-pa dimana A!= e 20 pe{w y}v pe-{w y}v 21 perv per-v pe-rv 23 percap per-cap dimana C!= r dan P!= er 24 percaerv per-caerv dimana C!= r 25 pem{b f V} pem-{b f V} 26 pem{rv V} pe-m{rv V} pe-p{rv V} 27 pen{c d j z} pen-{c d j z} 28 penv pe-nv pe-tv 29 pengc peng-c 30 pengv peng-v peng-kv pengv-... jika V= e 31 penyv peny-sv 32 pelv pe-lv kecuali pelajar yang menghasilkan ajar 33 pecerv Per-erV dimana C!= {r w y l m n} 34 pecp Pe-CP dimana C!={r w y l m n}dan P!= er 35 terc1erc2... ter-c1erc2... dimana C1!= r 36 pec1erc2... pe-c1erc2... dimana C1!={r w y l m n} Keterangan simbol huruf C : huruf konsonan V : huruf vocal A : huruf vocal atau konsonan P : partikel atau fragmen dari setiap kata, misalnya er 101

7 3) Cari kata yang telah dihilangkan awalannya. Apabila tidak ditemukan, maka langkah 4 diulang kembali. Apabila ditemukan, maka algoritma berhenti. 5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses recording dilakukan dengan mengacu pada aturan tabel 2.4. Recording dilakukan dengan menambahkan karakter recording di awal kata yang dipenggal. Pada tabel 2.4, karakter recording adalah huruf kecil setelah tanda hubung ( - ) dan terkadang berada sebelum tanda kurung. Sebagai contoh, kata menangkap (aturan 15) pada tabel 2.4, setelah dipenggal menjadi nangkap. Karena tidak valid, maka recording dilakukan dan menghasilkan kata tangkap. 6. Jika semua langkah gagal, maka input kata yang diuji pada algoritma ini di anggap sebagai kata dasar Cosine Similarity Cosine Similarity merupakan metode perhitungan jarak antara vektor A dan B yang menghasilkan sudut cosine x diantara kedua vektor tersebut. Nilai sudut kosinus antara dua vektor menentukan kesamaan dua buah objek yang dibandingkan dimana nilai terkecil adalah 0 dan nilai terbesar adalah 1. Berikut rumus metode perhitungan Cosine Similarity: 1 (1) Dengan merupakan dot product. Dot product merupakan nilai yang mengekspresikan sudut antara dua vektor. Dot product merupakan skalar nilai hasil dari operasi dua vektor yang memiliki jumlah komponen yang sama. Jika vektor A dan B memiliki komponen sebanyak n, maka dot product dapat dihitung dengan rumus berikut: Dot product dapat dihitung dengan menjumlahkan product dari masing-masing komponen pada kedua vektor. Jika vektor A dan vektor B merupakan vektor 3 dimensi, maka perhitungan dot product adalah sebagai berikut: (2) Sedangkan berikut : merupakan panjang vektor. Panjang vektor dapat dihitung dengan rumus sebagai (3) Perhitungan untuk menentukan nilai persentase kemiripan antar dokumen, maka persentase kemiripan didapat dengan mengalikan nilai Cosine Similarity terhadap 100. Berikut rumus untuk menentukan nilai persentase kemiripan: (4) Analisis Optimasi Aplikasi pendeteksi kemiripan dokumen teks menggunakan algoritma Nazief & Adriani dan metode Cosine Similarity. Algoritma Nazief & Adriani dimanfaat untuk mengubah kata menjadi bentuk kata dasar. Metode Cosine Similarity digunakan untuk menghitung nilai kemiripan antar dokumen teks. Algoritma Nazief & Adriani pada penelitian ini merupakan algoritma yang digunakan untuk mempengaruhi nilai yang dihasilkan oleh metode Cosine Similarity

8 Kita asumsikan bahwa terdapat dua kalimat yang akan dibandingkan menggunakan metode Cosine Similarity. Kalimat no.1 yaitu, Komputer membantu pekerjaan manusia menjadi lebih mudah. kalimat no.2 yaitu, Pekerjaan manusia manjadi lebih mudah bila dibantu oleh komputer. Tabel 3 Potongan dan Jumlah Kata dari Kalimat no.1 dan no.2 No Kata Kalimat Pertama Kalimat Kedua 1 Bila Dibantu Computer Lebih Manusia Membantu Menjadi Mudah Oleh Pekerjaan 1 1 Tabel 3 merupakan kata-kata yang menyusun kalimat pertama dan kedua. Metode Cosine Similarity menggunakan parameter jumlah kata yang sama dan tidak sama dari kedua kalimat untuk membentuk vektor. Berdasarkan tabel 4.1, vektor yang dihasilkan antara lain: Tabel 4Vektor Berdasarkan Aturan Metode Cosine Similarity No Kalimat Vektor yang dihasilkan 1 Komputer membantu pekerjaan manusia menjadi lebih mudah 2 Pekerjaan manusia manjadi lebih mudah bila dibantu oleh computer Keterangan A : vektor untuk kalimat pertama B : vektor untuk kalimat kedua Berdasarkan vektor yang dihasilkan dari tabel 3, maka hasil yang diperoleh dari perhitungan Cosine Similarity adalah 0,7559 dan persentase kemiripan dokumen adalah 75,59%. Untuk mengoptimasikan nilai dari metode Cosine Similarity, maka algortima Nazief & Adriani digunakan sebelum proses perhitungan. Algoritma Nazief & Adriani adalah algoritma yang digunakan pada aplikasi untuk mengubah kata menjadi bentuk kata dasar. Berdasarkan aturan dari algoritma ini maka perubahan kalimat pertama dan kedua dapat dilihat pada tabel 4. Tabel 5 Kalimat no.1 dan no.2 yang Diubah Berdasarkan Aturan Algoritma Nazief & Adriani No Kalimat Bentuk Perubahan Kalimat 1 Komputer membantu pekerjaan manusia menjadi lebih mudah Komputer dapat bantu kerja manusia jadi lebih mudah 2 Pekerjaan manusia manjadi lebih mudah bila dibantu oleh komputer Kerja manusia jadi lebih mudah bila bantu oleh komputer 103

9 Pada tabel 4 terdapat dua kata dari kedua kalimat yang diubah menjadi bentuk kata dasar berdasarkan aturan algoritma Nazief & Adriani. Transformasi kata yang terjadi yaitu membantu menjadi bantu, perkerjaan menjadi kerja dan menjadi menjadi jadi. Tabel 6 Kata-kata Kalimat no.1 dan no.2 yang Telah Diubah Menjadi Kata Dasar Berdasarkan Aturan Algoritma Nazief & Adriani. No Kata Kalimat Kalimat Pertama Kedua 1 Bantu Bila komputer Lebih manusia menjadi mudah Oleh kerja 1 1 Tabel 5 merupakan kata-kata yang menyusun kalimat pertama dan kedua yang telah diubah berdasarkan atuan algoritma Nazief & Adriani. Berdasarkan tabel 4.4, vektor yang dihasilkan berdasarkan aturan metode Cosine Similarity antara lain: Tabel 7 Vektor Berdasarkan Aturan Metode Cosine Similarity No Kalimat Vektor yang dibentuk 1 Komputer bantu pekerjaan manusia jadi lebih mudah 2 Pekerjaan manusia jadi lebih mudah bila bantu oleh komputer Keterangan A : vektor untuk kalimat pertama B : vektor untuk kalimat kedua Berdasarkan vektor yang dihasilkan dari tabel 4.4, hasil yang diperoleh dari perhitungan Cosine Similarity adalah 0,8018 dan persentase kemiripan dokumen adalah 80,18%. Selisih dari perhitungan pertama dan kedua adalah 0,0495 dan selisih persentase adalah 4,95%. Hipotesis yang diperoleh berdasarkan ilustrasi di atas adalah algoritma Nazief & Adriani mampu mempengaruhi nilai kemiripan yang dihasilkan oleh metode Cosine Similarity. Selain memanfaatkan algoritma Nazief & Adriani dan metode Cosine Similarity sebagai penentu nilai kemiripan, penelitian ini juga akan melakukan uji coba terhadap bagaimana pengaruh algoritma Nazief & Adriani dan metode Cosine Similarity. 3. METODE PENELITIAN Aplikasi yang dikembangkan dalam penelitan ini menggunakan model sekuensial linier. Model ini mengusulkan sebuah pendekatan kepada perkembangan perangkat lunak yang sistematik dan sekuensial yang mulai pada tingkat dan kemajuan sistem pada seluruh analisis, desain, kode, pengujian, dan pemeliharaan [6]. Model pengembangan ini mudah diaplikasikan dan menyediakan dokumentasi untuk tiap tahapan secara sistematika. Pengembangan aplikasi dengan metode sekuensial linier memiliki beberapa tahap. Berikut penjelasan tahap-tahap yang akan dilakukan dalam perancangan dan pembuatan aplikasi berdasarkan motode pengembangan sekuensial linier

10 1. Analisis Kebutuhan Tahap analisis kebutuhan merupakan tahap awal dari proses pengembangan sistem. Analisis yang dihasilkan nantinya akan dialokasi ke beberapa subset dari kebutuhan aplikasi. Kebutuhan-kebutuhan yang perlu dianalisis meliputi : a. Identifikasi Masalah b. Analisis data masukan, proses yang terjadi dan informasi keluaran yang diharapkan. b Analisis kebutuhan perangkat lunak. c d Analisis kebutuhan perangkat keras. Analisis kebutuhan pengguna (user) Pada tahap analisis akan kebutuhan pengguna perlu dilakukan penyeleksian kebutuhan pengguna aplikasi dengan melihat kapasistas teknologi dan efisiensi. Analisis dan pendefinisian kebutuhan dilakukan setelah semua kebutuhan terkumpul sehingga sistem yang dibangun dapat memenuhi kebutuhan. Kebutuhan-kebutuhan tersebut bersifat mutlak dikarenakan aplikasi tidak akan mungkin dibuat bila kebutuhan-kebutuhan tersebut tidak terpenuhi. 2. Desain Desain aplikasi dapat dilakukan setelah kebutuhan selesai dikumpulkan secara lengkap dan analisis terhadap aplikasi telah dilakukan. Pada tahap ini akan dilakukan proses mendesain untuk menterjemahkan syarat/kebutuhan ke dalam sebuah reprsentasi perangkat lunak yang dapat diperkirakan demi kualitas sebelum dimulai proses pengkodean. Hal-hal yang perlu didesain pada tahapan ini antara lain: a b c d Desain struktur data pada basis data. Desain ini tidak diperlukan bila aplikasi tidak memanfaatkan basis data. Desain Arsitektur perangkat lunak. Desain ini merancang representasi masukan, proses yang dibutuhkan dan keluaran yang diharapkan. Desain representasi antar muka (interface). Desain detail dari suatu algoritma atau metode. Desain ini tidak diperlukan bila aplikasi tidak menerepakan suata algoritma atau metode. 3. Pengkodean Desain yang dihasilkan pada tahap desan diterjemahkan kembali kedalam bentuk mesin yang dapat dibaca perangkat keras. Proses yang dilakukan dalam tahap ini antara lain: a Penulisan kode aplikasi dengan menggunakan bahasa pemprograman. b Pembuatan basis data. 4. Test/Pengujian Pada tahap ini dilakukan proses pengimplemenasian yang bertujuan untuk menguji aplikasi. Hal-hal yang perlu diuji antara lain: a b c Pengujian per modul oleh programmer. Hal ini bertujuan untuk menguji sub fungsi yang terdapat pada aplikasi. Sebagai contoh, aplikasi pada penelitian ini menggunakan metode cosine similary. Pengujian dilakukan apakah metode cosine similary yang diterapkan aplikasi berjalan dengan benar sesuai aturan yang dimiliki metode Cosine Similarity. Pengujian dengan menggunakan antar muka. Pengabungan sub fungsi yang terdapat pada aplikasi dan diterapkan pada aplikasi utuh yang dilengkapi antar muka. Pengujian aplikasi dengan menggunakan sampel yang telah disiapkan. Sampel yang digunakan masih bersifat sementara. Hal ini bertujuan untuk menguji fungsi aplikasi. 5. Pemeliharaan Pada tahapan pengkodean, aplikasi akan diterapkan dalam lingkungan sebenarnya namun tidak menutup kemungkinan bawah aplikasi mengalami perubahan. Perubahan terjadi akibatkan kesalahankesalahan yang mana kesalahan tersebut dihasilkan pada lingkungan eksternalnya. Hal yang dilakukan dalam tahapan ini antara lain : a Memperbaiki desain dan kesalahan (error) pada program

11 b c Memodifikasi sistem agar dapat beradaptasi dengan perubahan lingkungan Menjaga sistem dari kemungkinan masalah di masa yang akan datang. 4. HASIL PENELITIAN DAN PEMBAHASAN 4.1. Pengujian White-Box Pengujian white box dilakukan dengan menguji atribut dan metode yang ada pada kelas-kelas yang dibangun. Pengujian dilakukan dengan menguji semua tampilan dan metode-metode pada aplikasi yang telah dieksekusi paling tidak satu kali. 1. Splash Screen Splash Screen adalah tampilan yang muncul pertama kali ketika aplikasi dijalankan. Splash Screen terdiri dari gambar logo aplikasi dan progress bar. Progress bar berjalan ketika splash screen muncul. Tampilan awal akan muncul ketika progress bar mencapai nilai 100%. Splash screen akan tertutup jika nilai proses telah mencapai 100%. Gambar 2 adalah gambar tampilan splash screen: Gambar 2 Tampilan Splash Screen 2. Tampilan Awal Splash screen akan tertutup bila progress bar telah mencapai 100%. Tampilan awal aplikasi akan muncul setelah splash screen tertutup. Tampilan awal aplikasi merupakan tempat bagi pengguna untuk melakukan aktivitas membandingkan berkas. Pengguna dapat menambahkan berkas dengan cara menklik tombol tambah berkas (sumber atau pembanding), tombol pada menu berkas atau mendrag langsung berkas ke dalam tabel. Gambar 3 adalah gambar tampilan awal aplikasi: Gambar 3 Tampilan Awal Aplikasi 106

12 3. Tampilan Hasil Perhitungan Setelah aplikasi membandingkan dokumen maka akan muncul hasil perhitungan yang dilakukan aplikasi. Waktu yang dibutuhkan untuk aplikasi membandingkan bergantung pada ukuran berkas dan jumlah berkas. Hasil perhitungan yang telah diproses oleh aplikasi dikirim ke kelas resultview. Kelas resultview merupakan kelas tampilan hasil perhitungan aplikasi. Informasi yang disajikan berupa nama berkas sumber, nama berkas pembanding, hasil perhitungan dan waktu proses. Gambar 4 adalah gambar tampilan hasil perhitungan: Gambar 4 Tampilan Hasil Perhitungan 4.2. Pengujian Black-Box Pengujian black-box bertujuan untuk mencari pengaruh algoritma Nazief & Adriani terhadap perhitungan metode Cosine Similarity. Algoritma ini mengubah kata yang berimbuhan menjadi kata dasar dan selanjutnya akan dihitung menggunakan metode Cosine Similarity. Pengujian yang dilakukan adalah membandingka dokumen D1 dan D2 tanpa menggunakan algoritma Nazief & Adriani dan menggunakan algoritma Nazief & Adriani. Sampel yang digunakan berupa dokumen teks yang terdiri dari beberapa kalimat. Tabel 8 adalah sampel pada percobaan ini. Tabel 8 Sampel pengujian No Kode Dokumen 1 D1 Manusia memanfaatkan komputer untuk menyelesaikan pekerjaan. Komputer mempermudah pekerjaan sehingga lebih efektif dan efesien. Manusia menggunakan komputer untuk membantu pekerjaan mereka pada hampir seluruh bidang pekerjaan. Peranan komputer dapat ditemukan pada bidang kesehatan, keamanan, perkantoran dan pendidikan. Komputer memiliki peranan yang sangat penting bagi kehidupan manusia. 2 D2 Komputer dimanfaatkan manusia dalam penyelesaian pekerjaan. Pekerjaan dipermudah sehingga lebih efektif dan efesien. Komputer digunakan hampir disetiap bidang pekerjaan. Kegunaan komputer dapat ditemukan pada bidang kesehatan, keamanan, perkantoran dan pendidikan. Komputer memiliki peranan yang sangat penting bagi kehidupan manusia. Keterangan D1: Dokumen teks asli D2: Dokumen D1 yang diubah kebentuk pasif. Dokumen D2 merupakan Dokumen D1 yang diubah kebentuk pasif. Setiap kalimat aktif yang terdapat pada dokumen D1 dapat ditemukan pada dokumen D2 namun dalam bentuk pasif. Kalimat aktif dan pasif memiliki makna yang hampir sama namun tata penulisan yang berbeda. Percobaan ini bertujuan untuk mengetahui apakah mengubah suatu kata berimbuhan menjadi kata dasar pada suatu paragraf mempengaruhi hasil perhitungan kemiripan pada aplikasi nanti. Algoritma Nazief & Adriani digunakan untuk mengubah kata berimbuhan menjadi kata dasar. Tabel 8 merupakan hasil percobaan menggunakan sampel pada tabel 8: 107

13 Dokumen Sumber Tabel 9 Hasil pengujian Dokumen Hasil Perhitungan Pembanding tanpa menggunakan algoritma Nazief & Adriani (%) Hasil Perhitungan denganmenggunakan algoritma Nazief & Adriani (%) D1 D2 87,83 93,81 Pada tabel 9, terdapat perbedaan hasil perhitungan antara menggunakan algoritma Nazief & Adriani dan tidak menggunakan. Selisih hasil yang diperoleh dari percobaan adalah 5,98 %. Selisih hasil tersebut menjelaskan bahwa mengubah kata berimbuhan menjadi kata dasar menggunakan algoritma Nazief & Adriani dapat meningkatkan hasil perhitungan kemiripan pada aplikasi. Kesimpulan dari percobaan ini adalah algoritma Nazief & Adrini dapat mengoptimasikan hasil perhitungan pada metode Cosine Similarity pada dokumen teks yang terdiri dari kalimat aktif dan pasif. 5. KESIMPULAN DAN SARAN/REKOMENDASI 5.1. Kesimpulan Berdasarkan hasil penelitian, pengujian, implementasi serta pembahasan mengenai Aplikasi Pendeteksi Kemiripan Pada Dokumen Teks Menggunakan Algoritma Nazief & Adriani dan Metode Cosine Similarity, maka didapatkan kesimpulan sebagai berikut: 1. Aplikasi dirancangan dengan model pengembangan sekuensial linier dan ditulis menggunakan bahasa pemprograman Java. Aplikasi yang dihasilkan adalah aplikasi pendeteksi kemiripan pada dokumen teks menggunakan algoritma Nazief & Adriani dan metode Cosine Similarity. 2. Aplikasi pendeteksi kemiripan pada dokumen teks menggunakan algoritma Nazief & Adriani dan metode Cosine Similarity dapat membandingkan berkas berbeda ekstensi dan membandingkan lebih dari dua dokumen secara bersamaan. 3. Salah satu cara yang dapat digunakan untuk mengoptimasikan nilai kemiripan yang diperoleh dari perhitungan metode Cosine Similarity adalah dengan menerapkan algoritma Nazief & Adriani sebelum proses pehitungan. 4. Berdasarkan hasil yang didapat dari uji kelayakan aplikasi dapat disimpulkan bahwa aplikas pendeteksi kemiripan pada dokumen teks menggunakan algoritma Nazief & Adriani dan Metode Cosine Similarity tergolong ke dalam Saran Berdasarkan hasil penelitian, pengujian, implementasi serta pembahasan mengenai Aplikasi Pendeteksi Kemiripan Pada Dokumen Teks Menggunakan Algoritma Nazief & Adriani dan Metode Cosine Similarity, maka untuk pengembangan penelitian selanjutnya penulis menyarankan sebagai berikut: 1. Aplikasi membutuhkan proses yang relatif lama untuk menampilkan letak kemiripan kata jika salah satu berkas yang dibandingkan memiliki ukuran yang relatif besar. Kedepannya diharapkan untuk dapat mengoptimalkan waktu proses pada proses menampilkan letak kemiripan kata. 2. Terdapat beberapa kata berimbuhan yang tidak dapat diubah kebentuk kata dasarnya menggunakan algoritma Nazief & Adriani. Salah satu kata yang dimaksud adalah kata berilmu yang diubah ke bentuk kata dasar menggunakan algortitma Nazief & Adriani menjadi beril. Kedepannya diharapkan untuk menggunakan algoritma stemming yang memiliki tingkat akurasi lebih tinggi. 3. Penulis tidak dapat melengkapi daftar kata sinonim pada aplikasi dikarenakan waktu yang relatif singkat. Kedepannya diharapkan untuk dapat melengkapi kekurangan yang tidak dapat diselesaikan oleh penulis

14 6. PENUTUP Terimakasih kepada dosen pembimbing dan dosen penguji yang telah membimbing dan mengarahkan penelitian ini. PERNYATAAN ORIGINALITAS Saya menyatakan dan bertanggung jawab dengan sebenarnya bahwa Artikel ini adalah hasil karya saya sendiri kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya. [Azhar Firdaus - NPM. G1A009053] DAFTAR PUSTAKA [1] Pusat Bahasa Departement Pendidikan Nasional, KBBI. Jakarta: Departemen Pendidikan Nasional [2] Witten, Ian H Adaptive Text Mining: Inferring Structure from Sequences?.[Online] Tersedia: [16 Februari 2013] [3] Alajmi, A. Saad, E.M and Darwish, R.R "Toward an Arabic Stop-Words List Generation. Helwan University, 1-6 [4] Tahitoe, Andita Dwiyoga(tanpa tahun). Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia dengan Metode Corpus Based Stemming. Institut Teknologi Sepuluh Nopember, 1-15 [5] Agusta, Ledy. Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief & Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia?.[Online] Tersedia: [17 Februari 2013] [6] Pressman, Roger S. 2002, Rekayasa Perangkat Lunak Pendekatan Praktisi (Buku Satu), Yogyakarta: Penerbit Andi

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Plagiarisme Menurut Peraturan Menteri Pendidikan RI Nomor 17 Tahun 2010 dikatakan: "Plagiat adalah perbuatan sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh

Lebih terperinci

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT 10108371 Latar Belakang Masalah 1. Jumlah buku yang semakin banyak. 2. Belum adanya sistem pencarian informasi buku

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Peringkas Teks Otomatis Berikut ini akan dibahas mengenai teori-teori peringkas teks otomatis dalam beberapa subbab, yaitu sebagai berikut: 2.1.1 Definisi Peringkas Teks Otomatis

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 IMPLEMENTASI METODE VECTOR SPACE MODEL (VSM) UNTUK REKOMENDASI NILAI TERHADAP JAWABAN ESSAY Harry Septianto Teknik Informatika Universitas Komputer Indonesia

Lebih terperinci

SISTEM TEMU BALIK INFORMASI

SISTEM TEMU BALIK INFORMASI SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak 160 ISSN: 2354-5771 Self Organizing Map-Neural Network untuk Pengelompokan Abstrak Self Organizing Map - Neural Network for Abstract Clustering Fajar Rohman Hariri* 1, Danar Putra Pamungkas 2 1,2 Universitas

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori, penelitian terdahulu, dan kerangka pikir yang mendasari penyelesaian permasalahan stemming dengan menggunakan algoritma enhanced confix

Lebih terperinci

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING DOSEN PEMBIMBING Diana Purwitasarti, S.Kom., M.Sc. MAHASISWA Andita Dwiyoga T (5106

Lebih terperinci

BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB 2 LANDASAN TEORI. 2.1 Text mining BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Dasar Teori 2.1.1. Kuis Online Kuis, sebagaimana didefinisikan oleh WordWeb Online (2005) adalah "sebuah ujian yang berisi pertanyaan singkat". QuestionMark & League (2004)

Lebih terperinci

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING 1 IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING Andita Dwiyoga Tahitoe - Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 3 ANALISIS DAN PERANCANGAN SISTEM BAB 3 ANALISIS DAN PERANCANGAN SISTEM 3.1 Analisis Sistem 3.1.1 Analisis Masalah Dilihat dari sistem yang sedang berjalan saat ini sistem pencarian yang berlaku masih manual, dimana pengunjung perpustakaan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkas Teks Otomatis 2.1.1 Pengertian Konsep sederhana ringkasan adalah mengambil bagian penting dari keseluruhan isi dari artikel. Ringkasan adalah mengambil isi yang paling

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Plagiarisme 2.1.1. Pengertian plagiarisme Maxim Mozgovoy (2007) mengemukakan bahwa komputer jika dan hanya jika dapat mendeteksi plagiarisme apabila sejumlah dokumen dianggap

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori mengenai pendeteksian kemiripan dokumen teks yang mengkhususkan pada pengertian dari keaslian dokumen, plagiarisme, kemiripan dokumen, dan

Lebih terperinci

SKRIPSI APLIKASI PENDETEKSI KEMIRIPAN ISI TEKS DOKUMEN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

SKRIPSI APLIKASI PENDETEKSI KEMIRIPAN ISI TEKS DOKUMEN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE SKRIPSI APLIKASI PENDETEKSI KEMIRIPAN ISI TEKS DOKUMEN MENGGUNAKAN METODE LEVENSHTEIN DISTANCE Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik NA FIRUL HASNA ARIYANI E1E1 0 JURUSAN

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING Julianto Wibowo Mahasiswa Program Studi Teknik Informatika, STMIK Budi Darma Medan Jl. Sisimangaraja

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal Soedirman Jl. Mayjen Sungkono Blater Km

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Analisis sentimen Analisis sentimen atau opinion mining merupakan proses memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan informasi sentimen

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Natural Language Processing Natural language processing (NLP), merupakan salah satu pendekatan terkomputerisasi untuk menganalisa teks berdasarkan aspek teori dan teknologi. Menurut

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp ISSN X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY

TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp ISSN X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp. 146 158 ISSN 1829-667X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY Meiyanto Eko Sulistyo 1, Ristu Saptono 2, Adam Asshidiq 3 Jurusan Informatika

Lebih terperinci

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut A. Peringkasan Teks Otomatis BAB II KAJIAN TEORI Peringkasan teks merupakan proses untuk mendapatkan ringkasan teks secara otomatis dengan menggunakan bantuan komputer. Ringkasan teks adalah kumpulan kalimat

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang Plagiarisme atau sering disebut plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah-olah karangan

Lebih terperinci

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang)

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 109 IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) Dea Herwinda

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sentimen Analisis Analisis sentimen juga dapat dikatakan sebagai opinion mining. Analisis sentimen dapat digunakan dalam berbagai kemungkian domain, dari produk konsumen, jasa

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA ISSN (Print) : 1693-1173 ISSN (Online) : 2548-4028 IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA Dwi Wahyudi 1), Teguh Susyanto 2), Didik Nugroho

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

Jurnal String Vol.1 No.2 Tahun 2016 ISSN : PERBANDINGAN ALGORITMA STEMMING PORTER DENGANARIFIN SETIONO UNTUK MENENTUKAN TINGKAT KETEPATAN KATA DASAR Dian Novitasari Program Studi Teknik Informatika, Universitas Indraprasta PGRI Emai : diannovita.unindra@gmail.com

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Pengertian Stemming Stemming merupakan suatu proses atau cara dalam menemukan kata dasar dari suatu kata. Stemming sendiri berfungsi untuk menghilangkan variasi-variasi morfologi

Lebih terperinci

SKRIPSI. Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata Satu Program Studi Informatika

SKRIPSI. Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata Satu Program Studi Informatika HALAMAN JUDU L PENGUKURAN TINGKAT KEMIRIPAN DOKUMEN MENGGUNAKAN ALGORITMA JARO-WINKLER DAN ENHANCED CONFIX STRIPPING STEMMER SKRIPSI Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

Implementasi Stemmer Tala pada Aplikasi Berbasis Web Mardi Siswo Utomo Program Studi Teknik Informatika, Universitas Stikubank email : mardiutomo@gmail.com Abstrak Stemming adalah proses untuk mencari kata dasar pada suatu kata. Pada analisa temu kembali

Lebih terperinci

IMPLEMENTASI ALGORITMA ENHANCED CONFIX STRIPPING STEMMER PADA KAMUS SISTEM BAHASA ISYARAT INDONESIA SKRIPSI ANNIFA IQRAMITHA

IMPLEMENTASI ALGORITMA ENHANCED CONFIX STRIPPING STEMMER PADA KAMUS SISTEM BAHASA ISYARAT INDONESIA SKRIPSI ANNIFA IQRAMITHA IMPLEMENTASI ALGORITMA ENHANCED CONFIX STRIPPING STEMMER PADA KAMUS SISTEM BAHASA ISYARAT INDONESIA SKRIPSI ANNIFA IQRAMITHA 091402028 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan rekomendasi tag serta metode TF-IDF dan Collaborative tagging. 2.1 Rekomendasi Tag Rekomendasi

Lebih terperinci

Learning Vector Quantization untuk Klasifikasi Abstrak Tesis

Learning Vector Quantization untuk Klasifikasi Abstrak Tesis 128 ISSN: 2354-5771 Learning Vector Quantization untuk Klasifikasi Abstrak Tesis Fajar Rohman Hariri* 1, Ema Utami 2, Armadyah Amborowati 3 1,2,3 Magister Teknik Informatika STMIK AMIKOM Yogyakarta E-mail:

Lebih terperinci

Penerapan Algoritma Jaro-Winkler Distance untuk Sistem Pendeteksi Plagiarisme pada Dokumen Teks Berbahasa Indonesia

Penerapan Algoritma Jaro-Winkler Distance untuk Sistem Pendeteksi Plagiarisme pada Dokumen Teks Berbahasa Indonesia 62 Penerapan Algoritma Jaro-Winkler Distance untuk Sistem Pendeteksi Plagiarisme pada Dokumen Teks Berbahasa Indonesia Ahmad Kornain* 1, Ferry Yansen 2, Tinaliah 3 1,2,3 STMIK Global Informatika MDP Jl.

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara

Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Pendeteksian Kesamaan pada Dokumen Teks Kombinasi Algoritma Enhanced Confix Stripping dan Algoritma Winnowing 1 Ade Chania Sion Sagala, 2 Maya Silvi Lydia, 3 Romi Fadillah Rahmat 1,3 Program Studi S1 Teknologi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah 3.1.1 Analisis Kebutuhan Ada banyak hal yang berhubungan dengan sastra atau ilmu bahasa yang dapat diterapkan di dalam teknologi, seperti penerjemahan

Lebih terperinci

Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes

Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes Danny Septiawan 1,Dwi Aries Suprayogi 1,Abdul Malik Mukhtar 1,Wahyudi Hatiyanto 1 1 Teknik Informatika, Program Teknologi Informasi dan Ilmu

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB I PENDAHULUAN. berinovasi menciptakan suatu karya yang original. Dalam hal ini tindakan negatif

BAB I PENDAHULUAN. berinovasi menciptakan suatu karya yang original. Dalam hal ini tindakan negatif 1 BAB I PENDAHULUAN I.1 Latar Belakang Pada dasarnya manusia menginginkan kemudahan Dalam segala hal. Sifat tersebut akan memicu tindakan negatif apabila dilatarbelakangi oleh motivasi untuk berbuat curang

Lebih terperinci

BAB I PENDAHULUAN. sebagai sumber pertama dan utama yang banyak memuat ajaran-ajaran yang

BAB I PENDAHULUAN. sebagai sumber pertama dan utama yang banyak memuat ajaran-ajaran yang BAB I PENDAHULUAN 1.1 Latar Belakang Al-qur an dan hadits sebagai sumber pedoman hidup, sumber hukum dan ajaran dalam islam antara satu dengan yang lain tidak dapat dipisahkan. Al qur an sebagai sumber

Lebih terperinci

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia ISSN : 088-9984 Seminar Nasional dan ExpoTeknik Elektro 0 Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia Jiwa Malem Marsya ) dan Taufik Fuadi Abidin ) ) Data Mining and IR Research Group FMIPA

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

DAFTAR KODE SUMBER. xxxvii

DAFTAR KODE SUMBER. xxxvii DAFTAR KODE SUMBER Kode Sumber 2-1 Contoh dokumen RSS... 9 Kode Sumber 2-2 Contoh dokumen XML... 11 Kode Sumber 3-1 Pseudocode penguraian RSS... 34 Kode Sumber 4-1 Fungsi untuk mengurai konten rss... 120

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

ABSTRAK. Kata kunci: algoritma Smith-Waterman, algoritma Nazief-Adriani, cosine similarity, data mining, dokumen tugas akhir, nilai kemiripan

ABSTRAK. Kata kunci: algoritma Smith-Waterman, algoritma Nazief-Adriani, cosine similarity, data mining, dokumen tugas akhir, nilai kemiripan ABSTRAK Sistem pengecekan kemiripan dokumen tugas akhir pada Fakultas Teknologi Informasi Universitas Kristen Maranatha masih dilakukan secara manual sehingga mahasiswa dapat meniru dokumen tugas akhir

Lebih terperinci

Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity

Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity 1) Tjiong Debora Yulianti, 2) Ade Iriani, 3) Hendry Fakultas Teknologi Informasi Universitas

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

Preprocessing Text Mining Pada Box Berbahasa Indonesia

Preprocessing Text Mining Pada  Box Berbahasa Indonesia Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Preprocessing Text Mining Pada Email Box Berbahasa Indonesia Gusti Ngurah Mega Nata 1), Putu Pande Yudiastra 2) STMIK STIKOM

Lebih terperinci

Klasifikasi Konten Berita Dengan Metode Text Mining

Klasifikasi Konten Berita Dengan Metode Text Mining JURNAL DUNIA TEKNOLOGI INFORMASI Vol. 1, No. 1, (2012) 14-19 14 Klasifikasi Konten Berita Dengan Metode Text Mining 1 Bambang Kurniawan, 1 Shril Effendi, 1 Opim Salim Sitompul 1 Program Studi S1 Teknologi

Lebih terperinci

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia Hargyo Tri Nugroho I. Program Studi Sistem Komputer, Universitas Multimedia

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN : ANALISIS SENTIMEN TERHADAP TELKOM INDIHOME BERDASARKAN OPINI PUBLIK MENGGUNAKAN METODE IMPROVED K-NEAREST NEIGHBOR Herdiawan 1 1 Teknik Informatika Universitas Komputer Indonesia Jalan Dipati Ukur No.

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017 TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas

Lebih terperinci

Peningkatan Algoritma Porter Stemmer

Peningkatan Algoritma Porter Stemmer JNTETI, Vol. 2, No. 2, Mei 2013 1 Peningkatan Algoritma Porter Stemmer Bahasa Indonesia berdasarkan Metode Morfologi dengan Mengaplikasikan 2 Tingkat Morfologi dan Aturan Kombinasi Awalan dan Akhiran Putu

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Algoritma Rabin-Karp Algoritma Rabin-Karp adalah suatu algoritma pencarian string yang diciptakan Michael O. Rabin dan Richard M. Karp pada tahun 1987 yang menggunakan fungsi

Lebih terperinci

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x APLIKASI PENDETEKSI PLAGIAT TERHADAP KARYA TULIS BERBASIS WEB MENGGUNAKAN NATURAL LANGUAGE PROCESSING DAN ALGORITMA KNUTH-MORRIS-PRATT [1] Rio Alamanda, [2] Cucu Suhery, [3] Yulrio Brianorman [1][2][3]

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP Oleh Kadek Versi Yana Yoga,0815051046 Jurusan Pendidikan Teknik Informatika Fakultas Teknik dan Kejuruan

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya. Selain itu juga berfungsi untuk memberikan gambaran dan solusi

Lebih terperinci

APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP

APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP Versi Online: https://journal.ubm.ac.id/index.php/alu Vol.I (No. 1 ) : 12-17. Th. 2018 ISSN: 2620-620X APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP Plagiarisme

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Text Mining Text mining, yang juga disebut sebagai Teks Data Mining (TDM) atau Knowledge Discovery in Text (KDT), secara umum mengacu pada proses ekstraksi informasi dari dokumen-dokumen

Lebih terperinci

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA SKRIPSI diajukan sebagai salah satu persyaratan untuk memperoleh gelar Sarjana Pendidikan Program Studi Pendidikan

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi. 1Volume. 1 Bulan AGUSTUS ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi. 1Volume. 1 Bulan AGUSTUS ISSN : Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 IMPLEMENTATION OF VECTOR SPACE MODEL (VSM) FOR ESSAY ANSWER SCORING RECOMMENDATION Harry Septianto Teknik Informatika Universitas Komputer Indonesia Jl.

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Seiring dengan perkembangan teknologi informasi, maka proses dan media penyimpanan data pun semakin berkembang. Dengan adanya personal computer (PC), orang dapat menyimpan,

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL Giat Karyono 1, Fandy Setyo Utomo 2 1 Program Studi Teknik Informatika, STMIK AMIKOM Purwokerto E-mail

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang 3 BAB I PENDAHULUAN 1.1. Latar Belakang Semakin banyaknya pengunaan teknologi informasi pada pemerintahan, dapat mempermudah masyarakat dalam pelayanan masyarakat itu sendiri. Seperti misalnya ketika sesorang

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III BAB 3 METODE PENELITIAN 3.1. Tahap pengumpulan data Data awal dalam penelitian ini adalah dokumen berupa artikel teks berita online dalam bahasa Indonesia yang dikumpulkan secara acak dari portal

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP Hak cipta dan penggunaan kembali: Lisensi ini mengizinkan setiap orang untuk menggubah, memperbaiki, dan membuat ciptaan turunan bukan untuk kepentingan komersial, selama anda mencantumkan nama penulis

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan teknologi informasi dan komunikasi tidak hanya membawa dampak positif, tetapi juga membawa dampak negatif, salah satunya adalah tindakan plagiarisme (Kharisman,

Lebih terperinci

BAB II LANDASDAN TEORI

BAB II LANDASDAN TEORI DAFTAR ISI HALAMAN SAMPUL... HALAMAN JUDUL... i LEMBAR PERSETUJUAN... ii LEMBAR PENGESAHAN... iii MOTTO DAN PERSEMBAHAN... iv LEMBAR KEASLIAN... v HALAMAN PERNYATAAN PUBLIKASI... vi ABSTAKSI... vii ABSTRACT...

Lebih terperinci

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar BAB I PENDAHULUAN 1.1. LATAR BELAKANG Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar 35 imbuhan resmi yang disebutkan dalam Kamus Besar Bahasa Indonesia. Imbuhan-imbuhan ini dapat

Lebih terperinci