ABSTRAK Seiring dengan berkembangnya teknologi informasi dan banyaknya karya ilmiah, tulisan, dan paper yang dibuat semakin banyak pula kasus penjipla

Ukuran: px
Mulai penontonan dengan halaman:

Download "ABSTRAK Seiring dengan berkembangnya teknologi informasi dan banyaknya karya ilmiah, tulisan, dan paper yang dibuat semakin banyak pula kasus penjipla"

Transkripsi

1 DEVELOPMENT PROGRAM APPLICATION TO THE MEASUREMENT OF DOCUMENTS RESEMBLANCE TEXT MINING, TF-IDF, AND VECTOR SPACE MODEL ALGORITHM Muhamad Iqbal Aziz Undergraduate Program, Faculty of Industrial Engineering, 200 Gunadarma University Keywords: Document Similarity, Text Mining, TF IDF, Space Vector Model ABSTRACT Along with development of information technology and many scientific papers, writings, and papers, it makes more and more cases of plagiarism of people's literature. Plagiarism of a paper is a matter someone who is not praises worthy. Human Easily can checks whether a document is similar to other documents, but measuring the level of similarity of a document with other documents in a computerized automatically has its own problems, therefore this research will from an application be made can measure that the level of similarity between documents in computerized. In this study the techniques used to solve the above problems is to use text mining techniques using keywords, and the algorithm used algorithm is TF / IDF (Term Frequency - Inversed Document Frequency) Vector Space Model and Algorithm. With this research document will from the process of measuring the level of similarity to show how much the value ofthe similarity of documents with other documents.

2 ABSTRAK Seiring dengan berkembangnya teknologi informasi dan banyaknya karya ilmiah, tulisan, dan paper yang dibuat semakin banyak pula kasus penjiplakan suatu karya tulis seseorang. Penjiplakan suatu karya tulis seseorang merupakan suatu hal yang tidak terpuji. Manusia dapat dengan mudah memeriksa apakah suatu dokumen itu sama dengan dokumen lainnya, tetapi pengukuran tingkat kemiripan suatu dokumen dengan dokumen lain secara terkomputerisasi secara otomatis memiliki permasalahan tersendiri, untuk itu pada penelitian ini akan dibuat sebuah aplikasi yang dapat mengukur tingkat nilai kemiripan antar dokumen secara terkomputerisasi. Dalam penelitian ini teknik yang digunakan untuk memecahkan masalah diatas adalah dengan menggunakan teknik text mining dengan menggunakan kata kunci, dan algoritma yang digunakan adalah algoritma TF/IDF (Term Frequency Inversed Document Frequency) dan Algoritma Model Ruang Vektor. Dengan penelitian ini diharapkan proses pengukuran tingkat kemiripan dokumen dapat menunjukan seberapa besar nilai kemiripan dokumen dengan dokumen lainnya. Kata Kunci : Kemiripan Dokumen, Text Mining, TF IDF, Model Ruang Vektor PENDAHULUAN Seiring dengan berkembangnya teknologi informasi dan banyaknya karya ilmiah, tulisan, paper yang dibuat semakin banyak pula kasus penjiplakan suatu karya tulis seseorang. Penjiplakan suatu karya tulis seseorang merupakan suatu hal yang tidak terpuji. Manusia dapat dengan mudah memeriksa apakah suatu dokumen itu memiliki tingkat kemiripan yang sama dengan dokumen lainnya, tetapi pengukuran tingkat kemiripan suatu dokumen dengan dokumen lain secara terkomputerisasi secara otomatis memiliki permasalahan tersendiri. Text mining adalah salah satu cara dalam mengatasi permasalahan diatas. Text mining merupakan proses pengambilan data berupa teks dari sebuah sumber dalam hal ini sumbernya adalah dokumen. Dengan text mining dapat dicari kata-kata kunci yang dapat mewakili isi dari suatu dokumen lalu dianalisa dan dilakukan pencocokan antara dokumen dengan basis data kata kunci yang telah dibuat. Agar pengukuruan tingkat kemiripan dokumen dengan kata kunci mendapatkan hasil yang optimal maka dalam prosesnya menggunkan algoritma TF- IDF (Term Frequency Inversed Document Frequency dan model ruang vektor dari IR 2

3 (Information Retrieval) model untuk mencari nilai Cosine (menghitung nilai cosinus sudut antara dua vector) sebagai pengukur tingkat kemiripan antara dokumen dengan kata kunci yang didapat dari ekstraksi teks pada dokumen. Algoritma ini sudah banyak digunakan orang untuk melakukan penelitian turutama yang berkaitan dengan teks dan dokumen baik itu kesamaan dokumen ataupun pengkategorian dokumen, penelitian sebelumnya hanya menggunakan beberapa kata kunci yang ada pada suatu dokumen bukan kata keseluruhan pada dokumen. Penelitian yang dilakukan ini menggunakan seluruh kata yang ada pada dokumen sehingga diharapkan didapatkan hasil yang lebih baik untuk melakukan pengukuran tingkat kemiripan dokumen yang satu dengan dokumen lainnya. METODE PENELITIAN Pada penelitian ini, metode penelitian yang dilakukan adalah pertama-tama mencari beberapa sampel dokumen. Sampel berupa dokumen yang berisi kalimat, bebarapa kalimat, dan paragraf. Sampel kalimat dan beberapa kalimat adalah suatu file dokumen yang berisi kalimat dan lebih dari satu kalimat yang sama antara dokumen satu dengan dokumen kalimat pembanding, namun terdapat beberapa kalimat dan kata yang berbeda antara kedua dokumen tersebut. Sampel paragraf adalah dokumen yang berisi kumpulan paragraf yang sama namun posisi beberapa paragraf ditukar dengan dokumen paragraf pembanding, dan dokumen paragraf berisi sama makna penulisannya namun ditulis dengan gaya penulisan yang berbeda dengan mengganti beberapa kata antara kedua dokumen paragraph tersebut. Setelah sampel dokumen didapat, kemudian dilakukan penginputan kata kunci dari dokumen sumber, langkah selanjutnya dokumen tersebut dilakukan proses upload untuk merubah dokumen tersebut menjadi dokumen teks yang selanjutnya akan diproses dengan teknik text mining yang akan menghasilkan kata-kata yang mewakili isi dokumen. Setelah mendapatkan kata-kata penting kemudian dapat diproses kembali dengan algoritma TF-IDF untuk mendapatkan nilai bobot dokumen, jika terdapat dokumen dengan nilai bobot yang sama maka akan dilakukan proses kembali untuk mencari nilai cosinus antara dokumen yang sama dengan perhitungan algoritma model ruang vektor. Setelah semua proses selesai maka akan muncul nilai bobot dokumen dari nilai terbesar sampai terkecil, dokumen dengan nilai bobot terbesar adalah dokumen yang memiliki tingkat kemiripan tertinggi. Penelitian ini sudah dilakukan sebelumnya namun penelitian sebelumnya hanya menggunakan beberapa kata kunci yang ada pada suatu dokumen dan lebih menitik beratkan pada masalah pengkategorian dokumen dan hasil pengukuran tingkat kemiripan dokumen 3

4 belum maksimal. Pada penelitian ini akan dilakukan perbandingan dengan seluruh kata yang ada pada dokumen, jadi dilakukan perbandingan dokumen secara utuh dengan lebih banyak kata kunci. Sehingga diharapkan diperoleh hasil yang maksimal untuk mengukur tingkat kemiripan dokumen. Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen (Harlian CH, 2006). Didalam proses Text mining dilakukan beberapa tahapan umum diantarnya seperti dibawah ini : Pemilahan Penyaringan Streaming Tagging Analisa Gambar Proses text mining Sumber : Harlian CH (2006) Tahap pemilahan adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Gambar 2 adalah contoh dari tahap pemilahan. Setelah teks input dilakukan proses pemilahan, maka tahap selanjutnya dilakukan tahap penyaringan. Tahap penyaringan adalah tahap mengambil kata-kata penting dari hasil token, dapat menggunakan algoritma membuang kata yang kurang penting atau menyimpan kata penting. Gambar 3 contoh dari tahap penyaringan. Algoritma pada proses penyaringan ini adalah jika isi teks berisi kata sambung, kata depan, nama hari, nama bulan, nama tempat, serta tanda titik, koma, kurung buka, kurung tutup, slash, tanda tanya, tanda seru, dan spasi maka dihilangkan, sehingga proses penyaringan ini akan menghasilkan kata-kata yang penting saja. 4

5 Tahap selanjutnya adalah tahap stremming adalah tahap mencari dasar kata dari tiap kata hasil filtering. Setiap kata yang memiliki imbuhan seperti imbuhan awalan dan akhiran maka akan diambil kata dasarnya. Tahap ini kebanyakan dipakai untuk teks berbahasa Inggris, hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Gambar 2 Proses Pemilahan Gambar 3 Proses Penyaringan Tahap berikutnya adalah Tahap tagging yang merupakan tahap mencari bentuk awal/root dari tiap kata lampau atau kata hasil stremming. Tahap ini tidak dipakai untuk teks bahasa Indonesia dikarenakan bahasa Indonesia tidak memiliki bentuk lampau. Tahap yang terakhir dalam text mining adalah tahap analyzing yaitu tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada. Algoritma TF/IDF (Term Frequency Inversed Document Frequency) Pada algoritma TF/IDF digunakan rumus untuk menghitung bobot (W) masingmasing dokumen terhadap kata kunci yaitu: (Harlian CH, 2006). (Harlian CH, 2006) dengan: d = dokumen ke-d; t = kata ke-t dari kata kunci; W = bobot dokumen ke-d terhadap kata ke-t; tf = banyaknya kata yang dicari pada sebuah dokumen; 5

6 IDF = Inversed Document Frequency; IDF = log (D/df); D = jumlah dokumen; df = banyak dokumen yang mengandung kata yang dicari. Algoritma Model Ruang Vektor Model ruang vektor adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Salah satu cara untuk mengatasi hal tersebut dalam model ruang vektor adalah dengan cara melakukan perluasan vektor. Proses perluasan dapat dilakukan pada vektor query, vektor dokumen, atau pada kedua vektor tersebut. Pada algoritma vector space model gunakan rumus untuk mencari nilai cosinus sudut antara dua vector dari setiap bobot dokumen (WD) dan bobot dari kata kunci (WK). Rumus yang digunakan adalah sebagai berikut: Gambar 2 Model Ruang Vektor Sumber : Rila Mandala (2006) (Harlian CH, 2006) 6

7 PEMBAHASAN Perancangan Tampilan Aplikasi Rancangan Halaman Utama Gambar 3 Rancangan tampilan Utama Halaman utama merupakan tampilan awal dari program aplikasi ketika user pertama kali menjalankan program. Halaman ini akan menampilkan pesan atau ucapan selamat datang kepada user yang mennggunakan aplikasi ini. Rancangan Halaman Tentang Program Gambar 4 Rancangan tampilan halaman tentang program Halaman ini berisi tulisan mengenai Keterangan yang berisi penjelasan program dan pembuat program aplikasi ini. 7

8 Rancangan Tampilan Unggah File Gambar 5 Rancangan Halaman unggah file Halaman unggah file merupakan tampilan untuk melakukan proses unggah dengan menginputkan file terlebih dahulu dengan cara melakukan browse file pada komputer lokal, mengisi nama penulis dokumen di bagian penulis, dan mengisikan keterangan berupa komentar di bagian keterangan. Halaman ini terdapat keterangan bahwa user dapat mengunggah file yang bertipe file pdf, file Microsoft Word, dan file teks. Rancangan Halaman Daftar Dokumen Gambar 6 Rancangan Halaman daftar dokumen 8

9 Halaman daftar dokumen digunakan untuk menampilkan semua isi dokumen yang telah dilakukan proses unggah file yang telah tersimpan dalam basis data. Dan button cek untuk melakukan proses text mining. Rancangan Tampilan Analisis Dokumen Gambar 7 Rancangan Halaman Analisis Dokumen Pada halaman ini terdapat button berupa radio button untuk memilih file yang akan dibandingkan dengan file lain yang ada di basis data. Dan juga terdapat pilihan pembanding file berupa check box pilihan, dan button bandingkan untuk memproses hasilnya. Rancangan Tampilan Petunjuk Gambar 8 Rancangan Halaman Petunjuk Halaman ini akan berisi teks/tulisan yang terdiri dari beberapa pertanyaan mengeanai cara penggunaan program beserta jawabannya. Perancangan Basis Data 9

10 Pada pembuatan aplikasi ini diperlukan sebuah basis data yang terdiri atas tabel-tabel untuk menyimpan data dari proses yang akan dilakukan oleh aplikasi pendeteksi kemiripan dokumen ini. Tabel-tabel yang diperlukan antara lain adalah tabel dokumen, kata, kata_dokumen, daftar, kata_kunci dan stop_list. Gambar 3.8 adalah gambar yang menunjukan relasi tabel. Gambar 9 Relasi tabel pada aplikasi Berikut ini adalah rincian struktur tabel basis data di atas berdasarkan gambar relasi 3.8 diatas. Tabel Tabel dokumen Nama Field Jenis Data Ukuran Keterangan Id_dokumen int 5 Id dokumen (foreign key) Id_daftar Int 5 Id tabel daftar (foreign key tabel daftar) Filename Text Nama file yang diunggah Penulis Text Nama Penulis WD Double Nilai bobot dokumen Tanggal Date Tanggal Dokumen diupload Tabel 2 Tabel kata 0

11 Nama Field Jenis Data Ukuran Keterangan kata varchar 20 Kata yang diinput (primary key) df Double Nilai df Tabel 3 Tabel kata_dokumen Nama Field Jenis Data Ukuran Keterangan kata varchar 20 Kata yang dinput (foreign key tabel kata) Id_dokumen Int 5 Id dokumen (foreign key tabel dokumen) tf Double Nilai tf Tabel 4 Tabel kata_kunci Nama Field Jenis Data Ukuran Keterangan Id_kata_kunci Int 5 Id kata kunci (primary key) Id_daftar Int 5 Id daftar (foreign key tabel daftar) kata varchar 20 Input Kata kunci Tabel 5 Tabel daftar Nama Field Jenis Data Ukuran Keterangan Id_daftar Int 5 Id daftar dokumen (primary key) daftar Varchar 30 Nama daftar counter int 5 Nilai counter setiap daftar Tabel 6 Tabel stop_list Nama Field Jenis Data Ukuran Keterangan kata varchar 20 Kata Stop list (Primary Key)

12 Algoritma Pembuatan Program Pada pembuatan aplikasi ini, terdapat 2 program utama yang akan dibuat diantaranya satu, program daftar dokumen yaitu program yang akan melakukan analisis pada dokumen yang diunggah dan akan menghasilkan kata kunci Program yang kedua adalah program analisis kemiripan dokumen dengan membandingkan kata kunci dan isi dokumen. Kata kunci tersebut didapat dari proses pengelompokan dokumen lalu dilakukan perhitungan dengan teknik text mining yang menggunakan algoritma TF/IDF dan model ruang vektor. Hasil dari perhitungan tersebut akan menentukan bobot setiap dokumen, dan dokumen yang memiliki bobot terbesar adalah dokumen yang memiliki tingkat kemiripan tertinggi. Untuk menjalankan kedua program utama dibutuhkan file atau dokumen yangakan diproses, oleh karena itu proses unggah file sangat dibutuhkan sebagai tahap awal dari penggunaan program ini. Berikut ini akan dijelaskan bagaimana algoritma dari proses unggah file tersebut. Algoritma Unggah File Proses unggah file atau input dokumen abstraksi ini merupakan tahap awal dari penggunaan program-program selanjutnya. Proses unggah file ini sangat penting dilakukan, karena dokumen yang diinput akan langsung diproses dengan teknik text mining seperti proses pemilahan, penyaringan dan perhitungan kata. Proses-proses tersebut akan menghasilkan kata-kata penting yang mewakili isi suatu dokumen, selain itu juga akan menghasilkan nilai tf dan df pada setiap kata. Nilai tf adalah frekuensi kemunculan setiap kata pada sebuah dokumen dan nilai df adalah frekuensi dokumen yang mengandung sebuah kata. Setelah nilai tf dan df didapat lalu tahap selanjutnya akan dilakukan proses pencarian bobot dokumen yang diunggah, menggunakan algoritma TF-IDF. Setelah mendapatkan nilai bobot dokumen (WD) maka nilai tersebut akan disimpan ke dalam basis data pada tabel dokumen. Gambar 0 menunjukan proses unggah file. 2

13 Gambar 0 Proses unggah File Algoritma Daftar Dokumen Selain untuk melihat dokumen yg telah di unggah, Daftar Dokumen digunakan untuk melaukan proses analisis dokumen dengan menggunkan algoritma text mining. Algoritma text mining terdiri dari beberapa proses. Proses yang pertama adalah pemilahan. Pada proses pemilahan ini, jika isi teks mengandung tanda titik, koma, kurung buka, kurung tutup, slash, backslash, kutip satu, kutip dua, lebih besar, lebih kecil, tanda tanya, tanda seru, tanda &, tanda $, tanda plus, tanda minus, persen, kurung kurawal, kurung siku, tanda _, sama dengan, tanda pagar, spasi, dan karakter/tanda lainnya maka akan dihilangkan, sehingga hanya menyisakan kata saja. Algoritma dari proses pemilahan dijelaskan dalam gambar pseudocode algoritma proses pemilahan berikut ini. 3

14 $teks $kata Isi teks dokumen Pecah pecah $teks berdasarkan kata kata dengan menghilangkan tanda \[]{}<>.!?-":/+();0' While ($kata) // perulangan sebanyak // kata yang telah ditoken { $ kata_kecil ubah $kata menjadi huruf kecil $kata Pecah pecah $kata berdasarkan kata kata dengan menghilangkan tanda ',`~@#$%^&*_=+ \[]{}<>.!?-":/+();0' } Gambar kode program algoritma proses pemilahan Sesuai dengan kode program pada gambar makan pada implementasi program dapat dilihat pada gambar 2 berikut ini. $teks = $teks_input ; $kata = strtok ( $teks, ',`~@#$%^&*_=+ \[]{}<>.!?-":/+();0'); While($kata) { $kecil = strtolower( $kata ); $kata = strtok ( $teks, ',`~@#$%^&*_=+ \[]{}<>.!? ":/+();0');} Gambar 2 Implementasi Algoritma pemilahan Hasil dari proses pemilahan adalah kata-kata yang terpisah, maka pada tahap selanjutnya akan dilakukan proses penyaringan dengan menggunakan teknik stop list, untuk hal itu diperlukan tabel stop_list sebagai filternya. Tabel stop_list adalah tabel yang berisi kata-kata yang tidak memiliki arti penting, yang terdiri dari kata hubung, kata sambung, kata depan, serta nama-nama hari dan bulan yang diambil dari berbagai referensi buku bahasa Indonesia. Proses penyaringan bertujuan untuk menghemat penyimpanan di dalam basis data. Hasil yang didapat dari proses penyaringan akan dihitung jumlah nilai kemunculan setiap kata pada isi dokumen. Algoritma dari proses penyaringan dan perhitungan kata dapat dijelaskan dengan kode program pada gambar 3 berikut ini. 4

15 While ($kata) // perulangan sebanyak kata yang ditoken { $kata_kecil ubah $kata menjadi huruf kecil. $num hitung banyaknya jumlah record pada tabel stop_list dimana kata seperti kata_kecil If ($num<){ $num2 hitung banyaknya jumlah record pada tabel kata_dokumen dimana kata seperti kata_kecil dan id_dokumen = $id If ($num2>0){ Else { Lakukan query untuk mengupdate nilai tf pada tabel dokumen yang kata = $kecil dan id_dokumen = $id } Lakukan query untuk menginput data ke table kata_dokumen dengan mengisikan kata = $ kata, $id_dokumen=$id, dan tf= } } Gambar 3 kode program algoritma proses penyaringan dan perhitungan kata Sesuai dengan kode program pada gambar 3 makan pada implementasi program dapat dilihat pada gambar 4 berikut ini. while($kata) {$kecil=strtolower("$kata"); $num=mysql_num_rows(mysql_query("select * FROM stop_list WHERE kata LIKE '%$kecil%'")); if($num<){ $num2=mysql_num_rows(mysql_query("select * FROM kata_dokumen WHERE kata ='$kecil' AND id='$document'")); if($num2>0){ $detail=mysql_query("select tf FROM kata_dokumen where kata='$kecil' AND id='$document'"); $d = mysql_fetch_array($detail); $counter=$d[tf]+; mysql_query("update kata_dokumen SET tf=$counter WHERE kata='$kecil' AND id='$document'");} else{ mysql_query("insert INTO kata_dokumen(kata,id,tf) VALUES('$kecil','$document',)");}} Gambar 4 Implementasi Algoritma penyaringan dan perhitungan kata Setelah proses penyaringan dan perhitungan kata selesai maka akan didapat kumpulan kata kunci, lalu akan disimpan ke basis data didalam tabel kata_dokumen. 5

16 Algoritma Proses Analisis Kemiripan Dokumen Dalam proses analisis kemiripan dokumen, penulis menggunakan teknik text mining dengan algoritma Tf-IDF dan model ruang vektor. Algoritma TF-IDF akan memeriksa kemunculan tiap kata pada isi dokumen dari hasil pemilahan, penyaringan, dan perhitungan kata untuk dilakukan perhitungan rumus TF-IDF yang akan menghasilkan bobot dokumen. Untuk memperoleh hasil yang baik maka hasil dari algoritma TF-IDF akan diproses kembali dengan algoritma model ruang vektor. Hasil akhir dari program ini akan didapat nama-nama dokumen yang isinya memiliki tingkat kemiripan dengan kata kunci. Gambar 3.9 adalah gambaran umum dari program analisis kemiripan dokumen. Untuk menganalisis tingkat kemiripan antar suatu kata kunci pada dokumen dengan dokumen lain, tahap yang harus dilakukan adalah memilih dokumen yang ingin dibandingkan dan dokumen yang menjadi pembandingnya. Dokumen yang dipilih untuk dibandingkan memiliki kata kunci, dan kata kunci tersebut yang akan dianalisis tingkat kemiripannya dengan dokumen lain. 6

17 Gambar 5 Gambaran umum proses analisis kemiripan dokumen 7

18 Setelah mendapatkan kumpulan kata kunci pada dokumen yang ingin dibandingkan, maka program akan melakukan proses looping atau perulangan sebanyak jumlah kata kunci tersebut. Dalam proses perulangan ini, setiap satu kata kunci akan dibandingkan dengan seluruh dokumen pembanding, untuk mendapatkan nilai bobot kata kunci (W K2 ), dan bobot dokumen terhadap kata kunci (W DK2 ). Untuk mendapatkan nilai bobot kata kunci digunakan tahap-tahap sebagai berikut.. Cari nilai IDF untuk setiap kata kunci, dengan rumus I DF = log(d/df) 2. Hitung nilai bobot kata kunci (WK2), dengan rumus W K =tf I DF 2 W K2 = W K2 + W K 3. Hitung nilai bobot dokumen terhadap kata kunci (WDK), dengan rumus W DK = W K (tf I DF ) Proses perhitungan tahap-tahap diatas dilakukan untuk setiap satu kata kunci dengan seluruh dokumen pembanding. Agar hasilnya lebih optimal hasilnya dikombinasikan dengan perhitungan model ruang vektor, dengan rumus Nilai Setelah perhitungan nilai cosinus pada algoritma model ruang vektor dilakukan maka hasil nilai perhitungan pada setiap dokumen akan di urutkan dari nilai cosinus tertinggi. Dokumen yang memiliki nilai cosinus tertinggi adalah dokumen yang memiliki tingkat kemiripan tertinggi dengan kata kunci. 8

19 Pengujian dan Penerapan Program Uji Coba Keluaran Program Gambar 6 Tampilan Utama Gambar 7 Halaman Tentang Program Gambar 8 Tampilan Halaman Unggah File Gambar 9 Halaman Daftar Dokumen Gambar 20 Tampilan Halaman Analisis Dokumen Gambar 2 Tampilan Petunjuk Uji Coba Aplikasi Daftar Dokumen dan Analisis Text Mining Setelah pada sub bab sebelumnya kita melakukan pengujian tampilan keluaran sesuai dengan perancangan design tampilan aplikasi. Maka selanjutnya kita akan melakukan pengujian fungsi aplikasi. Fungsi aplikasi pertama yang akan dilakukan pengujian adalah fungsi daftar dokumen dan untuk melakukan analisis algoritma text mining. Pada pengujian 9

20 kali ini digunakan dua buah dokumen sample, yaitu dokumen.pdf dan dokumen2.pdf, di bawah ini. saya makan nasi dengan sendok. Adik minum susu coklat, dan ibu masak di dapur Gambar 22 Dokumen.pdf saya makan nasi dengan tangan. Ayah membaca Koran, dan ibu masak di dapur Gambar 23 Dokumen2.pdf Dokumen sample diatas sebelum dapat dilihat didalam daftar dokumen yang ada dalam basis data, hal pertama yang harus dilakukan adalah melakukan proses unggah dengan memilih menu unggah file. Setelah dilakukan unggah file maka dokumen dapat dilihat pada daftar dokumen, seperti gambar 4.9 dibawah ini. Gambar 24 Daftar Dokumen Kemudian untuk melakukan proses text mining kita tinggal memilih check button yang ada pada aplikasi kemudian klik button Cek untuk melakukan proses text mining. Berikut ini adalah adalah hasil dari proses text mining pada kedua sample tersebut pada gambar 25. Gambar 25 Hasil Proses text mining Berikut ini hasil pemilahan dan penyaringan secara manual dari kedua dokumen. dokumen pertama berisi beberapa kalimat yaitu saya makan nasi dengan tangan. Ayah 20

21 membaca Koran, dan ibu masak di dapur hasil pemilahan dan penyaringan secara manual dapat dilihat pada gambar 26 dibawah ini. Gambar 26 Pemilahan dan penyaringan dokumen.pdf Selanjutnya adalah dokumen2.pdf. Dokumen kedua berisi beberapa kalimat yaitu saya makan nasi dengan sendok. Adik minum susu coklat, dan ibu masak di dapur hasil pemilahan dan penyaringan secara manual dapat dilihat pada gambar 27 dibawah ini. Gambar 27 Pemilahan dan penyaringan dokumen2.pdf Dari perhitungan secara manual didapatkan hasil yang sama dari proses pemilahan dan penyaringan. Dan artinya aplikasi ini bisa menjalankan fungsinnya dalam melakukan proses algoritma text mining. 2

22 4.3 Uji Coba Aplikasi Analisis Dokumen Pada sub bab ini kita akan coba melihat fungsi aplikasi analisis dokumen yang digunakan untuk melakukan pengukuran kemiripan antara suatu dokumen dengan dokumen lain. Algoritma yang digunakan adalah TF /IDF dan model ruang vektor. Pada uji coba kali ini kita akan akan mengunggah satu buah file lagi yaitu kalimat.pdf yang akan menjadi pembanding antara 2 file sebelumnya. Hal ini dilakukan agar dapat dengan mudah melakukan pengukuran kemiripan dokumen antara ketiga file tersebut. File kalimat.pdf berisi seperti gambar 28 dibawah ini. saya makan nasi dengan tangan Gambar 28 kalimat.pdf Setelah melakukan proses unggah file proses selanjutnya adalah sebelum kita melakukan proses perhitungan dengan menggunakan aplikasi kita harus melakukan proses secara manual dan kemudian akan disesuaikan dengan perhitungan dengan menggunkan aplikasi. Proses yang pertama harus dilakukan adalah proses pemilahan dan penyaringan. Hasil dari proses pemilahan dan fitering seperti gambar 29 dibawah ini. Gambar 29 Pemilahan dan penyaringan kalimat.pdf Setelah melakukan proses pemilahan dan penyaringan selanjutnya kita akan melakukan proses perhitungan untuk melakukan pengukuran kemiripan dokumen dengan menggunakan algoritma TF/IDF dan model ruang vektor. Berikut ini perhitungan pengukuran kemiripan dokumen secara manual. 22

23 Perhitungan nilai tf pada setiap dokumen Tabel 6 Nilai tf dokumen.pdf Tabel 7 Nilai tf dokumen2.pdf Kata Saya Makan Nasi Tangan Ayah Membaca Koran Ibu Masak dapur Sample.pdf tf Tabel 8 Nilai tf kalimat.pdf Kata Saya Makan Nasi Sendok Adik Minum Susu Coklat Ibu Masak dapur Sample2.pdf tf Dokumen.pdf Kata tf Saya Makan Nasi Tangan Perhitungan Nilai Df Tabel 9 Perhitungan Nilai Df Kata Saya Makan Nasi Tangan Sendok Ayah Membaca Koran Adik Minum Susu Coklat Ibu Masak dapur Df

24 Pengujian secara manual akan dilakukan pada ketiga dokumen tesebut dengan dokumen.pdf yang akan dicari nilai kemiripannya dengan dokumen lain yaitu sample.pdf dan sample2.pdf. Misalkan bobot setiap dokumen diketahui sebagai berikut. Bobot dokumen.pdf : 0, Bobot sample.pdf : 0, Bobot sample2.pdf :, Karena dokumen.pdf yang akan dicari nilai kemiripan dokumennya dengan dokumen lain, maka kata kunci yang dipakai adalah saya, makan, nasi, dan tangan. Proses perhitunganya adalah sebagai berikut. Kata Kunci : Saya W(KK) = tf saya IDF saya = Log(D/df saya ) = Log(3/3) = 0 W(KK) 2 = 0 W(D2, saya) = tf saya IDF saya = Log(3/3) = 0 W(D3, saya) = tf saya IDF saya = Log(3/3) = 0 Kata Kunci : Makan W(KK) = tf makan IDF makan = Log(D/df makan ) = Log(3/3) = 0 W(KK) 2 = 0 W(D2, makan) = tf makan IDF makan = 0 Log(3/3) = 0 24

25 W(D3, makan) = tf makan IDF makan = 0 Log(3/3) = 0 Kata Kunci : Nasi W(KK) = tf nasi IDF nasi = Log(D/df nasi ) = Log(3/3) = 0 W(KK) 2 = 0 W(D2, nasi) = tf nasi IDF nasi = 0 Log(3/3) = 0 W(D3, nasi) = tf nasi IDF nasi = 0 Log(3/3) = 0 Kata Kunci : Tangan W(KK) = tf tangan IDF tangan = Log(D/df tangan ) = Log(3/2) = 0, W(KK) 2 = 0, W(D2, tangan) = tf tangan IDF tangan = Log(3/2) = 0,

26 Perhitungan Nilai Cosinus Kata kunci : saya Cosinus(D2) = WKK W(D 2, saya) / = 0 0 / = 0 Cosinus(D3) = WKK W(D 3, saya) / = 0 0 / = 0 Kata kunci : makan Cosinus(D2) = WKK W(D 2, makan) / = 0 0 / = 0 Cosinus(D3) = WKK W(D 3, makan) / = 0 0 / = 0 Kata kunci : nasi Cosinus(D2) = WKK W(D 2, nasi) / = 0 0 / = 0 Cosinus(D3) = WKK W(D 3, nasi) / = 0 0 / = 0 26

27 Kata kunci : tangan Cosinus(D2) = WKK W(D 2, tangan) / = 0, , = 0,03 / 0,58 = 0,96 Maka dokumen 2 atau sample.pdf yang memiliki nilai kemiripan yang paling tinggi dengan angka 0,96 atau 9,6%. Setelah nilai kemiripan dokumen dihitung secara manual makan kita akan mengujinya dengan menngunakan aplikasi yang sudah dibuat apakah hasil pada perhitungan aplikasi sama dengan perhitungan manual. Setelah dilakukan proses unggah maka kita akan mendapatkan tampilan seperti gambar 30 dibawah ini. Gambar 30 Dokumen yang telah diunggah Karena file yang akan dianalisis kemiripan dokumennya adalah kalimat.pdf dan yang akan menjadi pembanding adalah dokumen.pdf dan dokumen2.pdf maka kita memilih kalimat.pdf sebagai file yang ingin dibandingkan dan kedua file lainnya sebagai file pembanding seperti gambar 3 dibawah ini. 27

28 Gambar 3 Pemilihan dokumen yang ingin dibandingkan Kemudian klik button Bandingkan makan hasil perhitungan aplikasi pengukuran kemiripan dokumen seperti gambar 32 dibawah ini. 28

29 Gambar 32 Hasil Perhitungan Aplikasi Sesuai proses perhitungan pada gambar 32, nilai kemiripan tertinggi adalah sebesar 0,96. Oleh karena itu hasil kemiripan dokumen yang paling tinggi adalah dokumen 2, seperti yang ditunjukan gambar 33 berikut ini. Gambar 33 Hasil penentuan tingkat kemiripan Hasil perhitungan analisis tingkat kemiripan dokumen dengan menggunakan aplikasi sama dengan perhitungan secara manual, oleh karena itu fungsi aplikasi tingkat kemiripan dokumen ini sudah sesuai dengan yang diharapkan. 29

30 Penerapan Aplikasi Data Penerapan Selain data yang telah ada sebelumnya ada penambahan 3 buah data untuk dilakukan penerpan seperti gambar dibawah ini. Gambar 34 Data Penerapan Puisi.pdf Gambar 35 Data Penerapan Puisi2.pdf 30

31 Gambar 36 Data Penerapan Puisi3.pdf Berikut dibawah ini tabel daftar data yang akan digunakan pada penerapan aplikasi dan keterangannya. Tabel 0 Data Penerapan Aplikasi No Nama File Jenis File Ket Dokumen.pdf Dokumen Dokumen terdiri dari 3 kalimat 2 Dokumen2.pdf Dokumen Dokumen terdiri dari 3 kalimat. Satu kalimat sama dengan dokumen.pdf, namun ada kalimat pada dokumen yang sama dengan dokumen2 hanya kata yang berbeda 3 Kalimat.pdf Kalimat Terdiri dari kalimat yang sama dengan dokumen2.pdf 4 Puisi.pdf Dokumen Isi dokumen berupa karya puisi 5 Puisi2.pdf Dokumen Berisi karya puisi yang sama maknanya dengan karya pada puisi.pdf namun ditulis dengan gaya penulisan yang berbeda 3

32 6 Puisi3.pdf Dokumen Berisi karya puisi yang sama dengan karya pada puisi2.pdf namun ditulis paragfraf yang berbeda dengan memindahkan posisi parafgraf Hasil Penerapan Aplikasi Menggunakan data Dengan Cara yang sama hasil penerapan aplikasi menggunakan data hasilnya dapat kita lihat pada tabel dibawah ini. Tabel Hasil Penerapan Program dengan Data NO Data yang Dibandingkan Data Pemabanding Kasus Hasil Dokumen.pdf Dokumen.pdf dan Dokumen2.pdf Dokumen sama Namun susunan kalimatnya yang berbeda Dokumen.pdf =9, 6 % Dokumen 2.pdf = 0 % 2 Puisi.pdf Puisi2.pdf Dokumen yang sama namun dengan gaya Tingkat kemiripan = 53,3% penulisan yang berbeda 3 dokumen.pdf dokumen.pdf Dokumen yang sama Tingkat Kemiripan = 00% 4 Puisi2.pdf Puisi3.pdf Dokumen yang sama namun susunan paragraf yang berbeda Tingkat kemiripan = 83,8% Kesimpulan Keseluruhan program dapat berjalan dengan baik. Keluaran tampilan program sudah sesuai dengan yang apa yang telah dirancang dan dapat berjalan dengan baik. Fungsi aplikasi program terdiri dari fungsi aplikasi cek analisa text mining yaitu proses pemilahan dan penyaringan serta fungsi pengukuran kemiripan dokumen. Kedua fungsi itu sudah berjalan dengan baik dan perhitungan secara manual kedua fungsi tersebut sesuai dengan perhitungan di dalam aplikasi. 32

33 Pada cek analisa text mining keenam sample dokumen fungsi ini sudah berjalan dengan baik. Kemudian pada analisa pengukuran kemiripan dokumen yang dibandingkan adalah kalimat.pdf dan yang menjadi pembanding dokumen.pdf dan dokumen2.pdf menghasilkan yang paling mendekati dengan kalimat.pdf adalah dokumen.pdf dengan persentasi kemiripan 9,6% dan persentasi kemiripan dengan dokumen2.pdf adalah 0%. Dan pada penerapan program persentase perbandingan kemiripan puisi.pdf dengan pembanding puisi2.pdf adalah 53,3%. Dan dari percobaan tingkat kemiripan dokumen dari dua dokumen yang sama yaitu dokumen.pdf didapat hasil dengan persentasi kemiripan dokumen adalah 00%. Dan yang terakhir dari percobaan dua dokumen yang sama namun mempunya struktur paragraf yang berbeda yaitu puisi2.pdf dan puisi3.pdf didapatkan hasil kemiripan dokumen 83,8%. Dari keempat percobaan itu dinilai sudah susuai apabila dilakukan dengan pengamatan mata manusia. Saran Untuk menambah keakuratan hasil dari proses analisa text mining dan pengukuran kemiripan dokumen adalah untuk menggunakan banyak dokumen sumber untuk pengisian kata kunci di basis data. Dan melakuan penambahan perbendaharaan kata yang akan dimasukan kedalam basis data kata kunci. Daftar Pustaka Feinerer,Ingo, Kurt Hornik, dan David Mayer. 9 april 200. Text Mining Infrastructure in R. Harlian,Milkha Ch. 9 april 200. Text Mining. Mandala, Rila, 9 april 200. Evaluasi Kinerja Sistem Penyaringan Informasi Model Ruang Vektor. 33

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PERANCANGAN  CLIENT DENGAN PENGKLASIFIKASIAN  MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN PERANCANGAN EMAIL CLIENT DENGAN PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN 081402050 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x APLIKASI PENDETEKSI PLAGIAT TERHADAP KARYA TULIS BERBASIS WEB MENGGUNAKAN NATURAL LANGUAGE PROCESSING DAN ALGORITMA KNUTH-MORRIS-PRATT [1] Rio Alamanda, [2] Cucu Suhery, [3] Yulrio Brianorman [1][2][3]

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017 TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE OFFICE OF TERM FREQUENCY

Lebih terperinci

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun Vol. 4, No. 1, Tahun 2015 61 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : https://jurnal.pcr.ac.id/index.php/jakt/about Email : pustaka@pcr.ac.id Sistem Pendeteksi Kemiripan Proyek Akhir

Lebih terperinci

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun Vol. 1, No. 2, Tahun 2012 15 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : http://jurnal.pcr.ac.id/index.php/jakt/about/index Email : pustaka@pcr.ac.id Aplikasi Pendeteksi Plagiat dengan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL-QUR AN DALAM BAHASA INDONESIA

PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL-QUR AN DALAM BAHASA INDONESIA PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL-QUR AN DALAM BAHASA INDONESIA Ogie Nurdiana 1, Jumadi 2, Dian Nursantika 3 1,2,3 Jurusan Teknik

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Di era globalisasi seperti sekarang ini, perkembangan teknologi komputer berpengaruh besar pada tingkat kebutuhan manusia di berbagai bidang seperti bidang

Lebih terperinci

PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR

PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Rizki Tri Wahyuni 1, Dhidik Prastiyanto 2, dan Eko Supraptono 3 Jurusan Teknik Elektro, Fakultas Teknik,

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

Mesin Pencari Dokumen Karya Ilmiah pada Lingkungan Akademik (Scientific Documents Search Engine in Academic Environment)

Mesin Pencari Dokumen Karya Ilmiah pada Lingkungan Akademik (Scientific Documents Search Engine in Academic Environment) Mesin Pencari Dokumen Karya Ilmiah pada Lingkungan Akademik (Scientific Documents Search Engine in Academic Environment) B.Very Christioko Fakultas Teknologi Informasi dan Komunikasi Universitas Semarang

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME Anacostia Kowanda 1 Ika Pretty Siregar 2 Junior Lie 3 Nur Farida Irmawati 4 Detty Purnamasari 5 1,2,3,4 JurusanTeknik Informatika,

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN 26 BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya, selain itu juga berfungsi untuk memberikan gambaran dan

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

Mardi Siswo Utomo Fakultas Teknologi Informasi Universitas Stikubank Semarang

Mardi Siswo Utomo Fakultas Teknologi Informasi Universitas Stikubank Semarang ! " #! " $ # % " & % % '! ( $ ) $ * # ) # +, - - - - - - - - - -. / 0 % $ 1 " 2 ' $ " 3 4 ' 5 6 % 7 + )!, $ 5 & % - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Lebih terperinci

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour Information Retrieval Document Classified with K-Nearest Neighbor Endah Purwanti 1 Fakultas Sains dan Teknologi Universitas Airlangga

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN. menentukan dan mengungkapkan kebutuhan sistem. Kebutuhan sistem terbagi menjadi

BAB 3 ANALISIS DAN PERANCANGAN. menentukan dan mengungkapkan kebutuhan sistem. Kebutuhan sistem terbagi menjadi BAB 3 ANALISIS DAN PERANCANGAN 3. Analisis Kebutuhan Sistem Hal pertama yang perlu dilakukan dalam analisis kebutuhan sistem adalah menentukan dan mengungkapkan kebutuhan sistem. Kebutuhan sistem terbagi

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN

BAB 3 ANALISIS DAN PERANCANGAN BAB 3 ANALISIS DAN PERANCANGAN 3.1 Analisis Masalah Penelitian yang sudah pernah membuat sistem ini berhasil menciptakan pembangkitan pertanyaan non-factoid secara otomatis dengan menggunakan tiga jenis

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA Suprianto 1), Sunardi 2), Abdul Fadlil 3) 1 Sistem Informasi STMIK PPKIA Tarakanita Rahmawati 2,3 Magister Teknik Informatika Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN 3.1 Alur Penelitian Dalam pembangunan sistem, penelitian menggunakan model Software Development Life Cycle). Model-model yang digunakan pada SDLC yaitu : a) Waterfall, b)

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

BAB III PERANCANGAN APLIKASI & MEKANISME PEMBOBOTAN SICBI

BAB III PERANCANGAN APLIKASI & MEKANISME PEMBOBOTAN SICBI BAB III PERANCANGAN APLIKASI & MEKANISME PEMBOBOTAN SICBI 3.1. KONSEP APLIKASI SIMPLE-O adalah aplikasi penilaian esai otomatis berbasis web yang dikembangkan di Indonesia, tepatnya di Departemen Teknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

BAB III PEMBAHASAN. Pembahasan yang kami lakukan pada kerja praktek di PT. Malayandi Tour & Travel hanya mengenai karyawan tetap saja.

BAB III PEMBAHASAN. Pembahasan yang kami lakukan pada kerja praktek di PT. Malayandi Tour & Travel hanya mengenai karyawan tetap saja. BAB III PEMBAHASAN 3.1 Analisis Sistem Analisis sistem adalah proses penguraian dari suatu sistem informasi yang utuh kedalam bagian-bagian komponennya yang bertujuan untuk mengidentifkasi dan mengevaluasi

Lebih terperinci

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA Abstract This research is about document classification using K-Nearest Neighbor method. We will develop a

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval

Sistem Temu Kembali Informasi/ Information Retrieval Sistem Temu Kembali Informasi/ Information Retrieval Pemodelan IR Imam Cholissodin S.Si., M.Kom. Table Of Content 1. Boolean Retrieval Model Boolean Index Inverted Index 2. Boolean Query Retrieval 3. Vector

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB III ANALISIS DAN DESAIN SISTEM

BAB III ANALISIS DAN DESAIN SISTEM BAB III ANALISIS DAN DESAIN SISTEM III.1. Analisa Sistem yang sedang Berjalan Dalam penulisan skripsi ini, penulis membahas dan menguraikan tentang masalah sistem informasi geografis daerah tertib lalu

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Sumber opini teks saat ini tersedia berlimpah di internet akan tetapi belum sepenuhnya dimanfaatkan karena masih kurangnya tool yang ada, sedangkan perkembangan

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III ANALISIS DAN PERANCANGAN SISTEM BAB III ANALISIS DAN PERANCANGAN SISTEM 3.1. Analisis Masalah Setiap tahunnya, DPP Infokom selaku panitia Pelatihan Aplikasi Teknologi dan Informasi (PATI) Universitas Muhammadiyah Malang menerima ribuan

Lebih terperinci

KATA PENGANTAR Sistem Pencarian Informasi Data-Teks Menggunakan Model Ruang Vektor

KATA PENGANTAR Sistem Pencarian Informasi Data-Teks Menggunakan Model Ruang Vektor ABSTRAK Evolusi dari hadirnya Internet sebagai perpustakaan digital telah merubah cara memproses suatu dokumen data-teks. Sistem pencarian informasi data-teks saat ini sangatlah diperlukan. Suatu sistem

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

Membuat Tabel. Tahapan membuat tabel menggunakan Microsoft Access 2007 : 1. Pilih menu create >> table. Microsoft Office Access Field.

Membuat Tabel. Tahapan membuat tabel menggunakan Microsoft Access 2007 : 1. Pilih menu create >> table. Microsoft Office Access Field. 3. Membuat Tabel Tabel merupakan set data di dalam database dan merupakan objek utama di dalam database. Tabel digunakan untuk menyimpan sebuah data. Setelah sebelumnya membahas bagaimana membuat database,

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci