APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

Ukuran: px
Mulai penontonan dengan halaman:

Download "APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA"

Transkripsi

1 APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas Ilmu Komputer Universitas Gunadarma ( adhitherwansyah@yahoo.com) ABSTRAK Semakin meningkatnya kemajuan Universitas Gunadarma, maka banyak sekali pembuatan penulisan ilmiah oleh mahasiswa. Sebuah penulisan ilmiah dapat dengan mudah dikategorikan secara manual oleh manusia, tetapi jika dilakukan secara terkomputerisasi akan membawa permasalahan tersendiri. Begitu pula dengan mencari tingkat kemiripan atau similaritas suatu dokumen dengan dokumen lainnya, manusia dapat dengan mudah menentukan apakah suatu dokumen memilki tingkat kemiripan atau similaritas dengan dokumen lainnya atau tidak, untuk itu pada penelitian ini akan dibuat sebuah tools yang dapat mengkategorikan dokumen dan mencari tingkat nilai similaritas antar dokumen secara terkomputerisasi. Dalam penelitian ini teknik yang digunakan untuk memecahkan masalah diatas adalah dengan menggunakan teknik text mining untuk pengkategorian dokumen penulisan ilmiah. Sedangkan untuk mencari nilai similaritas suatu dokumen dengan dokumen lainnya menggunakan kata kunci yang didapat dari hasil pengakategorian dokumen, dan algoritma yang digunakan adalah algoritma TF/IDF (Term Frequency Inversed Document Frequency) dan Algoritma Vector Space Model. Dengan penelitian ini diharapkan proses pengkategorian dokumen secara terkomputerisasi, hasilnya dapat sesuai dengan pengkategorian secara manual. Dan pengukuran tingkat similaritas dokumen dapat menunjukan seberapa besar nilai similaritas dokumen dengan dokumen lainnya. Kata Kunci : Pengkategorian Dokumen, Similaritas Dokumen, Text Mining, TF-IDF, Vector Space Model PENDAHULUAN Pemilahan sebuah karya penulisan ilmiah dapat dilakukan dengan mudah oleh manusia, tetapi pemilahan dokumen dilakukan secara otomatis dengan komputer akan membawa permasalahan tersendiri. Begitu pula dengan mengukur tingkat kemiripan suatu dokumen dengan dokumennya lainnya, manusia dapat dengan

2 mudah mengukur apakah suatu dokumen memilki tingkat kemiripan/similaritas dengan dokumen lainnya. Text mining adalah salah satu cara dalam mengatasi permasalahan diatas. Text mining merupakan proses pengambilan data berupa teks dari sebuah sumber dalam hal ini sumbernya adalah dokumen. Dengan text mining dapat dicari kata-kata kunci yang dapat mewakili isi dari suatu dokumen lalu dianalisa dan dilakukan pencocokan antara dokumen dengan database kata kunci yang telah dibuat untuk menentukan atau memilah kategori suatu dokumen. Sedangkan proses pengukuran tingkat similaritas antar dokumen dilakukan dengan membandingkan suatu kata kunci dengan dokumen. Kata kunci yang digunakan didapat dari proses ekstraksi dokumen pada proses pemilahan kategori dokumen. Agar hasil pengukuran tingkat similaritas dokumen dengan kata kunci mendapatkan hasil yang optimal maka digunakan algoritma text mining dimana dalam prosesnya digunakan algoritma TF-IDF (Term Frequency Inversed Document Frequency dan VSM (Vector-Space Model) dari IR (Information Retrieval) model untuk mencari nilai Cosine (menghitung nilai cosinus sudut antara dua vector) sebagai pengukur tingkat similaritas antara dokumen dengan keyword yang didapat dari ekstraksi teks pada dokumen. TINJAUAN PUSTAKA Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Didalam proses text mining dilakukan beberapa tahapan umum diantaranya adalah tokenizing, filtering, stemming, tagging, dan analyzing. Tahap tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Setelah teks input dilakukan proses tokenizing, maka tahap selanjutnya dilakukan tahap filtering. yaitu tahap mengambil kata-kata penting dari hasil token. Tahap selanjutnya adalah tahap stemming adalah tahap mencari dasar kata dari tiap kata hasil filtering. Setiap kata yang memiliki imbuhan seperti imbuhan awalan dan akhiran maka akan diambil kata dasarnya. Tahap berikutnya adalah Tahap tagging yang merupakan tahap mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming. Tahap ini tidak dipakai untuk teks bahasa Indonesia dikarenakan bahasa Indonesia tidak memiliki bentuk lampau. Tahap yang terakhir dalam text mining adalah tahap analyzing yaitu tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada. Untuk melakukan analisa pada tahap analyzing dapat digunakan algoritma TF/IDF (Term Frequency Inversed Document Frequency) dan Algoritma Vector Space Model.

3 Algoritma TF/IDF (Term Frequency Inversed Document Frequency) Pada algoritma TF/IDF digunakan rumus untuk menghitung bobot (W) masingmasing dokumen terhadap kata kunci dengan rumus yaitu W = tf * IDF dt dt t Dimana: d = dokumen ke-d t = kata ke-t dari kata kunci W = bobot dokumen ke-d terhadap kata ke-t tf = banyaknya kata yang dicari pada sebuah dokumen IDF = Inversed Document Frequency IDF = log 2 (D/df) D = total dokumen df = banyak dokumen yang mengandung kata yang dicari Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses sorting/pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen tersebut terhadap kata kunci, demikian sebaliknya. Contoh implementasi sederhana dari TF-IDF adalah sebagai berikut: Kata kunci (kk) = pengetahuan logistik Dokumen 1 (D1) = manajemen transaksi logistik Dokumen 2 (D2) = pengetahuan antar individu Dokumen 3 (D3) = dalam manajemen pengetahuan terdapat transfer pengetahuan logistik Jadi jumlah dokumen (D) = 3 Setelah dilakukan tahap tokenizing dan proses filtering, maka kata antar pada dokumen 2 serta kata dalam dan terdapat pada dokumen 3 dihapus. Berikut ini adalah tabel perhitungan TF/IDF Token tf kk D1 D2 D3 Tabel 1 Contoh perhitungan TF / IDF df D/df IDF = Log 10 (D/df) W kk D1 D2 D3 manajemen transaksi logistik transfer

4 pengetahuan individu bobot (W) untuk D1 = = bobot (W) untuk D2 = = bobot (W) untuk D3 = = Total Dari contoh studi kasus di atas, dapat diketahui bahwa nilai bobot (W) dari D1 dan D2 adalah sama.apabila hasil pengurutan bobot dokumen tidak dapat mengurutkan secara tepat, karena nilai W keduanya sama, maka diperlukan proses perhitungan dengan algoritma vector-space model. Ide dari metode ini adalah dengan menghitung nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci. Algoritma Vector Space Model Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Salah satu cara untuk mengatasi hal tersebut dalam model vector space adalah dengan cara melakukan perluasan vektor. Proses perluasan dapat dilakukan pada vektor query, vektor dokumen, atau pada kedua vektor tersebut. Pada algoritma vector space model gunakan rumus untuk mencari nilai cosinus sudut antara dua vector dari setiap bobot dokumen (WD) dan bobot dari kata kunci (WK). Rumus yang digunakan adalah sebagai berikut Cosin e sim( d d, q) = d j j j q q = t å i= 1 t å i= 1 ( W W ij 2 ij W Apabila studi kasus pada algoritma TF/IDF di atas dicari nilai cosinus sudut antara vektor masing-masing dokumen dengan kata kunci, maka hasil yang didapatkan akan lebih presisi. Seperti yang ditunjukan tabel 2. Tabel 2 Perhitungan vector space model Token kk D1 D2 D3 kk*d1 kk*d2 kk*d3 manajemen transaksi t å i= 1 iq ) W 2 iq

5 logistik transfer pengetahuan individu Sqrt(kk) Sqrt(Di) Sqrt(kk. Di) Selanjutnya menghitung nilai cosinus sudut antara vector kata kunci dengan tiap dokumen dengan menngunakan rumus: Co sin e( Di ) = sum( kk Di ) /( sqrt( kk) * sqrt( Di ) Untuk Dokumen 1 (D 1 ) Cosine (D 1 ) = sum (kk. D 1 ) / (sqrt(kk) * sqrt(d 1 )) = / (0.249 * 0.539) = Untuk Dokumen 2 (D 2 ) Cosine (D 2 ) = sum (kk. D 2 ) / (sqrt(kk) * sqrt(d 2 )) = / (0.249 * 0.509) = Untuk Dokumen 2 (D 3 ) Cosine (D 3 ) = sum (kk. D 3 ) / (sqrt(kk) * sqrt(d 3 )) = / (0.249 * 0.643) = Sesuai perhitungan diatas maka nilai cosinus setiap dokumen telah didapat, seperti tabel 3 Tabel 3 Hasil vector space model D 1 D 2 D 3 Cosine Rank 3 Rank 2 Rank 1 Dari hasil akhir tersebut dapat diketahui bahwa dokumen 3 (D 3 ) memiliki tingkat similaritas tertinggi terhadap kata kunci, kemudian disusul dengan D 2 dan D 1. PERANCANGAN DAN PEMBANGUNAN PROGRAM Konsep Aplikasi Konsep aplikasi yang akan dibangun adalah pertama dokumen yang akan diujicoba dilakukan proses uploading files, untuk mendapatkan dokumen dengan format teks. Dokumen yang dapat diupload untuk dirubah ke dokumen teks adalah dokumen

6 dengan format PDF, Doc, dan TXT. Selanjutnya dokumen teks akan diproses dengan teknik text mining yang akan menghasilkan kata kunci yang mewakili isi dokumen untuk menentukan hasil pemilahan dokumen. Setelah mendapatkan kata kunci maka dapat diproses kembali dengan algoritma TF-IDF untuk mendapatkan nilai bobot dokumen, lalu kembali dilakukan perhitungan dengan algoritma vector space model. Setelah semua proses selesai maka akan muncul nilai bobot dokumen dari nilai terbesar sampai terkecil, dokumen dengan nilai bobot terbesar adalah dokumen yang memiliki tingkat kemiripan tertinngi. Algoritma Proses Kategorisasi Dokumen Proses kategorisasi dokumen adalah proses pencocokan antara kata-kata penting yang mewakili isi suatu dokumen dengan kata kunci yang telah ada didalam tabel kata_kunci untuk menentukan jenis kategori suatu dokumen. Gambar 1 adalah gambar yang menunjukan bagaimana proses pengkategorian dokumen. Gambar 1 Proses pengkategorian dokumen Tahap-tahap kategorisasi dokumen adalah sebagai berikut: 1. Pengisian tabel kata kunci Pengisian tabel kata kunci adalah tahap pertama yang dilakukan untuk membuat program kategorisasi dokumen ini, pengisian tabel kata kunci sangat diperlukan agar ketika melakukan proses pengkategorian dokumen mendapatkan hasil yang

7 optimal dan akurat. Untuk melakukan proses pengisian kata kunci, diperlukan dokumen sumber yang jenis kategorinya telah diketahui dengan benar. Tahapannya seperti yang ditunjukan oleh gambar berikut. Gambar 2 Proses pengisian tabel kata kunci Dokumen sumber yang dipakai untuk mengisi tabel kata kunci adalah dokumen abstraksi yang telah di ketahui kategorinya. Pertama-tama dokumen abstraksi dilakukan proses upload lalu isi teks pada dokumen ini dilakukan analisa dengan proses tokenizing yaitu proses pemilahan kata-kata pada keseluruhan isi teks. Hasil dari proses tokenizing adalah kata-kata yang terpisah, maka pada tahap selanjutnya akan dilakukan proses filtering dengan menggunakan teknik stop list, untuk hal itu diperlukan tabel stop_list sebagai filternya. Tabel stop_list adalah tabel yang berisi kata-kata yang tidak memiliki arti penting, yang terdiri dari kata hubung, kata sambung, kata depan, serta nama-nama hari dan bulan yang diambil dari berbagai referensi buku bahasa Indonesia. Proses filtering bertujuan untuk menghemat penyimpanan di dalam database. Hasil yang didapat dari proses filtering akan dihitung jumlah nilai kemunculan setiap kata pada isi dokumen. Setelah proses filtering dan word counting selesai maka akan didapat kumpulan kata kunci, lalu akan disimpan ke database didalam tabel kata_kunci. Dalam pengisian tabel kata kunci ini penulis menggunakan dokumen abstraksi yang didapat dari perpustakaan online Universitas Gunadarma dengan mengambil 5-10 dokumen abstraksi pada setiap masing-masing kategori. Isi dokumen abstraksi tersebut harus menggunakan kata-kata yang sesuai ejaan bahasa Indonesia yang baik dan benar, hal ini diharapkan untuk menghasilkan kata kunci yang sesuai. Kategori dokumen abstraksi yang dipakai adalah kategori pemrograman web, pemrograman dekstop, sistem informasi, dan jaringan komputer. Keseluruhan proses seperti yang dijelaskan diatas hanya dilakukan sekali saja.

8 2. Pengkategorian Dokumen Tahap pengkategorian dokumen merupakan proses penentuan kategori dokumen, tahap ini akan melakukan analisa terhadap isi dokumen yang diinput. Proses-proses yang dilakukan juga menggunakan tahap tokenizing, filtering dan word counting, jadi penulis tidak menggambarkan kembali bagaimana proses tersebut dilakukan, karena pada tahap pengisian tabel kata kunci telah dijelaskan secara terperinci. Pada tahap ini, setelah dokumen dilakukan proses tokenizing, filtering dan word counting, tahap yang harus dilakukan adalah melakukan proses pencocokan kata kunci yang didapat dari proses sebelumnya dengan kata kunci yang telah ada didalam database. Seperti yang ditunjukan pada gambar 3, dokumen abstraksi yang diinput, menghasilkan tiga kata kunci yaitu bahasa, pemrograman, dan php dengan frekuensi jumlah kemunculan kata yang berbeda-beda. Gambar 3 Ilustrasi pengkategorian dokumen Selanjutnya dilakukann pencocokan antara kata kunci yang didapat pada dokumen dengan kata kunci yang ada didalam database, jika ada kata yang sama dengan kata kunci yang ada didalam database maka nilai counter dari kategori akan bertambah sesuai jumlah frekuensi kemunculan setiap katanya. Seperti pada gambar 3 kata PHP telah ada di database dengan kategori pemrograman web dan nilai frekuensi kemunculan kata tersebut adalah 6, maka kategori pemrograman web nilai counternya menjadi 6 dan nilai counter kategori ini menjadi yang tertinggi sehingga dokumen tersebut memiliki kategori pemrograman web.

9 Algoritma Proses Similaritas Dokumen Dalam proses analisa kemiripan dokumen, penulis menggunakan teknik yang sama pada program sebelumnya yaitu teknik text mining dengan algoritma Tf-IDF dan vector space model. Algoritma TF-IDF akan memeriksa kemunculan tiap kata pada isi dokumen dari hasil tokenizing, filtering, dan word counting untuk dilakukan perhitungan rumus TF-IDF yang akan menghasilkan bobot dokumen. Untuk memperoleh hasil yang baik maka hasil dari algoritma TF-IDF akan diproses kembali dengan algoritma vector space model. Hasil akhir dari program ini akan didapat nama-nama dokumen yang isinya memiliki tingkat kemiripan dengan kata kunci. Berikut ini adalah gambaran umum dari program analisa kemiripan dokumen. Gambar 4 Gambaran umum dari proses similaritas dokumen

10 Untuk menganalisa tingkat kemiripan antar suatu kata kunci pada dokumen dengan dokumen lain, tahap yang harus dilakukan adalah memilih dokumen yang ingin dibandingkan dan dokumen yang menjadi pembandingnya. Dokumen yang dipilih untuk dibandingkan memiliki kata kunci, dan kata kunci tersebut yang akan dianalisa tingkat kemiripannya dengan dokumen lain. Setelah mendapatkan kumpulan kata kunci pada dokumen yang ingin dibandingkan, maka program akan melakukan proses perulangan sebanyak jumlah kata kunci tersebut. Dalam proses perulangan ini, setiap satu kata kunci akan dibandingkan dengan seluruh dokumen pembanding, untuk mendapatkan nilai bobot kata kunci (WK2), dan bobot dokumen terhadap kata kunci (WDK2). Proses perhitungan tahap-tahap diatas dilakukan untuk setiap satu kata kunci dengan seluruh dokumen pembanding. Agar hasilnya lebih optimal hasilnya dikombinasikan dengan perhitungan vector space model, dengan rumus NilaiCo sin us = ( WDK ) /( WK / WD ). Setelah perhitungan nilai cosinus pada algoritma vector space mode dilakukan maka hasil nilai perhitungan pada setiap dokumen akan di urutkan dari nilai cosinus tertinggi. Dokumen yang memiliki nilai cosinus tertinggi adalah dokumen yang memiliki tingkat kemiripan tertinggi dengan kata kunci. PENERAPAN PROGRAM DENGAN DATA Analisa Output Program Kategorisasi Dokumen Pada pengkategorian terhadap 50 dokumen abstraksi, menghasilkan 47 dokumen yang berhasil dikategorikan dengan baik. Yaitu hasilnya sesuai dengan hasil pengkategorian dokumen secara manual, seperti rangkuman pada tabel 4. Tabel 4 Rangkuman hasil kategorisasi dokumen Kategori Jumlah file Pemrograman Web Jaringan Komputer Sistem Informasi Pemrograman Desktop JUMLAH 13 File 10 File 9 File 15 File 47 File

11 Pada tabel 4 terlihat hanya 47 file yang berhasil di kategorikan dan sesuai dengan hasil pengkategorian secara manual. Berikut ini adalah daftar tabel dari 3 dokumen yang tidak berhasil dikategorikan atau hasilnya tidak sesuai dengan pengkategorian secara manual. Tabel 5 Dokumen yang tidak berhasil dikategorikan No Nama File Kategori (program aplikasi) Kategori (manual oleh manusia) _ABSTRAKSI.pdf Jaringan Komputer Pemrograman Desktop _ABSTRAKSI.pdf Sistem Informasi Pemrograman Desktop _ABSTRAKSI.pdf Sistem Informasi Pemrograman Web Pada tabel 5 terlihat ada 3 dokumen yang hasilnya tidak sesuai, antara hasil pengkategorian dengan program dan pengkategorian secara manual. Misalnya untuk file _ABSTRAKSI.pdf, pengkategorian dengan program menghasilkan kategori sistem informasi seperti pada gambar 6 sedangkan secara manual menghasilkan kategori pemrograman web. Hal tersebut terjadi karena nilai counter untuk kategori pemrograman web nilainya lebih kecil dibandingkan dengan nilai counter kategori sistem informasi. Gambar 5 menunjukan kumpulan kata-kata dan frekuensi kemunculan tiap kata (tf) pada dokumen _ABSTRAKSI.pdf. Kata yang sama dengan kata kunci pada kategori sistem informasi Kata yang sama dengan kata kunci pada kategori pemrograman web Gambar 5 Kumpulan kata yang mewakili file _ABSTRAKSI.pdf Gambar 6 Hasil pengkategorian fille _ABSTRAKSI.pdf oleh program

12 Sesuai kata kunci yang dihasilkan seperti pada gambar 6 dokumen tersebut memiliki 5 kata kunci yaitu sistem, informasi, database, asp, dan net. dengan nilai tf berturut turut 6, 2, 2, 1, 1. Kata sistem, informasi, dan database adalah kata yang sama dengan kata kunci kategori sistem informasi maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 10, sedangkan kata asp dan net adalah kata yang sama dengan kata kunci kategori pemrograman web maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 2. Dengan hasil ini program akan menentukan bahwa dokumen tersebut termasuk kategori sistem informasi karena memiliki nilai counter terbesar dibandingkan dengan kategori lain seperti terlihat pada gambar 7 Gambar 7 Hasil perhitungan nilai counter pada setiap kategori Hal lain yang menyebabkan hasil yang didapat tidak sesuai dalam pengkategorian dokumen ini adalah karena ada 2 kategori yang memiliki nilai counter yang sama. Misalnya pengkategorian pada file _ABSTRAKSI.pdf, pengkategorian dengan program menghasilkan kategori jaringan komputer seperti pada gambar 9 sedangkan secara manual menghasilkan kategori pemrograman desktop. Gambar 8 berikut menunjukan kumpulan kata-kata dan frekuensi kemunculan tiap kata (tf) pada dokumen tersebut. Kata yang sama dengan kata Kata yang sama dengan kata kunci pada kategori Gambar 8 Kumpulan kata yang mewakili file _ABSTRAKSI.pdf

13 Gambar 9 Pengkategorian fille _ABSTRAKSI.pdf oleh program Sesuai kata kunci yang dihasilkan, seperti pada gambar 9 dokumen tersebut memiliki 9 kata kunci yaitu jaringan, j2se, java, aplikasi, sistem, conectionless, udp, protokol, dan game dengan nilai tf berturut turut 5, 2, 3, 3, 3, 1, 2, 1, 1. Kata jaringan, conectionless, udp, dan protokol adalah kata yang sama dengan kata kunci kategori jaringan komputer maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 9, sedangkan kata j2se, java, aplikasi dan game adalah kata yang sama dengan kata kunci pada kategori pemrograman desktop maka nilai counter kategori tersebut adalah jumlah tf kata-kata tersebut yaitu 9. dengan hasil counter yang diperoleh maka program akan men-sorting jumlah counter dari yang paling besar sampai terkecil, sehingga setelah diurutkan kategori jaringan komputer berada di posisi paling tinggi, dan kategori inilah yang menjadi jenis kategori untuk dokumen tersebut. seperti terlihat pada gambar 10 Gambar 10 Hasil perhitungan nilai counter pada setiap kategori Analisa Output Program Similaritas Dokumen Pada tahap penerapan program similaritas dokumen dengan data yang digunakan, maka dilakukan dengan menerapkan tiap-tiap 1 dokumen dibandingkan dengan 50 dokumen yang telah ada di dalam database. Hasil penerapan program pada data yang dibandingkan, menghasilkan hasil yang beragam, diantaranya terdapat 38 dokumen yang menampilkan hasil yang valid, dan 12 dokumen yang tidak valid. Dikatakan hasil yang valid jika suatu dokumen yang akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi pembanding, maka dokumen tersebut akan memiliki nilai similaritas tertinggi dari pada dokumen lainnya, seperti yang ditunjukan pada tabel 6 Hasil perbandingan nilai similaritas yang tidak valid adalah jika suatu dokumen yang dibandingkan juga berada dalam kumpulan dokumen pembanding, tetapi dokumen

14 tersebut tidak memiliki nilai similaritas tertinggi dari dokumen lainnya, padahal isi dokumen tersebut sama, seperti yang ditunjukan oleh tabel 6. Tabel 6 Hasil nilai similaritas dokumen yang valid No. File yang dibandingkan Dokumen dengan tingkat kemiripan/simlilaritas tertinngi _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,55185 Dokumen 2 : _abstraksi.pdf Nilai Kemiripan = 0, _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,72679 Dokumen 2 : _abstraksi.pdf Nilai Kemiripan = 0, _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,74270 Dokumen 2 : _abstraksi.pdf Nilai Kemiripan = 0, _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,62194 Dokumen 2 : _abstraksi.pdf Nilai Kemiripan = 0, _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,77839 Dokumen 2 : _abstraksi.pdf Nilai Kemiripan = 0,32451 Tabel 7 Hasil nilai similaritas dokumen yang tidak valid No. File yang dibandingkan Dokumen dengan tingkat kemiripan/simlilaritas tertinngi _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,50872 Dokumen 3 : _abstraksi.pdf Nilai Kemiripan = 0, _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,37856 Dokumen 10 : _abstraksi.pdf Nilai Kemiripan = 0, _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,36828 Dokumen 4 : _abstraksi.pdf

15 Nilai Kemiripan = 0, _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,56551 Dokumen 3 : _abstraksi.pdf Nilai Kemiripan = 0, _ABSTRAKSI.pdf Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = 0,5583 Dokumen 14 : _abstraksi.pdf Nilai Kemiripan = 0,09538 Hasil nilai similaritas dokumen yang tidak valid seperti pada tabel 7, dipengaruhi oleh bobot dokumen terhadap kata kunci dan bobot dokumen itu sendiri. Semakin besar bobot dokumen terhadap kata kunci dan semakin kecil bobot dokumen tersebut maka nilai similaritasnya akan semakin tinggi. Jadi walaupun isi dokumen tersebut sama belum berarti dokumen tersebut memiliki nilai similaritas yang tinggi. Berikut ini adalah contoh perhitungan hasil penentuan tingkat similaritas suatu dokumen yang tidak valid Dokumen Yang Ingin dibandingkan: - Dokumen : _abstraksi.pdf (id=527) - Kata kunci : aplikasi, borland, delphi, pemrograman,(4 kata kunci) Dokumen Yang Menjadi Pembanding: - Dokumen 1 : _abstraksi.pdf (id=529) - Dokumen 2 : _abstraksi.pdf (id=527) - Dokumen 3 : _abstraksi.pdf (id=536) Proses Perhitungan: Kata Kunci : aplikasi - IDF = Log(D/df) = Log (50/23) = WK = tf(kata kunci) * IDF =1 * = WK2 = WK2 + WK(kuadrat) = = Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) = *(1* )= Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) = *(3* )= Kata Kunci : borland - IDF = Log(D/df) = Log (50/4) = WK = tf(kata kunci) * IDF =1 * = WK2 = WK2 + WK(kuadrat) = = Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) =

16 *(3* )= Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) = *(2* )= Bobot dokumen (536) terhadap kata kunci (WDK) = WK * (tf * IDF) = *(1* )= Kata Kunci : delphi - IDF = Log(D/df) = Log (50/5) = 1 - WK = tf(kata kunci) * IDF =1 * 1 = 1 - WK2 = WK2 + WK(kuadrat) = = Bobot dokumen (529) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1 *(3*1)= Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1 *(2*1)= Bobot dokumen (536) terhadap kata kunci (WDK) = WK * (tf * IDF) = 1 *(3*1)= Kata Kunci : pemrograman - IDF = Log(D/df) = Log (50/16) = WK = tf(kata kunci) * IDF =1 * = WK2 = WK2 + WK(kuadrat) = = Bobot dokumen (527) terhadap kata kunci (WDK) = WK * (tf * IDF) = *(1* )= Bobot dokumen (536) terhadap kata kunci (WDK) = WK * (tf * IDF) = *(1* )= Perhitungan Nilai Cosinus Setiap dokumen id dokumen Nilai Cosinus =WDK/(akar(WK)*akar(WD))= / (Akar( ) * Akar( )) = id dokumen Nilai Cosinus =WDK/(akar(WK)*akar(WD))= / (Akar( ) * Akar( )) = id dokumen Nilai Cosinus =WDK/(akar(WK)*akar(WD))= / (Akar( ) * Akar( )) = Dokumen yang memiliki tingkat kemiripan tertinggi adalah Dokumen 1 : _abstraksi.pdf Nilai Kemiripan = Dokumen 2 : _abstraksi.pdf Nilai Kemiripan =

17 Dokumen 3 : _abstraksi.pdf Nilai Kemiripan = Dari hasil diatas menunjukan bahwa nilai similaritas dokumen dipengaruhi oleh bobot dokumen terhadap kata kunci dan bobot dokumen tersebut KESIMPULAN DAN SARAN Kesimpulan Pengkategorian dokumen dengan teknik text mining yang dilakukan pada penelitian ini dapat berjalan dengan baik sesuai dengan pengkategorian secara manual. Dari 50 dokumen abstraksi yang dikategorikan, hanya 3 dokumen yang tidak sesuai dengan pengkategorian secara manual, berarti terdapat 6% hasil yang tidak sesuai dan 94% hasil yang sesuai, dari 50 dokumen yang dikategorikan. Munculnya 6% hasil yang tidak sesuai disebabkan karena frekuensi kemunculan kata kunci yang seharusnya mewakili kategori isi dokumen tersebut, nilainya lebih kecil dibandingkan frekuensi kemunculan kata untuk kategori lain, sehinga nilai counter untuk kategori yang seharusnya nilainya menjadi lebih kecil. Pengukuran similaritas dokumen pada penelitian ini dilakukan terhadap 50 dokumen abstraksi yang mengahasilkan 38 dokumen yang memiliki nilai similaritas yang sesuai dan 12 dokumen yang tidak memiliki nilai similaritas yang tidak sesuai. Kesesuaian tingkat similaritas dokumen ini dinilai dari apabila satu dokumen yang akan dibandingkan juga terdapat pada kumpulan dokumen yang menjadi pembanding, maka dokumen yang sama tersebut harus memiliki nilai similaritas tertinggi dari pada dokumen lainnya, jika tidak maka hasil tersebut dikatakan tidak sesuai. Hasil yang tidak sesuai ini disebabkan karena nilai bobot dokumen terhadap kata kunci yang dibandingkan nilainya lebih kecil dan nilai bobot dokumen tersebut besar. Jadi nilai similaritas dokumen tertinggi ditentukan oleh besarnya bobot suatu dokumen terhadap kata kunci dan kecilnya nilai bobot dokumen tersebut. Saran Untuk pengembangan program yang dibuat pada penelitian ini, disarankan untuk menambah fungsi stemming untuk mencari dasar kata dari tiap kata hasil filtering dan fungsi tagging mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming. Selain itu untuk mendukung hasil yang akurat maka disarankan untuk menggunakan banyak dokumen sumber untuk pengisian kata kunci di database.

18 DAFTAR PUSTAKA [1]. Arrummaisha Adrifina, Juwita Utami Putri, I Wayan Simri W, Pemilahan Artikel Berita Dengan Text Mining, Proceeding Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008), Agustus 2008 [2]. David Sugianto, dkk, Membangun Websited dengan PHP, Datakom 2005 [3]. Iwan Arif, Text Mining, /6Text%20Mining.pdf, 24 Juni 2009 [4]. Lukmanul Hakim, Membongkar Trik Rahasia Para Master PHP, Lokomedia 2008 [5]. Kristhoper David Harjono, Perluasan Vector Pada Metode Search Vector Space, INTEGRAL Vol. 10 No. 2, Juli 2005 [6]. Risa, BAB 11 Text Mining, /chapter11.pdf, 24 Juni 2009 [7] Raymond J. Mooney. CS 391L: Machine Learning Text Categorization. University of Texas at Austin, 2006.

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

ABSTRAK Seiring dengan berkembangnya teknologi informasi dan banyaknya karya ilmiah, tulisan, dan paper yang dibuat semakin banyak pula kasus penjipla

ABSTRAK Seiring dengan berkembangnya teknologi informasi dan banyaknya karya ilmiah, tulisan, dan paper yang dibuat semakin banyak pula kasus penjipla DEVELOPMENT PROGRAM APPLICATION TO THE MEASUREMENT OF DOCUMENTS RESEMBLANCE TEXT MINING, TF-IDF, AND VECTOR SPACE MODEL ALGORITHM Muhamad Iqbal Aziz Undergraduate Program, Faculty of Industrial Engineering,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

PEMILAHAN ARTIKEL BERITA DENGAN TEXT MINING

PEMILAHAN ARTIKEL BERITA DENGAN TEXT MINING PEMILAHAN ARTIKEL BERITA DENGAN TEXT MINING 1 Arrummaisha Adrifina 2 Juwita Utami Putri 3 I Wayan Simri W 1 arroem@student.gunadarma.ac.id 2 nony_juwita@student.gunadarma.ac.id 3 iwayan@staff.gunadarma.ac.id

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas

Lebih terperinci

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya

Lebih terperinci

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME Anacostia Kowanda 1 Ika Pretty Siregar 2 Junior Lie 3 Nur Farida Irmawati 4 Detty Purnamasari 5 1,2,3,4 JurusanTeknik Informatika,

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017 TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

PENERAPAN TEXT MINING DAN VECTOR SPACE MODEL PADA WEB-BASE KNOWLEDGE MANAGEMENT SYSTEM ( STUDI KASUS TEKNIK INFORMATIKA UPN ) TUGAS AKHIR

PENERAPAN TEXT MINING DAN VECTOR SPACE MODEL PADA WEB-BASE KNOWLEDGE MANAGEMENT SYSTEM ( STUDI KASUS TEKNIK INFORMATIKA UPN ) TUGAS AKHIR PENERAPAN TEXT MINING DAN VECTOR SPACE MODEL PADA WEB-BASE KNOWLEDGE MANAGEMENT SYSTEM ( STUDI KASUS TEKNIK INFORMATIKA UPN ) TUGAS AKHIR Disusun Oleh : VIVIN SOFI AMALIAH NPM. 0534010296 JURUSAN TEKNIK

Lebih terperinci

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x APLIKASI PENDETEKSI PLAGIAT TERHADAP KARYA TULIS BERBASIS WEB MENGGUNAKAN NATURAL LANGUAGE PROCESSING DAN ALGORITMA KNUTH-MORRIS-PRATT [1] Rio Alamanda, [2] Cucu Suhery, [3] Yulrio Brianorman [1][2][3]

Lebih terperinci

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang 45 Dinamika Teknik Januari IMPLEMENTASI SEARCH ENGINE (MESIN PENCARI) MENGGUNAKAN METODE VECTOR SPACE MODEL Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang Abstract Growth of Machine

Lebih terperinci

Mardi Siswo Utomo Fakultas Teknologi Informasi Universitas Stikubank Semarang

Mardi Siswo Utomo Fakultas Teknologi Informasi Universitas Stikubank Semarang ! " #! " $ # % " & % % '! ( $ ) $ * # ) # +, - - - - - - - - - -. / 0 % $ 1 " 2 ' $ " 3 4 ' 5 6 % 7 + )!, $ 5 & % - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul BAB II STUDI PUSTAKA 2.1 Tinjauan Pustaka Untuk penelitian berkaitan dengan peringkasan teks otomatis pernah dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul Perancangan Information

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE OFFICE OF TERM FREQUENCY

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF Oleh : Tacbir Hendro Pudjiantoro A B S T R A K Kompetensi dosen adalah salah satu bagian yang utama dalam penunjukan

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING Rudhi Ardi Sasmita Jurusan Sistem Informasi, Fakultas Ilmu Komputer, Universitas Narotama Surabaya rudhisasmito@gmail.com Abstrak

Lebih terperinci

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PERANCANGAN  CLIENT DENGAN PENGKLASIFIKASIAN  MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN PERANCANGAN EMAIL CLIENT DENGAN PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN 081402050 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

PENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI

PENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI ISSN : 338-418 PENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI Randy Agung Wibowo (agung.wbowo9@gmail.com) Didik Nugroho (masdidiknugroho@gmail.com) Bebas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING Noor Ifada, Husni, Rahmady Liyantanto Jurusan Teknik Informatika, Fakultas Teknik, Universitas Truojoyo

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA Suprianto 1), Sunardi 2), Abdul Fadlil 3) 1 Sistem Informasi STMIK PPKIA Tarakanita Rahmawati 2,3 Magister Teknik Informatika Universitas

Lebih terperinci

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini akan membahas tentang penelitian berita yang menggunakan Text Mining, metode TF-IDF, dan. Yang mana penelitian ini akan mengulas secara lengkap tentang

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

BAB 1 PENDAHULUAN. 1.1.Latar Belakang 7 BAB 1 PENDAHULUAN 1.1.Latar Belakang Saat ini informasi sangat mudah didapatkan terutama melalui media internet. Dengan banyaknya informasi yang terkumpul atau tersimpan dalam jumlah yang banyak, user

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

Jurnal Informatika dan Komputer PENS

Jurnal Informatika dan Komputer PENS Jurnal Informatika dan Komputer PENS www.jurnalpa.eepis-its.edu Teknik Komputer Vol.2, No.2, 2015 Politeknik Elektronika Negeri Surabaya Aplikasi Pendeteksi Kemiripan Laporan Menggunakan Text Mining dan

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Di era globalisasi seperti sekarang ini, perkembangan teknologi komputer berpengaruh besar pada tingkat kebutuhan manusia di berbagai bidang seperti bidang

Lebih terperinci

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Yoseph Samuel, Rosa Delima, Antonius Rachmat 1) Program Studi Teknik Informatika Universitas Kristen Duta Wacana,

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya perkembangan teknologi dewasa ini telah menyebabkan aliran informasi begitu lancar

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL Sistem Informasi Pengelolaan Arsip Statis... SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL Silmi Kafatan, Djalal Er Riyanto,

Lebih terperinci

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA Abstract This research is about document classification using K-Nearest Neighbor method. We will develop a

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal Soedirman Jl. Mayjen Sungkono Blater Km

Lebih terperinci

APLIKASI DETEKSI KEMIRIPAN TUGAS PAPER

APLIKASI DETEKSI KEMIRIPAN TUGAS PAPER APLIKASI DETEKSI KEMIRIPAN TUGAS PAPER Anthony Anggrawan 1, Azhari 2, 1 Tenaga Pengajar Teknik Informatika STMIK Bumigora Mataram 2 Mahasiswa Teknik Informatika STMIK Bumigora Mataram Jl Ismail Marzuki,

Lebih terperinci

STIKOM SURABAYA ... (8) (Wibisono, 2005)

STIKOM SURABAYA ... (8) (Wibisono, 2005) PEMBUATAN PROTOTIPE PERANGKAT LUNAK PENGKLASIFIKASIAN KOMPLAIN LAYANAN OPERASIONAL PENGGUNA JASA KEPELABUHANAN MENGGUNAKAN NAÏVE BAYES CLASSIFIER (STUDI KASUS PELABUHAN CABANG TANJUNG PERAK SURABAYA Dodo

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL-QUR AN DALAM BAHASA INDONESIA

PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL-QUR AN DALAM BAHASA INDONESIA PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL-QUR AN DALAM BAHASA INDONESIA Ogie Nurdiana 1, Jumadi 2, Dian Nursantika 3 1,2,3 Jurusan Teknik

Lebih terperinci

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami

Lebih terperinci

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,

Lebih terperinci

SISTEM PERINGKASAN E-BOOK DENGAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF - IDF)

SISTEM PERINGKASAN E-BOOK DENGAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF - IDF) SISTEM PERINGKASAN E-BOOK DENGAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF - IDF) TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA. PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut

Lebih terperinci

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Rizki Tri Wahyuni 1, Dhidik Prastiyanto 2, dan Eko Supraptono 3 Jurusan Teknik Elektro, Fakultas Teknik,

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN : Analisis Perbandingan Metode Vector Space Model dan Weighted Tree Similarity dengan Cosine Similarity pada kasus Pencarian Informasi Pedoman Pengobatan Dasar di Puskesmas Viko Basmalah Wicaksono Jurusan

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Seiring dengan perkembangan teknologi informasi, maka proses dan media penyimpanan data pun semakin berkembang. Dengan adanya personal computer (PC), orang dapat menyimpan,

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Dalam kehidupan sehari-hari, seorang individu memiliki berbagai jenis kebutuhan dimana kebutuhan tersebut tidaklah mutlak sama antar setiap individu. Tetapi ada satu

Lebih terperinci