Implementasi Teknik Peringkasan Semantic Virtual Document Pada Pengelompokkan Hasil Pencarian Halaman Web

Ukuran: px
Mulai penontonan dengan halaman:

Download "Implementasi Teknik Peringkasan Semantic Virtual Document Pada Pengelompokkan Hasil Pencarian Halaman Web"

Transkripsi

1 Implementasi Teknik Peringkasan Semantic Virtual Document Pada Pengelompokkan Hasil Pencarian Halaman Web Rahmani Dwiastuti, Diana Purwitasari, Umi Laili Yuhana Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember 1 dias_tc07@cs.its.ac.id 2 diana@its-sby.edu 3 yuhana@cs.its.ac.id Abstract Saat ini semakin banyak penggunaan internet dikalangan masyarakat khususnya dalam hal pendistribusian informasi melalui mesin pencari. Mesin pencari pada umumnya memiliki sekumpulan data dalam jumlah yang cukup besar yang dapat menjadi sumber untuk bahan pencarian. Namun, data dalam jumlah yang cukup besar tersebut menimbulkan dampak berupa waktu pengolahan yang relatif lama dalam memilah-milah informasi yang sesuai dengan kebutuhan. Masalah lain juga terdapat pada pengguna, yaitu kurang mengetahui penggunaan mesin pencari, sehingga seringkali pengguna memasukkan kata kunci tunggal atau kata kunci yang kurang bermakna, yang berdampak pada presisi hasil pencarian yang rendah. Dalam tugas akhir ini diperkenalkan beberapa metode untuk mengatasi permasalahan-permasalahan yang telah disebutkan diatas.metode-metode tersebut adalah metode Semantic Virtual Document (SVD) untuk melakukan peringkasan, teknik klasterisasi berbasis hirarki Single Linkageuntuk melakukan pengelompokkan dan divisualisasikan menggunakan GUI-Tree, model ruang vektor dan perhitungan persamaan kosinus untuk melakukan pencarian dokumen, dan metode Rocchio untuk pemberian rekomendasi kata kunci. Berdasarkan serangkaian pengujian yang dilakukan pada tugas akhir ini, diperoleh beberapa kesimpulan yaitu pencarian dokumen pada aplikasi ini paling baik menggunakan jenis pembobotan Okapi dan LTU. Peringkasan dokumen menggunakan metode SVD dapat menghasilkan peringkasan yang memiliki tingkat kesepakatan cukup baik. Pengelompokkan dokumen berdasar topik berhasil ditingkatkan hingga 100%, dengan menggunakan teknik klasterisasi berbasis hirarki tunggal dan paling baik menggunakan jenis pembobotan Okapi.. Perluasan kata kunci menggunakan metode Rocchio dapat dilakukan, namun hasil rekomendasi kurang relevan dengan kata kunci awal karena terdapat ambiguitas pada kata kunci awal. Keywords peringkasan, semantic virtual document, klasterisasi hirarki tunggal, Rocchio 1 I. PENDAHULUAN Internet saat ini telah marak dikalangan masyarakat karena telah membawa perubahan yang cukup besar dalam hal pendistribusian informasi. Salah satu fasilitas yang disediakan untuk memperoleh informasi di dunia maya yaitu mesin pencari, antara lain Google, Wikipedia, MSN, dan Yahoo. Mesin pencarian tersebut pada umumnya memiliki sekumpulan data dalam jumlah yang cukup besar yang dapat menjadi sumber dalam memperoleh informasi yang dibutuhkan oleh pengguna. Namun disisi lain, sekumpulan data dalam jumlah yang cukup besar tersebut memberikan dampak negatif bagi pengguna yaitu dibutuhkan waktu yang relatif lama untuk memilah-milah informasi yang sesuai dengan kebutuhan mereka. Selain permasalahan yang timbul dari sistem mesin pencari, permasalahan juga ditemui pada pengguna mesin pencari. Pengguna mesin pencari yang kurang kemampuannya akan penggunaan mesin pencari, seringkali memasukkan kata kunci tunggal atau kurang bermakna, sehingga menghasilkan dokumen kembalian yang kurang relevan atau kurang spesifik. Solusi untuk mengatasi permasalahan tersebut adalah diperlukannya teknik peringkasan pada mesin pencari karena selain dapat mempermudah pengguna dalam memperoleh inti dari suatu dokumen, juga dapat mempermudah sistem dalam melakukan proses pengelompokkan. Selain itu juga diperlukan pengelompokkan pada sekumpulan data menjadi beberapa topik berdasarkan isi dari tiap dokumen, agar dapat memepermudah pengguna dalam menyaring dan memilih dokumen yang mengandung informasi yang mereka butuhkan. Untuk mengatasi kata kunci pengguna yang kurang bermakna maka akan dilakukan pemberian rekomendasi kata kunci yang akan menjadi umpan balik dari sistem ke pengguna agar memperoleh hasil pencarian yang lebih spesifik. II. TINJAUAN PUSTAKA A. Riset Terkait isearch merupakan aplikasi mesin pencari yang menerapkan teknik peringkasan pada halaman web dan mengelompokkan hasil peringakasan tersebut. Selain itu, aplikasi isearch juga dapat memeberikan rekomendasi kata kunci pada pengguna mesin pencari [CHE2004]. Pada aplikasi tersebut diterapkan teknik peringkasan Semantic Virtual Document (SVD) yang dapat memperoleh kalimat-

2 kalimat penting pada suatu halaman web dan menghasilkan suatu hasil peringkasan yang dapat mewakili isi dokumen. Hasil peringkasan tersebut akan dilakukan pengindeksan dan pembobotan menggunakn pembobotan Term Frequency- Inverse Document Frequency (Tf-Idf) dan nantinya akan digunakan dalam pengelompokkan dokumen menggunakan klasterisasi berbasis hirarki Single-Linkage. Pada tugas akhir ini akan diterapkan empat jenis pembobotan kata yang merupakan variasi dari pembobotan Tf-Idf, yang menambahkan beberapa parameter tambahan sebagai perbandingan. Jenis pembobotan tersebut yaitu Mutual Information (MI), Automated Text Categorization (ATC), Okapi dan Linear Threshold Unit (LTU) [REE2006]. Hal itu dilakukan untuk mengetahui jenis pembobotan yang paling baik diterapkan pada aplikasi ini. B. Pembobotan Kata Setiap dokumen mengandung beberapa kata yang berbeda-beda. Hal yang perlu diperhatikan dalam pencarian informasi dari koleksi dokumen yang heterogen adalah pembobotan kata, karena setiap kata memiliki tingkat kepentingan yang berbeda dalam dokumen. Oleh karena itu diberikan sebuah indikator yaitu bobot term [MAN2009]. Terdapat lima jenis pembobotan kata yang digunakan pada tugas akhir ini antara lain pembobotan Term Frequency- Inverse Document Frequency (Tf-Idf) dan empat jenis pembobotan yang merupakan variasi dari pembobotam tf-idf yang menggunakan parameter tambahan sebagai pertimbangan. Variasi pembobotan tersebut yaitu Mutual Information (MI), Automated Text Categorization (ATC) menggunakan parameter tambahan berupa tf maksimum, Okapi dan Linear Threshold Unit (LTU) yang menggunakan panjang dokumen dan rata-rata panjang dokumen sebagai parameter tambahan [REE2006]. Pembobotan TF-IDF Term Frequency (tf) merupakan jumlah kemunculan kata pada suatu dokumen. Semakin besar jumlah kemunculan suatu kata dalam dokumen, maka semakin besar pula bobotnya dalam dokumen. Terdapat beberapa jenis rumus dalam mencari nilai tf. Jenis tf yang digunakan pada tugas akhir ini yaitu tf normalisasi, rumus (1) merupakan rumus dari perhitungan tersebut [MAN2009]. tf = (1) tf adalah jumlah kemunculan kata pada suatu dokumen dan max(tf) adalah tf yang paling maksimal pada suatu dokumen. Inverse Document Frequency (idf) merupakan pengurangan dominansi term yang sering muncul di berbagai dokumen. Hal ini diperlukan karena term yang banyak muncul di berbagai dokumen dianggap sebagai term umum sehingga tidak penting nilainya [MAN2009]. Rumus (2) merupakan rumus yang digunakan pada perhitungan idf. idf j = log (2) D adalah jumlah koleksi dokumen dan df adalah jumlah dokumen yang mengandung kata t j. Setelah mendapatkan nilai tf dan idf maka selanjutnya mengalikan nilai tersebut untuk mendapatkan bobot tiap kata pada masing-masing dokumen [MAN2009]. Rumus (3) merupakan rumus umum pembobotan tf-idf. w ij = tf ij x idf j (3) w ij adalah bobot kata ke-i pada dokumen ke-j. Pembobotan MI MI atau biasa disebut dengan transinformation, adalah metode pengukuran jumlah informasi yang bisa didapat dari sebuah variabel acak, dengan mempelajari variabel lainnya. Rumus (4) merupakan rumus dari MI [REE2006]. N merupakan jumlah dokumen dan M merupakan banyak kata pada setiap dokumen. Pembobotan ATC Rumus (5) merupakan rumus dari pembobotan ATC [REE2006]. Parameter tambahan yang digunakan pada pembobotan ATC adalah yaitu nilai tf yang paling maksimum yang terdapat pada setiap dokumen. Pembobotan Okapi Pada sistem temu kembali informasi, Okapi atau juga dikenal dengan nama Okapi BM25 merupakan fungsi perankingan yang digunakan oleh mesin pencari untuk mengurutkan hasil pencocokan dokumen-dokumen, berdasar pada relevansinya terhadap kata kunci pencarian yang diberikan [ROB2009]. Berikut merupakan rumus dari Okapi [REE2006]. Parameter tambahan pada Okapi yaitu dl yang merupakan panjang tiap dokumen, panjang tersebut didapat dari banyak kata pada tiap dokumen dan kata-kata tersebut telah melalui proses penghapusan kata yang tidak penting (stopword removal) dan avg_dl merupakan rata-rata panjang keseluruhan dokumen. Pembobotan LTU Pembobotan LTU dikenal sebagai Pivoted Unique Normalization (PUN) yang merupakan pengembangan dari metode sebelumnya yaitu Pivoted Cosine Normalization (PCN). LTU biasa digunakan bersamaan dengan LNU dan lebih dikenal dengan metode Lnu.ltu. Lnu biasa digunakan untuk pembobotan terhadap dokumen. Sementara ltu digunakan untuk pembobotan terhadap query [ORO2007]. Rumus dari pembobotan LTU sebagai berikut [REE2006]. Parameter tambahan pada LTU yaitu dl yang merupakan panjang tiap dokumen dan avg_dl merupakan rata-rata panjang keseluruhan dokumen. (4) (5) (6) (7) 2

3 C. Persamaan Kosinus Pengukuran kesamaan kosinus yaitu pengukuran berdasarkan besar sudut kosinus antara vektor dokumen dengan vektor kata kunci. Berdasarkan sudut kosinus antar dua vektor, maka nilai yang dihasilkan berkisar pada 0-1, 0 menandakan kedua dokumen tidak memiliki kemiripan sama sekali dan 1 menandakan kedua dokumen memiliki kemiripan yang identik. Metode pengukuran kesamaan kosinus ini memiliki beberapa keuntungan yaitu adanya normalisasi terhadap panjang dokumen atau banyaknya kata dalam dokumen. Hal ini diperlukan karena dokumen yang mengandung banyak kata cenderung mendapatkan hasil pengukuran yang besar dibandingkan dengan dokumen yang tidak mengandung banyak kata [MAN2002]. Terdapat beberapa tahap untuk mendapatkan nilai relevansi antara dokumen dengan kata kunci [GAR2006], yaitu: 1) Menghitung panjang vektor dan (8) 2) Menghitung perkalian dalam (inner product) kedua vektor (9) 3) Menghitung kesamaan kedua vektor (10) Keterangan : D i adalah panjang vektor dokumen ke-i Q adalah panjang vektor kata kunci pengguna w ij adalah bobot kata ke-i pada dokumen ke-j w qj adalah bobot kata kunci ke-i pada dokumen ke-j adalah perkalian dalam antara kata kunci dan dokumen ke-i Cos(Q,D i ) adalah persamaan kosinus antara kata kunci dan dokumen ke-i D. Metode Rocchio Perluasan kata kunci adalah proses pemberian rekomendasi beberapa kata yang dapat dipilih dan ditambahkan pada kata kunci untuk meningkatkan performa dalam pencarian informasi. Metode perluasan kata kunci yang digunakan pada tugas akhir ini adalah algoritma Rocchio. Rocchio menyatakan bahwa kata kunci yang optimal adalah kata kunci yang memaksimalkan perbedaan antara rata-rata kesesuaian dokumen-dokumen relevan dan dokumendokumen tidak relevan [SAL1990]. Metode umpan balik yang diajukan oleh Rocchio bertujuan untuk mendekatkan vektor kata kunci awal kearah vektor kata kunci optimal. Rumus (11) merupakan rumus dari metode Rocchio [SAL1990]. Keterangan : Q 1 adalah vektor kata kunci baru Q 0 adalah vektor kata kunci awal D i adalah vektor dokumen relevan ke-i D j adalah vektor dokumen tidak relevan ke-j D i adalah panjang vektor dokumen relevan ke-i D j adalah panjang vektor dokumen tidak relevan ke-j n 1 adalah jumlah dokumen relevan n 2 adalah jumlah dokumen tidak relevan (11) 3 Suatu dokumen dikatakan relevan jika dokumen tersebut memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pada tugas akhir ini tingkat relevansi dapat dilihat dari hasil perhitungan kesamaan kosinus antara kata kunci masukkan pengguna dan dokumen bayangan pada setiap kelompok. Dokumen bayangan adalah dokumen yang berisi kata-kata yang bobotnya merupakan hasil rata-rata kata pada seluruh dokumen dalam satu kelompok. Sehingga, dokumen bayangan dapat mewakili seluruh dokumen pada satu kelompok. Hasil perhitungan Rocchio dengan nilai terbesar akan dipilih dan kelompok tersebut menjadi kelompok yang dianggap paling relevan dengan kata kunci dan dokumendokumen yang terdapat dalam kelompok tersebut disebut dokumen relevan, sedangkan dokumen-dokumen yang terdapat pada kelompok lain disebut dokumen tidak relevan. E. Semantic Virtual Document (SVD) Semantic Virtual Document (SVD) merupakan teknik peringkasan yang menggunakan kata kunci masukkan pengguna dan anchortext sebagai parameter. Anchortext adalah kata yang mengandung link pada suatu halaman web. Penggunaan anchortext sebagai salah satu parameter karena anchortext dianggap dapat memberikan informasi tambahan pada hasil peringkasan, yang relevan dengan isi keseluruhan dokumen asli. Anchortext dapat digambarkan seperti pada Gambar 1. My favorite search engine is Google Anchortext Google Dokumen Asli Link Dokumen Back Link / Tujuan Anchortext Gambar 1 Anchortext Pada Suatu Halaman Web Teknik SVD memiliki dua jenis perhitungan untuk menentukan kalimat yang dianggap penting yaitu perhitungan penilaian query-biased dan perhitungan penilaian anchortextbiased. Kedua hal tersebut dianggap penting untuk mendapatkan ringkasan dengan baik karena kata kunci dapat mewakili informasi yang dibutuhkan oleh pengguna dan anchortext dapat memberikan informasi tambahan yang relevan dengan dokumen asli [CHE2004]. Berikut merupakan ilustrasi anchortext pada suatu dokumen : Hasil dari proses SVD berupa kumpulan kalimat dari Query-Biased Summaries dan Semantic Summaries. Query- Biased Summaries terdiri dari 2 kalimat dengan nilai tertinggi hasil perhitungan penilaian query-biased pada dokumen asli. Namun jika pada dokumen asli tidak terdapat anchortext maka SVD hanya akan berisi 5 kalimat dari Query-Biased Summaries. Perhitungan Penilaian Query-Biased Penilaian Query Biased atau lebih dikenal dengan query scoring (qs) yaitu penilaian yang dilakukan pada tiap kalimat dalam dokumen dengan melihat kemunculan kata kunci pada kalimat tersebut. Rumus (12) merupakan rumus dari penilaian Query Biased [CHE2004]. Query Score = n 2 / q (12) n merupakan jumlah kata kunci pada tiap kalimat dan q merupakan jumlah kata pada kata kunci yang diinputkan.

4 Perhitungan Penilaian Anchortext-Biased Penilaian Anchortext Biased atau lebih dikenal dengan anchortext scoring yaitu perhitungan relevansi anchortext antara halaman awal dengan halaman tujuan. Rumus (13) merupakan rumus dari penilaian Anchortext- Biased [CHE2004]. Anchortext Score = n 2 / a (13) n merupakan jumlah anchortext pada kalimat dan q merupakan jumlah kata pada anchortext. Pemilihan anchortext menggunakan perhitungan penilaian anchortext-biased pada dokumen asli. Perhitungan tersebut dilakukan pada setiap kalimat dan kemudian dijumlahkan. Anchortext yang terpilih adalah anchortext dengan nilai penjumlahan tertinggi. Kemudian dilakukan proses stopword dan stemming terhadap anchortext yang dimaksud tersebut. Setelah itu, dilakukan pencarian atas total penjumlahan nilai hasil perhitungan pada setiap anchortext. Kemudian, untuk mendapatkan hasil ringkasan setiap dokumen, kita harus memilih kalimat-kalimat yang relevan dengan kata kunci masukkan pengguna dan anchortext terpilih. Terdapat 4 teknik perhitungan, yaitu : 1. Perhitungan Penilaian Query-Biased pada Dokumen Asli 2. Perhitungan Penilaian Anchortext-Biased pada Dokumen Asli 3. Perhitungan Penilaian Query-Biased pada Dokumen Tujuan Anchortext. 4. Perhitungan Penilaian Anchirtext-Biased pada Dokumen Tujuan Anchortext Dari total 4 penghitungan diatas, akan didapatkan kalimat-kalimat yang relevan dengan kata kunci masukkan pengguna dan anchortext terpilih, untuk membentuk ringkasan tiap dokumen. F. Klasterisasi Berbasis Hirarki Tunggal Pengelompokkan merupakan sebuah teknik yang digunakan untuk mengelompokkan objek-objek berupa variabel atau data sehingga dapat menghasilkan suatu informasi berdasarkan relasi yang terjadi. Prinsip yang digunakan dalam pengelompokkan adalah memaksimalkan nilai kesamaan dalam satu kelompok dan memaksimalkan ketidaksamaan antar kelompok[man2009]. Terdapat tiga jenis pengelompokkan berbasis hirarki yaitu Single Linkage yang memperhatikan dua objek dengan jarak terpendek atau tetangga terdekat dengan kompleksitas waktu O(n 2 ), Complete Linkage yang memperhatikan dua objek dengan jarak terjauh dengan kompleksitas waktu O(n 2 log n), dan Average Linkage yang memperhatikan dua objek dengan jarak rata-rata dengan kompleksitas waktu O(n 2 log n)[man2009]. Pada tugas ini akan menggunakan pengelompokkan menggunakan hirarki Single Linkage karena kesederhanaan dari metode tersebut dan ketersediaan waktu perhitungan yang optimal. Dari kompleksitas waktu yang telah disebutkan sebelumnya, metode ini memiliki kompleksitas waktu yang paling kecil karena metode ini melakukan pengelompokkan objek dengan jarak terdekat[man2009]. Berikut merupakan langkah-langkah pengelompokkan beserta contohnya : 1. Menentukan profil atau fitur yang akan menjadi acuan pengelompokkan 2. Menghitung jarak dua kelompok menggunakan perhitungan jarak Euclidean. Rumus (14) merupakan rumus dari jarak Euclidean : 4 (14) adalah jarak antara dokumen 1 dan dokumen 2. x dan y adalah atribut atau fitur pada tiap-tiap dokumen yang dapat mewakili isi dokumen. 3. Mencari dua kelompok yang memiliki jarak antar kelompok paling minimal dan gabungkan kedua kelompok tersebut. 4. Kembali ke langkah tiga dan ulangi sampai mencapai kelompok data yang diinginkan. G. Koefisien Kappa Koefisian Kappa biasa digunakan untuk mengukur nilai kesepakatan dari dua pengamat terhadap karakteristik yang menjadi perhatian penelitian. Variabel yang diukur pada proses bersifat dikotomi yaitu dengan jawaban iya atau tidak [VIE2005]. Langkah pertama untuk menghitung koefisian Kappa yaitu harus menyusun klasifikasi kedua pengamat terhadap subjek penelitian kedalam tabel 2x2, seperti pada Tabel 1 : Tabel 1 Klasifikasi Antar Pengamat Pengamat I Ya Tidak Total Ya a b a+b Pengamat II Tidak c d c+d Total a+c b+d N = a+b+c+d a dan d menunjukkan jumlah kesetujuan observasi dari kedua pengamat sedangkan b dan c menunjukkan jumlah ketidaksetujuan observasi dari kedua pengamat. Jika tidak ada kesetujuan maka nilai kesepakatan yang terobservasi p o adalah 0 namun jika tidak ada ketidaksetujuan maka nilai kesepakatan yang terobservasi p o adalah 1 atau 100% [VIE2005]. Rumus (15), (16), dan (17) merupakan rumus perhitungan koefisien Kappa [VIE2005]. (15) (16) (17) p o merupakan nilai kesepakatan yang terobservasi dan p e merupakan nilai kesepakatan yang diharapkan. Tabel 2 merupakan tabel interpretasi dari hasil perhitungan koefisien kappa [VIE2005]. Tabel 2 Interpretasi dari Kappa Kappa Persetujuan < 0 Kurang dari peluang persetujuan Peluang persetujuan sedikit (Slight) Peluang persetujuan cukup (Fair) Peluang persetujuan sedang (Moderate) Peluang persetujuan substansial Peluang persetujuan hampir sempurna H. Presisi Presisi merupakan suatu parameter untuk mengetahui apakah kualitas hasil pencarian dokumen terhadap kata kunci dikatakan baik atau tidak. Presisi dapat diartikan sebagai tingkat kecocokan antara permintaan pengguna melalui kata

5 kunci dengan hasil pencarian sistem, kecocokan tersebut bergantung pada seberapa sesuai dokumen tersebut bagi pengguna. Pada tugas akhir ini presisi juga digunakan untuk mengevaluasi hasil klasterisasi. Perhitungan presisi dapat dinyatakan dalam bentuk tabel, seperti dalam Tabel 3. Tabel 3 Relevant dan retrieved Relevant Not Relevant Total Retrieved A B A+B Not Retrieved C D C+D Total A+C B+D A+B+C+D Rumus (20) merupakan rumus perhitungan presisi. (20) relevant adalah jumlah dokumen yang relevan dan retrieved adalah jumlah dokumen yang dikembalikan oleh system. Dokumen yang dihasilkan oleh sistem berupa dokumen hasil pencarian. III. PERANCANGAN PERANGKAT LUNAK DAN IMPLEMENTASI Aplikasi dalam tugas akhir ini memiliki kemampuan untuk mempermudah pengguna dalam mendapatkan informasi yang mereka butuhkan pada suatu mesin pencari. Gambar 2 merupakan gambaran umum dari aplikasi ini : Pengguna Hasil peringkasan dokumen Masukkan Kata kunci dan jenis pembobotan Keluaran Kelompok dokumen hasil peringkasan Rekomendasi kata kunci Gambar 2 Gambaran Umum Aplikasi Pengguna memberikan masukkan berupa kata kunci yang mewakili informasi yang dibutuhkan dan jenis pembobotan, kemudian sistem akan memberikan keluaran berupa hasil peringkasan dokumen, kelompok dokumen yang divisualisasikan menggunakan GUI-Tree, dan rekomendasi kata kunci. Aplikasi ini memiliki dua proses utama, proses pertama yaitu pra proses dokumen HTML yang diakses oleh administrator dan proses mencari dokumen yang diakses oleh pengguna. Gambar 3 merupakan bagan pra proses dokumen : Administrator Dokumen HTML Ekstraksi Metadata Dokumen Isi Teks Pemilahan Dok. Menjadi Kalimat Daftar Kalimat Pengindeksan - Pemilahan Kal. Menjadi kata - Stopword - Stemming Kata Pembobotan Kata Bobot Kata Pengelompokkan Dokumen Daftar Kalimat Bobot Kata Gambar 3 Pra Proses Dokumen Kelompok Dok. Pemilihan anchortext tiap dokumen Database Anchortext Terpilih Pada bagian pra proses dokumen HTML dijelaskan beberapa sub proses yang terjadi, pertama setelah aplikasi dapat membaca data asli dalam bentuk tag-tag HTML maka akan dilakukan ekstraksi metadata dokumen untuk isi teks inti dokumen. Kemudian, dilakukan pemilahan isi teks hasil ekstraksi metadata dokumen menjadi beberapa kalimat yang akan digunakan pada proses meringkas dokumen menggunakan SVD. Setelah didapatkan daftar kalimat, maka akan dilakukan pengindeksan yang terdiri dari pemilahan kalimat menjadi kata, eliminasi kata-kata tidak penting (stopword removal), dan pengembalian kata ke bentuk dasarnya (stemming). Daftar kata yang dihasilkan dari sub proses tersebut akan digunakan untuk pemilihan anchortext pada setiap dokumen dan akan dilakukan pembobotan yang akan digunakan pada pengelompokkan dokumen menggunakan klasterisasi berbasis hirarki tunggal. Hasil dari setiap sub proses akan disimpan ke dalam basis data. Gambar 4 merupakan bagan proses mencari dokumen : Pengguna Kata Kunci dan Jenis Pembobotan Peringkasan Dokumen Anchortext terpilih pada dokumen Ringkasan Pengindeksan - Pemilahan Dok. Menjadi kata - Stopword - Stemming Kata Ringkasan Database Bobot Kata Kelompok Dok. Gambar 4 Proses Mencari Dokumen Pembobotan Kata Bobot Kata Pengelompokkan Dokumen Kelompok Dok. Pencarian Dokumen Dok. Relevan & Tdk Relevan Perluasan Kata Kunci 5 Pada bagian proses mencari dokumen dijelaskan bahwa untuk melakukan peringkasan dokumen menggunakan metode Semantic Virtual Document (SVD), selain dibutuhkan anchortext untuk perhitungan penilaian anchortext-biased juga dibutuhkan masukkan kata kunci dari pengguna untuk perhitungan penilaian query-biased. Setelah didapatkan hasil peringkasan dari masing-masing dokumen maka selanjutnya akan dilakukan pengindeksan yang terdiri dari pemilahan

6 dokumen menjadi kata, eliminasi kata-kata tidak penting (stopword removal), dan pengembalian kata ke bentuk dasarnya (stemming). Dari sub proses tersebut dihasilkan daftar kata yang akan dilakukan pembobotan dan akan digunakan pada pengelompokkan dokumen menggunakan klasterisasi berbasis hirarki tunggal. Selajutnya, dilakukan pencarian dokumen menggunakan persamaan kosinus pada kelompok-kelompok dokumen tersebut. Sub proses pencarian dokumen akan menghasilkan kumpulan dokumen relevan dan dokumen tidak relevan yang akan digunakan untuk perluasan kata kunci menggunakan metode Rocchio. Hasil dari setiap sub proses akan disimpan ke dalam basis data. Antarmuka aplikasi ini dapat dilihat pada gambargambar dibawah ini. Gambar 5 menunjukkan antarmuka awal aplikasi, terdapat text field untuk kata kunci masukkan pengguna dan combo box yang berisi jenis pembobotan. Gambar 5 Antarmuka Awal Aplikasi Gambar 6 menunjukkan antarmuka hasil proses mencari dokumen. Pada proses ini menghasilkan kelompok dokumen yang divisualisasikan menggunakan GUI-Tree, hasil pencarian yang diurutkan berdasarkan nilai perhitungan similaritasnya, yang terdiri dari nilai similaritas, judul dokumen, 100 kata pertama hasil peringkasan, dan alamat dokumen. Selain itu juga terdapat 5 rekomendasi kata kunci yang diurutkan berdasarkan nilai perhitungan menggunakan metode Rocchio. Gambar 6 Antarmuka Hasil Proses Mencari Dokumen Gambar 7 menunjukkan antarmuka hasil peringkasan tiap dokumen. Pada panel bagian tengah terdapat judul dokumen, isi ringkasan, dan alamat dokumen. Pada hasil peringkasan secara menyeluruh terdapat highlight terhadap kata kunci yang muncul pada hasil peringkasan tersebut. Gambar 7 Antarmuka Hasil Peringkasan Tiap Dokumen IV. UJI COBA DAN EVALUASI Skenario uji coba yang akan dilakukan terhadap implementasi teknik peringkasan Semantic Virtual Document pada pengelompokkan hasil perncarian halaman web yaitu uji coba peringkasan menggunakan SVD, uji coba klasterisasi menggunakan metode hirarki tunggal, uji coba pencarian dokumen menggunakan persamaan kosinus, uji coba perluasan kata kunci menggunakan metode Rocchio, dan uji coba fungsionalitas sistem. Data yang digunakan pada pengujian sisten ini yaitu 100 dokumen Wikipedia dalam bentuk file HTML yang telah diunduh terlebih dahulu dan beberapa kata kunci (kata atau frase) yang akan disesuaikan dengan pelaksanaan uji coba. 1) Uji Coba Peringkasan Menggunakan Perhitungan Kappa Uji coba ini bertujuan untuk mengetahui ketepatan hasil peringkasan dari dokumen-dokumen yang telah tersedia. Hal itu dilakukan dengan membandingkan hasil peringkasan sistem dengan hasil peringkasan situs web peringkasan online dengan alamat Data uji coba yang digunakan dalam uji coba ini yaitu 100 dokumen dan kata kunci yang didapat dari kata-kata terbaik yang dihasilkan oleh situs web peringkasan online. Situs web peringkasan online tersebut memilih kata-kata terbaik dengan melihat banyaknya kemunculan kata pada suatu dokumen. Contoh pemilihan kata kunci dapat dilihat pada Tabel 4. Tabel 4 Contoh Pemilihan Kata Kunci Judul Kata Terbaik Kata Kunci Dokumen Dok.Asli Dok. Backlink Anatomy Anatomy Anatomy Antivirus Human Human human study Software Study System system Pada uji coba peringkasan ini rata-rata nilai Kappa dari 100 dokumen adalah Berdasarkan tabel interpretasi Kappa pada Tabel 2.27 nilai tersebut menunjukkan bahwa tingkat persetujuan dari kedua pengamat terhadap hasil peringkasan adalah cukup. Hal itu menunjukkan bahwa isi peringkasan dari setiap dokumen cukup mewakili informasi yang terdapat pada dokumen dan informasi yang sesuai dengan kata kunci masukkan pengguna. Sedangkan rata-rata nilai Kappa untuk setiap tingkat persetujuan dapat dilihat pada Tabel 5. 6

7 Tabel 5 Rata-Rata Nilai Kappa Pada Setiap Tingkat Persetujuan Tingkat Persetujuan Rata-rata Nilai Kappa Poor 4 % Slight 22 % Fair 33 % Moderate 28 % Substansial 4 % Perfect 9 % Dari tabel diatas dapat dianalisis bahwa baik atau tidaknya hasil peringkasan bergantung pada isi teks hasil ekstraksi metadata dokumen. Isi teks dokumen tersebut nantinya akan dipilah menjadi kalimat dan akan dilakukan perhitungan teknik SVD pada tiap kalimat. Semakin baik hasil metadata, tidak terdapat banyak cite note dan references, maka semakin baik pula hasil pemilahan dokumen menjadi kalimat. 2) Uji Coba Klasterisasi Menggunakan Perhitungan Presisi Uji coba ini bertujuan untuk mengetahui apakah dokumen-dokumen telah terkelompok berdasarkan topiknya dan kelompok-kelompok tersebut dapat mempermudah pengguna dalam menyaring dan memilih dokumen yang memuat informasi yang mereka butuhkan. Uji coba ini akan diterapkan ke 100 dokumen asli, jenis pembobotan Okapi, dan dua macam threshold yaitu 50% dan 75% dari bobot kata maksimal pada setiap jenis pembobotan, threshold tersebut digunakan untuk menentukan matriks fitur. Dipilih jenis pembobotan Okapi karena pada uji coba pengelompokkan terhadap dokumen asli, jenis pembobotan tersebut dapat mengelompokkan dokumen satu sama lain atau tidak terdapat outliers. Tabel 6 menunjukkan hasil perhitungan dan rata-rata presisi pada uji coba klasterisasi dengan jumlah kelompok sama dengan 7 dan menggunakan jenis pembobotan Okapi. Tabel 6 Hasil Perhitungan dan Rata-Rata Nilai Presisi Pada Uji Coba Klasterisasi Kata Kunci Nilai Presisi (%) threshold 50% threshold 75% Antivirus Molecular Reproductive Respiratory Central Dari tabel diatas dapat dilihat bahwa nilai presisi hasil klasterisasi dokumen peringkasan sebesar 100%, hal itu menunjukkan bahwa dokumen-dokumen telah terkelompok berdasarkan profil atau fitur yang telah ditentukan. 3) Uji Coba Pencarian Menggunakan Perhitungan Presisi Tujuan dari uji coba pencarian menggunakan persamaan kosinus yaitu untuk mengetahui ketepatan hasil dokumen kembalian, apakah dokumen-dokumen tersebut telah sesuai dengan kata kunci yang dimasukkan oleh pengguna atau tidak. Data uji coba yang digunakan adalah 100 dokumen menggunakan 30 kata kunci yang telah dipilih dari judul dokumen-dokumen yang tersedia, 2 macam threshold yaitu 50% dan 75% dari bobot kata maksimal pada setiap jenis pembobotan, dan 3 jenis pembobotan yaitu Tf-Idf, Okapi, dan LTU. Hasil pencarian dari setiap uji coba akan dibandingkan dengan dengan daftar dokumen relevan yang telah disediakan. Dokumen relevan tersebut berupa 15 dokumen yang hasil peringkasannya paling banyak mengandung kata kunci masukkan pengguna. Kemudian hasil tersebut akan dievaluasi menggunakan perhitungan presisi. Hasil rata-rata nilai presisi dari percobaan ini dapat dilihat pada Tabel 7. Tabel 7 Hasil Rata-Rata Perhitungan Presisi Pada Uji Coba Pencarian Dokumen Jenis Nilai Presisi (%) Pembobotan threshold 50% threshold 75% Tf-Idf 41,667 46,923 Okapi 61,111 49,107 LTU 45,454 65,769 Pada tabel diatas dapat dilihat bahwa pada saat menggunakan threshold 50% dari bobot maksimal maka jenis pembobotan yang paling baik digunakan adalah jenis pembobotan Okapi dan saat menggunakan threshold 75% dari bobot kata maksimal maka jenis pembobotan yang paling baik digunakan adalah jenis pembobotan LTU. 4) Uji Coba Perluasan Kata Kunci Menggunakan Perhitungan Presisi Tujuan dari uji coba terhadap perluasan kata kunci yaitu untuk mengetahui apakah kata kunci baru hasil perluasan kata kunci dapat lebih membantu pengguna untuk memperoleh dokumen kembalian yang mengandung informasi yang mereka butuhkan. Data uji coba yang akan digunakan adalah 100 dokumen, 30 kata kunci baru yang mengandung kata kunci awal yang digunakan saat uji coba pencarian dokumen dan kata kunci baru hasil perluasan kata kunci, 2 macam threshold yaitu 50% dan 75% dari bobot kata maksimal pada setiap jenis pembobotan, dan 3 jenis pembobotan yaitu Tf-Idf, Okapi, dan LTU. Hasil pencarian dari setiap uji coba akan dibandingkan dengan dengan daftar dokumen relevan yang juga digunakan pada uji coba pencarian. Hasil rata-rata nilai presisi dari percobaan ini dapat dilihat pada Tabel. Tabel 8 Hasil Rata-Rata Perhitungan Presisi Pada Uji Coba Pencarian Dokumen Dengan Kata Kunci Baru Jenis Nilai Presisi (%) Pembobotan threshold 50% threshold 75% Tf-Idf 36,957 30,833 Okapi 56,034 33,333 LTU 37,5 15,400 Tabel diatas akan dibandingkan dengan Tabel 7.Dari hasil perbandingan kedua rata-rata tersebut dapat dilihat bahwa rata-rata nilai presisi pada pencarian menggunakan kata kunci baru lebih kecil daripada rata-rata nilai presisi pada pencarian menggunakan kata kunci awal. Sehingga dapat disimpulkan bahwa kata kunci hasil perluasan kurang membantu pengguna dalam mendapatkan informasi yang lebih spesifik. 5) Uji Fungsionalitas Tujuan uji coba fungsionalitas yaitu untuk mengetahui kegunaan sistem ini bagi pengguna mesin pencari secara umum dalam memperoleh suatu informasi yang dibutuhkan. 7

8 Pelaksanaan uji coba fungsionalitas dengan cara melakukan proses pencarian menggunakan tiga kata kunci utama yang divariasi, contohnya pada kata kunci Antivirus Software akan divariasi menjadi Antivirus Software Software dan Software Antivirus Antivirus.Hal itu untuk mengetahui apakah aplikasi ini dapat diterapkan pada dokumen berbahasa Indonesia yang memiliki beberapa kata perulangan seperti kupu-kupu, jalan-jalan, mata-mata, dll. Dari uji coba ini akan diamati waktu berjalannya program dan perbedaan hasil pencarian dari beberapa kata kunci tersebut. Hasil uji coba fungsionalitas menunjukkan bahwa ratarata waktu yang dibutuhkan saat menjalankan sistem adalah 2 menit 53 detik. Hal itu dikarenakan lamanya waktu yang dibutuhkan dalam menghasilkan suatu hasil pencarian. Dalam memperoleh hasil peringkasan, sistem harus melakukan beberapa perhitungan SVD terlebih dahulu pada 100 dokumen yang tersedia, kemudian dilakukan proses pengelompokkan pada hasil peringkasan tersebut, barulah dilakukan pencarian dokumen dan perluasan kata kunci. Selain itu, lamanya waktu yang dibutuhkan saat menjalankan sistem juga disebabkan oleh banyaknya perulangan yang dilakukan pada pembobotan kata yang akan digunakan pada pengelompokkan dokumen dan perluasan kata kunci dan juga dipengaruhi oleh perangkat keras yang digunakan pada saat uji coba. Untuk hasil uji coba menggunakan beberapa variasi kata kunci didapatkan hasil bahwa jika terjadi perulangan kata kunci tidak terlalu mempengaruhi hasil pencarian dokumen karena hanya akan mempengaruhi perhitungan panjang vektor kata kunci yang akan digunakan pada perhitungan persamaan kosinus. Sedangkan, untuk pengelompokkan dokumen dan perluasan kata kunci perulangan kata kunci tidak berpengaruh karena meskipun diulang lebih dari satu kali pada kata kunci, penyimpanannya dalam basis data dianggap satu kata dan hanya akan memiliki satu bobot. Sehinggan dapat diambil kesimpulan bahwa aplikasi ini kurang dapat diterapkan pada dokumen berbahasa Indonesia karena perhitungan tersebut hanya memperhatikan jumlah kemunculan kata bukan makna kata. Sedangkan pada contoh kata Bahasa Indonesia yang berulang, kata jalan dan jalan-jalan memiliki makna yang berbeda. Contoh variasi kata kunci yang digunakan dalam uji coba ini terdapat pada Tabel 5.9. Tabel 9 Kata Kunci Variasi Kata Kunci Kata Kunci Variasi Antivirus software software Antivirus software Software antivirus antivirus Molecular biology Molecular biology molecular Molecular biology biology Processing processing central unit Central processing unit Central central processing unit Central processing unit unit V. KESIMPULAN DAN SARAN Kesimpulan yang dapat diambil dari tugas akhir ini antara lain sebagai berikut : 1. Kalimat-kalimat penting dalam halaman web dapat ditentukan menggunakan metode Semantic Virtual Document (SVD) dengan rata-rata nilai Kappa Hal itu dikarenakan metode ini melakukan perhitungan pada setiap kalimat, semakin banyak kata kunci atau anchortext terpilih pada suatu kalimat maka semakin penting pula kalimat tersebut. 2. Dokumen dapat terkelompok berdasarkan topiknya menggunakan klasterisasi hirarki tunggal (Single Linkage) dengan rata-rata nilai presisi 100%. Hal itu dikarenakan adanya penentuan profil atau fitur yang dapat mewakili topik atau isi dari setiap dokumen. Namun pada hasil klasterisasi ini dapat terjadi kondisi dimana tidak semua dokumen terkelompok karena terjadi kesalahan dalam pemilihan dataset atau dokumen. 3. Visualisasi menggunakan GUI-Tree dapat mengatur tampilan hasil pengelompokkan dokumen, sehingga dapat mempermudah pengguna dalam memilih dokumen yang dibutuhkan. 4. Metode Rocchio dapat digunakan dalam pemilihan rekomendasi kata kunci. Namun hasil rekomendasi kurang membantu pengguna karena adanya ambiguitas terhadap kata kunci awal. Beberapa saran perbaikan untuk pengembangan Tugas Akhir ini adalah : 1. Perlu dikembangkan metode untuk mencari nilai threshold yang optimal agar dapat menghasilkan hasil pengelompokkan dan perluasan kata kunci yang baik. 2. Perlu diterapkan suatu metode untuk mengatasi ambiguitas kata sehingga menghasilkan perluasan kata kunci yang relevan dengan kata kunci awal REFERENSI [CHE2004] Chen, Lihui dan Chue, Wai Lian Using Web Structure and Summarisation Techniques for Web Content Mining. Nanyang Technological University, Republic of Singapore. [GAR2006] Garcia, Dr. E The Classic Vector Space Model. URL: < [KEY1998] Keyes, John PorterStemmer.java. < URL: Stemmer.java> [MAN2002]Mandala, R. dan Setiawan, H Peningkatan Performansi Sistem Temu-Kembali Informasi dengan Perluasan Query Secara Otomatis. Institut Teknologi Bandung. [MAN2009]Manning, Christopher D., Raghavan, Prabhakar, & Schutze Hinrich An Introduction to Information Retrieval. Cambridge University Press, Cambridge, England. [MAR1979] Mardia, Kantia et al Multivariate Analysis. Academic Press. [ORO2007]Oroumchian, F., Aleahmad, A., Hakimian, P., Mahdikhani, F N-Gram and Local Context Analysis for Persian Text Retrieval. University of Tehran dan University of Wollongong, Dubai. [POR1980] Porter, M.F An Algorithm for Suffix Stripping. Program, Vol.14, no.3, pp [REE2006] Reed, Joel W., Jiao Yu, Potok, Thomas E., Klump, Brian A., Elmore, Mark T., dan Hurson, Ali R TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams. Oak Ridge National Laboratory dan The Pennsylvania State University,USA. 8

9 [ROB2009] Robertson, Stephen dan Zaragoza Hugo The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends in Information Retrieval Vol. 3, No. 4 (2009) [SAL1990] Salton, G. dan Buckley C Improving Retrieval Performance by Relevance Feedback. Cornell University, Ithaca, New York. [TEK2009] Teknomo, Kardi Hierarchical Clustering Tutorial.URL: torial/ Clustering/Cophenetic.htm> [THE2011] The MathWorks, Inc Cophenet. URL: phenet.html> [VIE2005] Viera, Anthony J. dan Garrett, Joanne M Understanding Interobserver Agreement: The Kappa Statistic. University of North Carolina. [WHI2002] White, Ryen W., Jose, Joemon M., & Ruthven Ian A task-oriented study on the influencing effects of query-biase summarization in web searching. University of Strathclyde, Scotland. 9

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap BAB I PENDAHULUAN 1. 1 Latar Belakang Sistem informasi merupakan serangkaian prosedur normal dimana data dikumpulkan, diproses menjadi sebuah informasi yang valid dan kemudian didistribusikan ke para pengguna

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

Pembuatan Kakas Komunikasi Antar Pengembang Perangkat Lunak

Pembuatan Kakas Komunikasi Antar Pengembang Perangkat Lunak JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) 1 Pembuatan Kakas Komunikasi Antar Perangkat Lunak Anugerah Firdaus, Daniel Oranova Siahaan dan Rizky Januar Akbar Jurusan Teknik

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB 3 ANALISA DAN PERANCANGAN

BAB 3 ANALISA DAN PERANCANGAN BAB 3 ANALISA AN PERANCANGAN 3.1 Gambaran Umum Pada masa sekarang ini, proses pencarian dokumen dalam web seperti Google, Yahoo, dan sebagainya dilakukan dengan menginput query yang diinginkan pada kotak

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System

Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di

BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan teknologi yang semakin pesat telah memaksa manusia untuk berusaha mengikutinya. Teknologi tersebut dapat digunakan oleh semua kalangan yang dapat memanfaatkannya

Lebih terperinci

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity Adi Wiboo, Andreas Handoo, Minardi Taliang adi@petra.ac.id, handoo@petra.ac.id,

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Bagi perusahaan yang bergerak dalam industri manufaktur, sistem informasi produksi yang efektif merupakan suatu keharusan dan tidak lepas dari persoalan persediaan

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL MPLEMENTAS METODE PROBABLSTC LATENT SEMANTC ANALYSS UNTUK OPNON RETREVAL Yusup Miftahuddin,asman Pardede 2, Afdhalul Zikri 3 urusan Teknik nformatika, Fakultas Teknik ndustri, tenas Bandung ln. PHH. Mustopha

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

RANCANG BANGUN ADD-ONS MOZILLA FIREFOX UNTUK IDENTIFIKASI TOPIK PADA MATERI BELAJAR ONLINE

RANCANG BANGUN ADD-ONS MOZILLA FIREFOX UNTUK IDENTIFIKASI TOPIK PADA MATERI BELAJAR ONLINE RANCANG BANGUN ADD-ONS MOZILLA FIREFOX UNTUK IDENTIFIKASI TOPIK PADA MATERI BELAJAR ONLINE Penyusun Tugas Akhir: Carolina Florida Edjam 5108100142 Dosen Pembimbing: 1. Umi Laili Yuhana, S.Kom., M.Sc. 2.

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan teknologi komputer khususnya di jaringan Internet telah berkembang dengan sangat cepat. Semua orang dapat saling bertukar dan mendapatkan informasi

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang 45 Dinamika Teknik Januari IMPLEMENTASI SEARCH ENGINE (MESIN PENCARI) MENGGUNAKAN METODE VECTOR SPACE MODEL Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang Abstract Growth of Machine

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Sumber informasi atau referensi sudah merupakan hal yang tidak asing lagi bagi seorang peneliti, terutamanya bagi para mahasiswa yang sedang melakukan penelitian untuk

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS

SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS Surya Agustian 1, Imelda Sukma Wulandari 2 1,2 Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, UIN

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR Achmad Thoriq B, Nelly Indriani W Abstract News aggregator is one type of aggregator system (collector) which collects

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan Perkembangan volume dan keragaman informasi yang tersedia di internet saat ini sangat pesat sehingga mendorong tumbuhnya media pemberitaan online.

Lebih terperinci

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya perkembangan teknologi dewasa ini telah menyebabkan aliran informasi begitu lancar

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Media massa memiliki berbagai jenis media penyiaran seperti televisi dan radio dan media cetak seperti surat kabar, majalah dan tabloid. Namun, dengan kemajuan teknologi

Lebih terperinci

PERINGKASAN TEKS OTOMATIS BERBASIS WEB MENGGUNAKAN ALGORITMA HILL CLIMBING ANIESMA SULTHAN MAUDUDI

PERINGKASAN TEKS OTOMATIS BERBASIS WEB MENGGUNAKAN ALGORITMA HILL CLIMBING ANIESMA SULTHAN MAUDUDI PERINGKASAN TEKS OTOMATIS BERBASIS WEB MENGGUNAKAN ALGORITMA HILL CLIMBING ANIESMA SULTHAN MAUDUDI 41506110050 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS MERCU BUANA JAKARTA 2012

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini akan membahas tentang penelitian berita yang menggunakan Text Mining, metode TF-IDF, dan. Yang mana penelitian ini akan mengulas secara lengkap tentang

Lebih terperinci

DAFTAR ISI. SKRIPSI... ii

DAFTAR ISI. SKRIPSI... ii DAFTAR ISI SKRIPSI... i SKRIPSI... ii HALAMAN PENGESAHAN... ii PERNYATAAN... iii HALAMAN MOTO DAN PERSEMBAHAN... iv PRAKATA... v DAFTAR ISI... vii DAFTAR GAMBAR... x DAFTAR TABEL... xiii INTISARI... xiv

Lebih terperinci

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing Wahib, Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing 83 Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing Aminul Wahib 1, Pasnur 2, Putu Praba Santika

Lebih terperinci

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize PERANCANGAN DAN ANALISIS CLUSTERING DATA MENGGUNAKAN METODE SINGLE LINKAGE UNTUK BERITA BERBAHASA INGGRIS DESIGN AND ANALYSIS OF DATA CLUSTERING USING SINGLE LINKAGE METHOD FOR ENGLISH NEWS Fachri Nugraha

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL Sistem Informasi Pengelolaan Arsip Statis... SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL Silmi Kafatan, Djalal Er Riyanto,

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

Aplikasi Pencarian Karya Tulis Ilmiah Berbasis Web Menggunakan Sistem Rekomendasi

Aplikasi Pencarian Karya Tulis Ilmiah Berbasis Web Menggunakan Sistem Rekomendasi Aplikasi Pencarian Karya Tulis Ilmiah Berbasis Web Menggunakan Sistem Rekomendasi Husni Program Studi Teknik Informatika, Universitas Trunojoyo Jl. Telang Raya PO BOX 2 Kamal, Bangkalan 69162 E-mail: husni@if.trunojoyo.ac.id

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas

Lebih terperinci