Implementasi Teknik Peringkasan Semantic Virtual Document Pada Pengelompokkan Hasil Pencarian Halaman Web

Transkripsi

1 Implementasi Teknik Peringkasan Semantic Virtual Document Pada Pengelompokkan Hasil Pencarian Halaman Web Rahmani Dwiastuti, Diana Purwitasari, Umi Laili Yuhana Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember 1 dias_tc07@cs.its.ac.id 2 diana@its-sby.edu 3 yuhana@cs.its.ac.id Abstract Saat ini semakin banyak penggunaan internet dikalangan masyarakat khususnya dalam hal pendistribusian informasi melalui mesin pencari. Mesin pencari pada umumnya memiliki sekumpulan data dalam jumlah yang cukup besar yang dapat menjadi sumber untuk bahan pencarian. Namun, data dalam jumlah yang cukup besar tersebut menimbulkan dampak berupa waktu pengolahan yang relatif lama dalam memilah-milah informasi yang sesuai dengan kebutuhan. Masalah lain juga terdapat pada pengguna, yaitu kurang mengetahui penggunaan mesin pencari, sehingga seringkali pengguna memasukkan kata kunci tunggal atau kata kunci yang kurang bermakna, yang berdampak pada presisi hasil pencarian yang rendah. Dalam tugas akhir ini diperkenalkan beberapa metode untuk mengatasi permasalahan-permasalahan yang telah disebutkan diatas.metode-metode tersebut adalah metode Semantic Virtual Document (SVD) untuk melakukan peringkasan, teknik klasterisasi berbasis hirarki Single Linkageuntuk melakukan pengelompokkan dan divisualisasikan menggunakan GUI-Tree, model ruang vektor dan perhitungan persamaan kosinus untuk melakukan pencarian dokumen, dan metode Rocchio untuk pemberian rekomendasi kata kunci. Berdasarkan serangkaian pengujian yang dilakukan pada tugas akhir ini, diperoleh beberapa kesimpulan yaitu pencarian dokumen pada aplikasi ini paling baik menggunakan jenis pembobotan Okapi dan LTU. Peringkasan dokumen menggunakan metode SVD dapat menghasilkan peringkasan yang memiliki tingkat kesepakatan cukup baik. Pengelompokkan dokumen berdasar topik berhasil ditingkatkan hingga 100%, dengan menggunakan teknik klasterisasi berbasis hirarki tunggal dan paling baik menggunakan jenis pembobotan Okapi.. Perluasan kata kunci menggunakan metode Rocchio dapat dilakukan, namun hasil rekomendasi kurang relevan dengan kata kunci awal karena terdapat ambiguitas pada kata kunci awal. Keywords peringkasan, semantic virtual document, klasterisasi hirarki tunggal, Rocchio 1 I. PENDAHULUAN Internet saat ini telah marak dikalangan masyarakat karena telah membawa perubahan yang cukup besar dalam hal pendistribusian informasi. Salah satu fasilitas yang disediakan untuk memperoleh informasi di dunia maya yaitu mesin pencari, antara lain Google, Wikipedia, MSN, dan Yahoo. Mesin pencarian tersebut pada umumnya memiliki sekumpulan data dalam jumlah yang cukup besar yang dapat menjadi sumber dalam memperoleh informasi yang dibutuhkan oleh pengguna. Namun disisi lain, sekumpulan data dalam jumlah yang cukup besar tersebut memberikan dampak negatif bagi pengguna yaitu dibutuhkan waktu yang relatif lama untuk memilah-milah informasi yang sesuai dengan kebutuhan mereka. Selain permasalahan yang timbul dari sistem mesin pencari, permasalahan juga ditemui pada pengguna mesin pencari. Pengguna mesin pencari yang kurang kemampuannya akan penggunaan mesin pencari, seringkali memasukkan kata kunci tunggal atau kurang bermakna, sehingga menghasilkan dokumen kembalian yang kurang relevan atau kurang spesifik. Solusi untuk mengatasi permasalahan tersebut adalah diperlukannya teknik peringkasan pada mesin pencari karena selain dapat mempermudah pengguna dalam memperoleh inti dari suatu dokumen, juga dapat mempermudah sistem dalam melakukan proses pengelompokkan. Selain itu juga diperlukan pengelompokkan pada sekumpulan data menjadi beberapa topik berdasarkan isi dari tiap dokumen, agar dapat memepermudah pengguna dalam menyaring dan memilih dokumen yang mengandung informasi yang mereka butuhkan. Untuk mengatasi kata kunci pengguna yang kurang bermakna maka akan dilakukan pemberian rekomendasi kata kunci yang akan menjadi umpan balik dari sistem ke pengguna agar memperoleh hasil pencarian yang lebih spesifik. II. TINJAUAN PUSTAKA A. Riset Terkait isearch merupakan aplikasi mesin pencari yang menerapkan teknik peringkasan pada halaman web dan mengelompokkan hasil peringakasan tersebut. Selain itu, aplikasi isearch juga dapat memeberikan rekomendasi kata kunci pada pengguna mesin pencari [CHE2004]. Pada aplikasi tersebut diterapkan teknik peringkasan Semantic Virtual Document (SVD) yang dapat memperoleh kalimat-

2 kalimat penting pada suatu halaman web dan menghasilkan suatu hasil peringkasan yang dapat mewakili isi dokumen. Hasil peringkasan tersebut akan dilakukan pengindeksan dan pembobotan menggunakn pembobotan Term Frequency- Inverse Document Frequency (Tf-Idf) dan nantinya akan digunakan dalam pengelompokkan dokumen menggunakan klasterisasi berbasis hirarki Single-Linkage. Pada tugas akhir ini akan diterapkan empat jenis pembobotan kata yang merupakan variasi dari pembobotan Tf-Idf, yang menambahkan beberapa parameter tambahan sebagai perbandingan. Jenis pembobotan tersebut yaitu Mutual Information (MI), Automated Text Categorization (ATC), Okapi dan Linear Threshold Unit (LTU) [REE2006]. Hal itu dilakukan untuk mengetahui jenis pembobotan yang paling baik diterapkan pada aplikasi ini. B. Pembobotan Kata Setiap dokumen mengandung beberapa kata yang berbeda-beda. Hal yang perlu diperhatikan dalam pencarian informasi dari koleksi dokumen yang heterogen adalah pembobotan kata, karena setiap kata memiliki tingkat kepentingan yang berbeda dalam dokumen. Oleh karena itu diberikan sebuah indikator yaitu bobot term [MAN2009]. Terdapat lima jenis pembobotan kata yang digunakan pada tugas akhir ini antara lain pembobotan Term Frequency- Inverse Document Frequency (Tf-Idf) dan empat jenis pembobotan yang merupakan variasi dari pembobotam tf-idf yang menggunakan parameter tambahan sebagai pertimbangan. Variasi pembobotan tersebut yaitu Mutual Information (MI), Automated Text Categorization (ATC) menggunakan parameter tambahan berupa tf maksimum, Okapi dan Linear Threshold Unit (LTU) yang menggunakan panjang dokumen dan rata-rata panjang dokumen sebagai parameter tambahan [REE2006]. Pembobotan TF-IDF Term Frequency (tf) merupakan jumlah kemunculan kata pada suatu dokumen. Semakin besar jumlah kemunculan suatu kata dalam dokumen, maka semakin besar pula bobotnya dalam dokumen. Terdapat beberapa jenis rumus dalam mencari nilai tf. Jenis tf yang digunakan pada tugas akhir ini yaitu tf normalisasi, rumus (1) merupakan rumus dari perhitungan tersebut [MAN2009]. tf = (1) tf adalah jumlah kemunculan kata pada suatu dokumen dan max(tf) adalah tf yang paling maksimal pada suatu dokumen. Inverse Document Frequency (idf) merupakan pengurangan dominansi term yang sering muncul di berbagai dokumen. Hal ini diperlukan karena term yang banyak muncul di berbagai dokumen dianggap sebagai term umum sehingga tidak penting nilainya [MAN2009]. Rumus (2) merupakan rumus yang digunakan pada perhitungan idf. idf j = log (2) D adalah jumlah koleksi dokumen dan df adalah jumlah dokumen yang mengandung kata t j. Setelah mendapatkan nilai tf dan idf maka selanjutnya mengalikan nilai tersebut untuk mendapatkan bobot tiap kata pada masing-masing dokumen [MAN2009]. Rumus (3) merupakan rumus umum pembobotan tf-idf. w ij = tf ij x idf j (3) w ij adalah bobot kata ke-i pada dokumen ke-j. Pembobotan MI MI atau biasa disebut dengan transinformation, adalah metode pengukuran jumlah informasi yang bisa didapat dari sebuah variabel acak, dengan mempelajari variabel lainnya. Rumus (4) merupakan rumus dari MI [REE2006]. N merupakan jumlah dokumen dan M merupakan banyak kata pada setiap dokumen. Pembobotan ATC Rumus (5) merupakan rumus dari pembobotan ATC [REE2006]. Parameter tambahan yang digunakan pada pembobotan ATC adalah yaitu nilai tf yang paling maksimum yang terdapat pada setiap dokumen. Pembobotan Okapi Pada sistem temu kembali informasi, Okapi atau juga dikenal dengan nama Okapi BM25 merupakan fungsi perankingan yang digunakan oleh mesin pencari untuk mengurutkan hasil pencocokan dokumen-dokumen, berdasar pada relevansinya terhadap kata kunci pencarian yang diberikan [ROB2009]. Berikut merupakan rumus dari Okapi [REE2006]. Parameter tambahan pada Okapi yaitu dl yang merupakan panjang tiap dokumen, panjang tersebut didapat dari banyak kata pada tiap dokumen dan kata-kata tersebut telah melalui proses penghapusan kata yang tidak penting (stopword removal) dan avg_dl merupakan rata-rata panjang keseluruhan dokumen. Pembobotan LTU Pembobotan LTU dikenal sebagai Pivoted Unique Normalization (PUN) yang merupakan pengembangan dari metode sebelumnya yaitu Pivoted Cosine Normalization (PCN). LTU biasa digunakan bersamaan dengan LNU dan lebih dikenal dengan metode Lnu.ltu. Lnu biasa digunakan untuk pembobotan terhadap dokumen. Sementara ltu digunakan untuk pembobotan terhadap query [ORO2007]. Rumus dari pembobotan LTU sebagai berikut [REE2006]. Parameter tambahan pada LTU yaitu dl yang merupakan panjang tiap dokumen dan avg_dl merupakan rata-rata panjang keseluruhan dokumen. (4) (5) (6) (7) 2

3 C. Persamaan Kosinus Pengukuran kesamaan kosinus yaitu pengukuran berdasarkan besar sudut kosinus antara vektor dokumen dengan vektor kata kunci. Berdasarkan sudut kosinus antar dua vektor, maka nilai yang dihasilkan berkisar pada 0-1, 0 menandakan kedua dokumen tidak memiliki kemiripan sama sekali dan 1 menandakan kedua dokumen memiliki kemiripan yang identik. Metode pengukuran kesamaan kosinus ini memiliki beberapa keuntungan yaitu adanya normalisasi terhadap panjang dokumen atau banyaknya kata dalam dokumen. Hal ini diperlukan karena dokumen yang mengandung banyak kata cenderung mendapatkan hasil pengukuran yang besar dibandingkan dengan dokumen yang tidak mengandung banyak kata [MAN2002]. Terdapat beberapa tahap untuk mendapatkan nilai relevansi antara dokumen dengan kata kunci [GAR2006], yaitu: 1) Menghitung panjang vektor dan (8) 2) Menghitung perkalian dalam (inner product) kedua vektor (9) 3) Menghitung kesamaan kedua vektor (10) Keterangan : D i adalah panjang vektor dokumen ke-i Q adalah panjang vektor kata kunci pengguna w ij adalah bobot kata ke-i pada dokumen ke-j w qj adalah bobot kata kunci ke-i pada dokumen ke-j adalah perkalian dalam antara kata kunci dan dokumen ke-i Cos(Q,D i ) adalah persamaan kosinus antara kata kunci dan dokumen ke-i D. Metode Rocchio Perluasan kata kunci adalah proses pemberian rekomendasi beberapa kata yang dapat dipilih dan ditambahkan pada kata kunci untuk meningkatkan performa dalam pencarian informasi. Metode perluasan kata kunci yang digunakan pada tugas akhir ini adalah algoritma Rocchio. Rocchio menyatakan bahwa kata kunci yang optimal adalah kata kunci yang memaksimalkan perbedaan antara rata-rata kesesuaian dokumen-dokumen relevan dan dokumendokumen tidak relevan [SAL1990]. Metode umpan balik yang diajukan oleh Rocchio bertujuan untuk mendekatkan vektor kata kunci awal kearah vektor kata kunci optimal. Rumus (11) merupakan rumus dari metode Rocchio [SAL1990]. Keterangan : Q 1 adalah vektor kata kunci baru Q 0 adalah vektor kata kunci awal D i adalah vektor dokumen relevan ke-i D j adalah vektor dokumen tidak relevan ke-j D i adalah panjang vektor dokumen relevan ke-i D j adalah panjang vektor dokumen tidak relevan ke-j n 1 adalah jumlah dokumen relevan n 2 adalah jumlah dokumen tidak relevan (11) 3 Suatu dokumen dikatakan relevan jika dokumen tersebut memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pada tugas akhir ini tingkat relevansi dapat dilihat dari hasil perhitungan kesamaan kosinus antara kata kunci masukkan pengguna dan dokumen bayangan pada setiap kelompok. Dokumen bayangan adalah dokumen yang berisi kata-kata yang bobotnya merupakan hasil rata-rata kata pada seluruh dokumen dalam satu kelompok. Sehingga, dokumen bayangan dapat mewakili seluruh dokumen pada satu kelompok. Hasil perhitungan Rocchio dengan nilai terbesar akan dipilih dan kelompok tersebut menjadi kelompok yang dianggap paling relevan dengan kata kunci dan dokumendokumen yang terdapat dalam kelompok tersebut disebut dokumen relevan, sedangkan dokumen-dokumen yang terdapat pada kelompok lain disebut dokumen tidak relevan. E. Semantic Virtual Document (SVD) Semantic Virtual Document (SVD) merupakan teknik peringkasan yang menggunakan kata kunci masukkan pengguna dan anchortext sebagai parameter. Anchortext adalah kata yang mengandung link pada suatu halaman web. Penggunaan anchortext sebagai salah satu parameter karena anchortext dianggap dapat memberikan informasi tambahan pada hasil peringkasan, yang relevan dengan isi keseluruhan dokumen asli. Anchortext dapat digambarkan seperti pada Gambar 1. My favorite search engine is Google Anchortext Google Dokumen Asli Link Dokumen Back Link / Tujuan Anchortext Gambar 1 Anchortext Pada Suatu Halaman Web Teknik SVD memiliki dua jenis perhitungan untuk menentukan kalimat yang dianggap penting yaitu perhitungan penilaian query-biased dan perhitungan penilaian anchortextbiased. Kedua hal tersebut dianggap penting untuk mendapatkan ringkasan dengan baik karena kata kunci dapat mewakili informasi yang dibutuhkan oleh pengguna dan anchortext dapat memberikan informasi tambahan yang relevan dengan dokumen asli [CHE2004]. Berikut merupakan ilustrasi anchortext pada suatu dokumen : Hasil dari proses SVD berupa kumpulan kalimat dari Query-Biased Summaries dan Semantic Summaries. Query- Biased Summaries terdiri dari 2 kalimat dengan nilai tertinggi hasil perhitungan penilaian query-biased pada dokumen asli. Namun jika pada dokumen asli tidak terdapat anchortext maka SVD hanya akan berisi 5 kalimat dari Query-Biased Summaries. Perhitungan Penilaian Query-Biased Penilaian Query Biased atau lebih dikenal dengan query scoring (qs) yaitu penilaian yang dilakukan pada tiap kalimat dalam dokumen dengan melihat kemunculan kata kunci pada kalimat tersebut. Rumus (12) merupakan rumus dari penilaian Query Biased [CHE2004]. Query Score = n 2 / q (12) n merupakan jumlah kata kunci pada tiap kalimat dan q merupakan jumlah kata pada kata kunci yang diinputkan.

4 Perhitungan Penilaian Anchortext-Biased Penilaian Anchortext Biased atau lebih dikenal dengan anchortext scoring yaitu perhitungan relevansi anchortext antara halaman awal dengan halaman tujuan. Rumus (13) merupakan rumus dari penilaian Anchortext- Biased [CHE2004]. Anchortext Score = n 2 / a (13) n merupakan jumlah anchortext pada kalimat dan q merupakan jumlah kata pada anchortext. Pemilihan anchortext menggunakan perhitungan penilaian anchortext-biased pada dokumen asli. Perhitungan tersebut dilakukan pada setiap kalimat dan kemudian dijumlahkan. Anchortext yang terpilih adalah anchortext dengan nilai penjumlahan tertinggi. Kemudian dilakukan proses stopword dan stemming terhadap anchortext yang dimaksud tersebut. Setelah itu, dilakukan pencarian atas total penjumlahan nilai hasil perhitungan pada setiap anchortext. Kemudian, untuk mendapatkan hasil ringkasan setiap dokumen, kita harus memilih kalimat-kalimat yang relevan dengan kata kunci masukkan pengguna dan anchortext terpilih. Terdapat 4 teknik perhitungan, yaitu : 1. Perhitungan Penilaian Query-Biased pada Dokumen Asli 2. Perhitungan Penilaian Anchortext-Biased pada Dokumen Asli 3. Perhitungan Penilaian Query-Biased pada Dokumen Tujuan Anchortext. 4. Perhitungan Penilaian Anchirtext-Biased pada Dokumen Tujuan Anchortext Dari total 4 penghitungan diatas, akan didapatkan kalimat-kalimat yang relevan dengan kata kunci masukkan pengguna dan anchortext terpilih, untuk membentuk ringkasan tiap dokumen. F. Klasterisasi Berbasis Hirarki Tunggal Pengelompokkan merupakan sebuah teknik yang digunakan untuk mengelompokkan objek-objek berupa variabel atau data sehingga dapat menghasilkan suatu informasi berdasarkan relasi yang terjadi. Prinsip yang digunakan dalam pengelompokkan adalah memaksimalkan nilai kesamaan dalam satu kelompok dan memaksimalkan ketidaksamaan antar kelompok[man2009]. Terdapat tiga jenis pengelompokkan berbasis hirarki yaitu Single Linkage yang memperhatikan dua objek dengan jarak terpendek atau tetangga terdekat dengan kompleksitas waktu O(n 2 ), Complete Linkage yang memperhatikan dua objek dengan jarak terjauh dengan kompleksitas waktu O(n 2 log n), dan Average Linkage yang memperhatikan dua objek dengan jarak rata-rata dengan kompleksitas waktu O(n 2 log n)[man2009]. Pada tugas ini akan menggunakan pengelompokkan menggunakan hirarki Single Linkage karena kesederhanaan dari metode tersebut dan ketersediaan waktu perhitungan yang optimal. Dari kompleksitas waktu yang telah disebutkan sebelumnya, metode ini memiliki kompleksitas waktu yang paling kecil karena metode ini melakukan pengelompokkan objek dengan jarak terdekat[man2009]. Berikut merupakan langkah-langkah pengelompokkan beserta contohnya : 1. Menentukan profil atau fitur yang akan menjadi acuan pengelompokkan 2. Menghitung jarak dua kelompok menggunakan perhitungan jarak Euclidean. Rumus (14) merupakan rumus dari jarak Euclidean : 4 (14) adalah jarak antara dokumen 1 dan dokumen 2. x dan y adalah atribut atau fitur pada tiap-tiap dokumen yang dapat mewakili isi dokumen. 3. Mencari dua kelompok yang memiliki jarak antar kelompok paling minimal dan gabungkan kedua kelompok tersebut. 4. Kembali ke langkah tiga dan ulangi sampai mencapai kelompok data yang diinginkan. G. Koefisien Kappa Koefisian Kappa biasa digunakan untuk mengukur nilai kesepakatan dari dua pengamat terhadap karakteristik yang menjadi perhatian penelitian. Variabel yang diukur pada proses bersifat dikotomi yaitu dengan jawaban iya atau tidak [VIE2005]. Langkah pertama untuk menghitung koefisian Kappa yaitu harus menyusun klasifikasi kedua pengamat terhadap subjek penelitian kedalam tabel 2x2, seperti pada Tabel 1 : Tabel 1 Klasifikasi Antar Pengamat Pengamat I Ya Tidak Total Ya a b a+b Pengamat II Tidak c d c+d Total a+c b+d N = a+b+c+d a dan d menunjukkan jumlah kesetujuan observasi dari kedua pengamat sedangkan b dan c menunjukkan jumlah ketidaksetujuan observasi dari kedua pengamat. Jika tidak ada kesetujuan maka nilai kesepakatan yang terobservasi p o adalah 0 namun jika tidak ada ketidaksetujuan maka nilai kesepakatan yang terobservasi p o adalah 1 atau 100% [VIE2005]. Rumus (15), (16), dan (17) merupakan rumus perhitungan koefisien Kappa [VIE2005]. (15) (16) (17) p o merupakan nilai kesepakatan yang terobservasi dan p e merupakan nilai kesepakatan yang diharapkan. Tabel 2 merupakan tabel interpretasi dari hasil perhitungan koefisien kappa [VIE2005]. Tabel 2 Interpretasi dari Kappa Kappa Persetujuan < 0 Kurang dari peluang persetujuan Peluang persetujuan sedikit (Slight) Peluang persetujuan cukup (Fair) Peluang persetujuan sedang (Moderate) Peluang persetujuan substansial Peluang persetujuan hampir sempurna H. Presisi Presisi merupakan suatu parameter untuk mengetahui apakah kualitas hasil pencarian dokumen terhadap kata kunci dikatakan baik atau tidak. Presisi dapat diartikan sebagai tingkat kecocokan antara permintaan pengguna melalui kata

5 kunci dengan hasil pencarian sistem, kecocokan tersebut bergantung pada seberapa sesuai dokumen tersebut bagi pengguna. Pada tugas akhir ini presisi juga digunakan untuk mengevaluasi hasil klasterisasi. Perhitungan presisi dapat dinyatakan dalam bentuk tabel, seperti dalam Tabel 3. Tabel 3 Relevant dan retrieved Relevant Not Relevant Total Retrieved A B A+B Not Retrieved C D C+D Total A+C B+D A+B+C+D Rumus (20) merupakan rumus perhitungan presisi. (20) relevant adalah jumlah dokumen yang relevan dan retrieved adalah jumlah dokumen yang dikembalikan oleh system. Dokumen yang dihasilkan oleh sistem berupa dokumen hasil pencarian. III. PERANCANGAN PERANGKAT LUNAK DAN IMPLEMENTASI Aplikasi dalam tugas akhir ini memiliki kemampuan untuk mempermudah pengguna dalam mendapatkan informasi yang mereka butuhkan pada suatu mesin pencari. Gambar 2 merupakan gambaran umum dari aplikasi ini : Pengguna Hasil peringkasan dokumen Masukkan Kata kunci dan jenis pembobotan Keluaran Kelompok dokumen hasil peringkasan Rekomendasi kata kunci Gambar 2 Gambaran Umum Aplikasi Pengguna memberikan masukkan berupa kata kunci yang mewakili informasi yang dibutuhkan dan jenis pembobotan, kemudian sistem akan memberikan keluaran berupa hasil peringkasan dokumen, kelompok dokumen yang divisualisasikan menggunakan GUI-Tree, dan rekomendasi kata kunci. Aplikasi ini memiliki dua proses utama, proses pertama yaitu pra proses dokumen HTML yang diakses oleh administrator dan proses mencari dokumen yang diakses oleh pengguna. Gambar 3 merupakan bagan pra proses dokumen : Administrator Dokumen HTML Ekstraksi Metadata Dokumen Isi Teks Pemilahan Dok. Menjadi Kalimat Daftar Kalimat Pengindeksan - Pemilahan Kal. Menjadi kata - Stopword - Stemming Kata Pembobotan Kata Bobot Kata Pengelompokkan Dokumen Daftar Kalimat Bobot Kata Gambar 3 Pra Proses Dokumen Kelompok Dok. Pemilihan anchortext tiap dokumen Database Anchortext Terpilih Pada bagian pra proses dokumen HTML dijelaskan beberapa sub proses yang terjadi, pertama setelah aplikasi dapat membaca data asli dalam bentuk tag-tag HTML maka akan dilakukan ekstraksi metadata dokumen untuk isi teks inti dokumen. Kemudian, dilakukan pemilahan isi teks hasil ekstraksi metadata dokumen menjadi beberapa kalimat yang akan digunakan pada proses meringkas dokumen menggunakan SVD. Setelah didapatkan daftar kalimat, maka akan dilakukan pengindeksan yang terdiri dari pemilahan kalimat menjadi kata, eliminasi kata-kata tidak penting (stopword removal), dan pengembalian kata ke bentuk dasarnya (stemming). Daftar kata yang dihasilkan dari sub proses tersebut akan digunakan untuk pemilihan anchortext pada setiap dokumen dan akan dilakukan pembobotan yang akan digunakan pada pengelompokkan dokumen menggunakan klasterisasi berbasis hirarki tunggal. Hasil dari setiap sub proses akan disimpan ke dalam basis data. Gambar 4 merupakan bagan proses mencari dokumen : Pengguna Kata Kunci dan Jenis Pembobotan Peringkasan Dokumen Anchortext terpilih pada dokumen Ringkasan Pengindeksan - Pemilahan Dok. Menjadi kata - Stopword - Stemming Kata Ringkasan Database Bobot Kata Kelompok Dok. Gambar 4 Proses Mencari Dokumen Pembobotan Kata Bobot Kata Pengelompokkan Dokumen Kelompok Dok. Pencarian Dokumen Dok. Relevan & Tdk Relevan Perluasan Kata Kunci 5 Pada bagian proses mencari dokumen dijelaskan bahwa untuk melakukan peringkasan dokumen menggunakan metode Semantic Virtual Document (SVD), selain dibutuhkan anchortext untuk perhitungan penilaian anchortext-biased juga dibutuhkan masukkan kata kunci dari pengguna untuk perhitungan penilaian query-biased. Setelah didapatkan hasil peringkasan dari masing-masing dokumen maka selanjutnya akan dilakukan pengindeksan yang terdiri dari pemilahan

6 dokumen menjadi kata, eliminasi kata-kata tidak penting (stopword removal), dan pengembalian kata ke bentuk dasarnya (stemming). Dari sub proses tersebut dihasilkan daftar kata yang akan dilakukan pembobotan dan akan digunakan pada pengelompokkan dokumen menggunakan klasterisasi berbasis hirarki tunggal. Selajutnya, dilakukan pencarian dokumen menggunakan persamaan kosinus pada kelompok-kelompok dokumen tersebut. Sub proses pencarian dokumen akan menghasilkan kumpulan dokumen relevan dan dokumen tidak relevan yang akan digunakan untuk perluasan kata kunci menggunakan metode Rocchio. Hasil dari setiap sub proses akan disimpan ke dalam basis data. Antarmuka aplikasi ini dapat dilihat pada gambargambar dibawah ini. Gambar 5 menunjukkan antarmuka awal aplikasi, terdapat text field untuk kata kunci masukkan pengguna dan combo box yang berisi jenis pembobotan. Gambar 5 Antarmuka Awal Aplikasi Gambar 6 menunjukkan antarmuka hasil proses mencari dokumen. Pada proses ini menghasilkan kelompok dokumen yang divisualisasikan menggunakan GUI-Tree, hasil pencarian yang diurutkan berdasarkan nilai perhitungan similaritasnya, yang terdiri dari nilai similaritas, judul dokumen, 100 kata pertama hasil peringkasan, dan alamat dokumen. Selain itu juga terdapat 5 rekomendasi kata kunci yang diurutkan berdasarkan nilai perhitungan menggunakan metode Rocchio. Gambar 6 Antarmuka Hasil Proses Mencari Dokumen Gambar 7 menunjukkan antarmuka hasil peringkasan tiap dokumen. Pada panel bagian tengah terdapat judul dokumen, isi ringkasan, dan alamat dokumen. Pada hasil peringkasan secara menyeluruh terdapat highlight terhadap kata kunci yang muncul pada hasil peringkasan tersebut. Gambar 7 Antarmuka Hasil Peringkasan Tiap Dokumen IV. UJI COBA DAN EVALUASI Skenario uji coba yang akan dilakukan terhadap implementasi teknik peringkasan Semantic Virtual Document pada pengelompokkan hasil perncarian halaman web yaitu uji coba peringkasan menggunakan SVD, uji coba klasterisasi menggunakan metode hirarki tunggal, uji coba pencarian dokumen menggunakan persamaan kosinus, uji coba perluasan kata kunci menggunakan metode Rocchio, dan uji coba fungsionalitas sistem. Data yang digunakan pada pengujian sisten ini yaitu 100 dokumen Wikipedia dalam bentuk file HTML yang telah diunduh terlebih dahulu dan beberapa kata kunci (kata atau frase) yang akan disesuaikan dengan pelaksanaan uji coba. 1) Uji Coba Peringkasan Menggunakan Perhitungan Kappa Uji coba ini bertujuan untuk mengetahui ketepatan hasil peringkasan dari dokumen-dokumen yang telah tersedia. Hal itu dilakukan dengan membandingkan hasil peringkasan sistem dengan hasil peringkasan situs web peringkasan online dengan alamat Data uji coba yang digunakan dalam uji coba ini yaitu 100 dokumen dan kata kunci yang didapat dari kata-kata terbaik yang dihasilkan oleh situs web peringkasan online. Situs web peringkasan online tersebut memilih kata-kata terbaik dengan melihat banyaknya kemunculan kata pada suatu dokumen. Contoh pemilihan kata kunci dapat dilihat pada Tabel 4. Tabel 4 Contoh Pemilihan Kata Kunci Judul Kata Terbaik Kata Kunci Dokumen Dok.Asli Dok. Backlink Anatomy Anatomy Anatomy Antivirus Human Human human study Software Study System system Pada uji coba peringkasan ini rata-rata nilai Kappa dari 100 dokumen adalah Berdasarkan tabel interpretasi Kappa pada Tabel 2.27 nilai tersebut menunjukkan bahwa tingkat persetujuan dari kedua pengamat terhadap hasil peringkasan adalah cukup. Hal itu menunjukkan bahwa isi peringkasan dari setiap dokumen cukup mewakili informasi yang terdapat pada dokumen dan informasi yang sesuai dengan kata kunci masukkan pengguna. Sedangkan rata-rata nilai Kappa untuk setiap tingkat persetujuan dapat dilihat pada Tabel 5. 6

7 Tabel 5 Rata-Rata Nilai Kappa Pada Setiap Tingkat Persetujuan Tingkat Persetujuan Rata-rata Nilai Kappa Poor 4 % Slight 22 % Fair 33 % Moderate 28 % Substansial 4 % Perfect 9 % Dari tabel diatas dapat dianalisis bahwa baik atau tidaknya hasil peringkasan bergantung pada isi teks hasil ekstraksi metadata dokumen. Isi teks dokumen tersebut nantinya akan dipilah menjadi kalimat dan akan dilakukan perhitungan teknik SVD pada tiap kalimat. Semakin baik hasil metadata, tidak terdapat banyak cite note dan references, maka semakin baik pula hasil pemilahan dokumen menjadi kalimat. 2) Uji Coba Klasterisasi Menggunakan Perhitungan Presisi Uji coba ini bertujuan untuk mengetahui apakah dokumen-dokumen telah terkelompok berdasarkan topiknya dan kelompok-kelompok tersebut dapat mempermudah pengguna dalam menyaring dan memilih dokumen yang memuat informasi yang mereka butuhkan. Uji coba ini akan diterapkan ke 100 dokumen asli, jenis pembobotan Okapi, dan dua macam threshold yaitu 50% dan 75% dari bobot kata maksimal pada setiap jenis pembobotan, threshold tersebut digunakan untuk menentukan matriks fitur. Dipilih jenis pembobotan Okapi karena pada uji coba pengelompokkan terhadap dokumen asli, jenis pembobotan tersebut dapat mengelompokkan dokumen satu sama lain atau tidak terdapat outliers. Tabel 6 menunjukkan hasil perhitungan dan rata-rata presisi pada uji coba klasterisasi dengan jumlah kelompok sama dengan 7 dan menggunakan jenis pembobotan Okapi. Tabel 6 Hasil Perhitungan dan Rata-Rata Nilai Presisi Pada Uji Coba Klasterisasi Kata Kunci Nilai Presisi (%) threshold 50% threshold 75% Antivirus Molecular Reproductive Respiratory Central Dari tabel diatas dapat dilihat bahwa nilai presisi hasil klasterisasi dokumen peringkasan sebesar 100%, hal itu menunjukkan bahwa dokumen-dokumen telah terkelompok berdasarkan profil atau fitur yang telah ditentukan. 3) Uji Coba Pencarian Menggunakan Perhitungan Presisi Tujuan dari uji coba pencarian menggunakan persamaan kosinus yaitu untuk mengetahui ketepatan hasil dokumen kembalian, apakah dokumen-dokumen tersebut telah sesuai dengan kata kunci yang dimasukkan oleh pengguna atau tidak. Data uji coba yang digunakan adalah 100 dokumen menggunakan 30 kata kunci yang telah dipilih dari judul dokumen-dokumen yang tersedia, 2 macam threshold yaitu 50% dan 75% dari bobot kata maksimal pada setiap jenis pembobotan, dan 3 jenis pembobotan yaitu Tf-Idf, Okapi, dan LTU. Hasil pencarian dari setiap uji coba akan dibandingkan dengan dengan daftar dokumen relevan yang telah disediakan. Dokumen relevan tersebut berupa 15 dokumen yang hasil peringkasannya paling banyak mengandung kata kunci masukkan pengguna. Kemudian hasil tersebut akan dievaluasi menggunakan perhitungan presisi. Hasil rata-rata nilai presisi dari percobaan ini dapat dilihat pada Tabel 7. Tabel 7 Hasil Rata-Rata Perhitungan Presisi Pada Uji Coba Pencarian Dokumen Jenis Nilai Presisi (%) Pembobotan threshold 50% threshold 75% Tf-Idf 41,667 46,923 Okapi 61,111 49,107 LTU 45,454 65,769 Pada tabel diatas dapat dilihat bahwa pada saat menggunakan threshold 50% dari bobot maksimal maka jenis pembobotan yang paling baik digunakan adalah jenis pembobotan Okapi dan saat menggunakan threshold 75% dari bobot kata maksimal maka jenis pembobotan yang paling baik digunakan adalah jenis pembobotan LTU. 4) Uji Coba Perluasan Kata Kunci Menggunakan Perhitungan Presisi Tujuan dari uji coba terhadap perluasan kata kunci yaitu untuk mengetahui apakah kata kunci baru hasil perluasan kata kunci dapat lebih membantu pengguna untuk memperoleh dokumen kembalian yang mengandung informasi yang mereka butuhkan. Data uji coba yang akan digunakan adalah 100 dokumen, 30 kata kunci baru yang mengandung kata kunci awal yang digunakan saat uji coba pencarian dokumen dan kata kunci baru hasil perluasan kata kunci, 2 macam threshold yaitu 50% dan 75% dari bobot kata maksimal pada setiap jenis pembobotan, dan 3 jenis pembobotan yaitu Tf-Idf, Okapi, dan LTU. Hasil pencarian dari setiap uji coba akan dibandingkan dengan dengan daftar dokumen relevan yang juga digunakan pada uji coba pencarian. Hasil rata-rata nilai presisi dari percobaan ini dapat dilihat pada Tabel. Tabel 8 Hasil Rata-Rata Perhitungan Presisi Pada Uji Coba Pencarian Dokumen Dengan Kata Kunci Baru Jenis Nilai Presisi (%) Pembobotan threshold 50% threshold 75% Tf-Idf 36,957 30,833 Okapi 56,034 33,333 LTU 37,5 15,400 Tabel diatas akan dibandingkan dengan Tabel 7.Dari hasil perbandingan kedua rata-rata tersebut dapat dilihat bahwa rata-rata nilai presisi pada pencarian menggunakan kata kunci baru lebih kecil daripada rata-rata nilai presisi pada pencarian menggunakan kata kunci awal. Sehingga dapat disimpulkan bahwa kata kunci hasil perluasan kurang membantu pengguna dalam mendapatkan informasi yang lebih spesifik. 5) Uji Fungsionalitas Tujuan uji coba fungsionalitas yaitu untuk mengetahui kegunaan sistem ini bagi pengguna mesin pencari secara umum dalam memperoleh suatu informasi yang dibutuhkan. 7

8 Pelaksanaan uji coba fungsionalitas dengan cara melakukan proses pencarian menggunakan tiga kata kunci utama yang divariasi, contohnya pada kata kunci Antivirus Software akan divariasi menjadi Antivirus Software Software dan Software Antivirus Antivirus.Hal itu untuk mengetahui apakah aplikasi ini dapat diterapkan pada dokumen berbahasa Indonesia yang memiliki beberapa kata perulangan seperti kupu-kupu, jalan-jalan, mata-mata, dll. Dari uji coba ini akan diamati waktu berjalannya program dan perbedaan hasil pencarian dari beberapa kata kunci tersebut. Hasil uji coba fungsionalitas menunjukkan bahwa ratarata waktu yang dibutuhkan saat menjalankan sistem adalah 2 menit 53 detik. Hal itu dikarenakan lamanya waktu yang dibutuhkan dalam menghasilkan suatu hasil pencarian. Dalam memperoleh hasil peringkasan, sistem harus melakukan beberapa perhitungan SVD terlebih dahulu pada 100 dokumen yang tersedia, kemudian dilakukan proses pengelompokkan pada hasil peringkasan tersebut, barulah dilakukan pencarian dokumen dan perluasan kata kunci. Selain itu, lamanya waktu yang dibutuhkan saat menjalankan sistem juga disebabkan oleh banyaknya perulangan yang dilakukan pada pembobotan kata yang akan digunakan pada pengelompokkan dokumen dan perluasan kata kunci dan juga dipengaruhi oleh perangkat keras yang digunakan pada saat uji coba. Untuk hasil uji coba menggunakan beberapa variasi kata kunci didapatkan hasil bahwa jika terjadi perulangan kata kunci tidak terlalu mempengaruhi hasil pencarian dokumen karena hanya akan mempengaruhi perhitungan panjang vektor kata kunci yang akan digunakan pada perhitungan persamaan kosinus. Sedangkan, untuk pengelompokkan dokumen dan perluasan kata kunci perulangan kata kunci tidak berpengaruh karena meskipun diulang lebih dari satu kali pada kata kunci, penyimpanannya dalam basis data dianggap satu kata dan hanya akan memiliki satu bobot. Sehinggan dapat diambil kesimpulan bahwa aplikasi ini kurang dapat diterapkan pada dokumen berbahasa Indonesia karena perhitungan tersebut hanya memperhatikan jumlah kemunculan kata bukan makna kata. Sedangkan pada contoh kata Bahasa Indonesia yang berulang, kata jalan dan jalan-jalan memiliki makna yang berbeda. Contoh variasi kata kunci yang digunakan dalam uji coba ini terdapat pada Tabel 5.9. Tabel 9 Kata Kunci Variasi Kata Kunci Kata Kunci Variasi Antivirus software software Antivirus software Software antivirus antivirus Molecular biology Molecular biology molecular Molecular biology biology Processing processing central unit Central processing unit Central central processing unit Central processing unit unit V. KESIMPULAN DAN SARAN Kesimpulan yang dapat diambil dari tugas akhir ini antara lain sebagai berikut : 1. Kalimat-kalimat penting dalam halaman web dapat ditentukan menggunakan metode Semantic Virtual Document (SVD) dengan rata-rata nilai Kappa Hal itu dikarenakan metode ini melakukan perhitungan pada setiap kalimat, semakin banyak kata kunci atau anchortext terpilih pada suatu kalimat maka semakin penting pula kalimat tersebut. 2. Dokumen dapat terkelompok berdasarkan topiknya menggunakan klasterisasi hirarki tunggal (Single Linkage) dengan rata-rata nilai presisi 100%. Hal itu dikarenakan adanya penentuan profil atau fitur yang dapat mewakili topik atau isi dari setiap dokumen. Namun pada hasil klasterisasi ini dapat terjadi kondisi dimana tidak semua dokumen terkelompok karena terjadi kesalahan dalam pemilihan dataset atau dokumen. 3. Visualisasi menggunakan GUI-Tree dapat mengatur tampilan hasil pengelompokkan dokumen, sehingga dapat mempermudah pengguna dalam memilih dokumen yang dibutuhkan. 4. Metode Rocchio dapat digunakan dalam pemilihan rekomendasi kata kunci. Namun hasil rekomendasi kurang membantu pengguna karena adanya ambiguitas terhadap kata kunci awal. Beberapa saran perbaikan untuk pengembangan Tugas Akhir ini adalah : 1. Perlu dikembangkan metode untuk mencari nilai threshold yang optimal agar dapat menghasilkan hasil pengelompokkan dan perluasan kata kunci yang baik. 2. Perlu diterapkan suatu metode untuk mengatasi ambiguitas kata sehingga menghasilkan perluasan kata kunci yang relevan dengan kata kunci awal REFERENSI [CHE2004] Chen, Lihui dan Chue, Wai Lian Using Web Structure and Summarisation Techniques for Web Content Mining. Nanyang Technological University, Republic of Singapore. [GAR2006] Garcia, Dr. E The Classic Vector Space Model. URL: < [KEY1998] Keyes, John PorterStemmer.java. < URL: Stemmer.java> [MAN2002]Mandala, R. dan Setiawan, H Peningkatan Performansi Sistem Temu-Kembali Informasi dengan Perluasan Query Secara Otomatis. Institut Teknologi Bandung. [MAN2009]Manning, Christopher D., Raghavan, Prabhakar, & Schutze Hinrich An Introduction to Information Retrieval. Cambridge University Press, Cambridge, England. [MAR1979] Mardia, Kantia et al Multivariate Analysis. Academic Press. [ORO2007]Oroumchian, F., Aleahmad, A., Hakimian, P., Mahdikhani, F N-Gram and Local Context Analysis for Persian Text Retrieval. University of Tehran dan University of Wollongong, Dubai. [POR1980] Porter, M.F An Algorithm for Suffix Stripping. Program, Vol.14, no.3, pp [REE2006] Reed, Joel W., Jiao Yu, Potok, Thomas E., Klump, Brian A., Elmore, Mark T., dan Hurson, Ali R TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams. Oak Ridge National Laboratory dan The Pennsylvania State University,USA. 8

9 [ROB2009] Robertson, Stephen dan Zaragoza Hugo The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends in Information Retrieval Vol. 3, No. 4 (2009) [SAL1990] Salton, G. dan Buckley C Improving Retrieval Performance by Relevance Feedback. Cornell University, Ithaca, New York. [TEK2009] Teknomo, Kardi Hierarchical Clustering Tutorial.URL: torial/ Clustering/Cophenetic.htm> [THE2011] The MathWorks, Inc Cophenet. URL: phenet.html> [VIE2005] Viera, Anthony J. dan Garrett, Joanne M Understanding Interobserver Agreement: The Kappa Statistic. University of North Carolina. [WHI2002] White, Ryen W., Jose, Joemon M., & Ruthven Ian A task-oriented study on the influencing effects of query-biase summarization in web searching. University of Strathclyde, Scotland. 9