PERANCANGAN DAN PEMBUATAN PERANGKAT LUNAK PENELUSUR WEB (WEB CRAWLER) MENGGUNAKAN ALGORITMA PAGERANK

Transkripsi

1 PERANCANGAN DAN PEMBUATAN PERANGKAT LUNAK PENELUSUR WEB (WEB CRAWLER) MENGGUNAKAN ALGORITMA PAGERANK Budianto, Agus Zainal Arifin, Suhadi Lili Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember (ITS) Surabaya Kampus ITS, Jl. Raya ITS, Sukolilo-Surabaya Tel , Fax buddyboy@inf.its-sby.edu, agusza,suhadi@se.its-sby.edu Abstrak Makalah tersebut menguraikan tentang bagaimana web crawler menelusuri dokumen-dokumen yang dianggap penting terlebih dahulu dalam suatu struktur web di sekitar ITS seperti tc.its-sby.edu dan its.ac.id sebagai dataset. Web crawler melakukan penelusuran dengan model Crawl and Stop with Threshold. Hasil uji coba menunjukkan bahwa web crawler yang dilengkapi dengan metode penelusuran yang sesuai dengan struktur dokumen-dokumen dalam web akan memperoleh dokumen-dokumen yang penting lebih cepat dibanding dengan web crawler yang tidak dilengkapi. KATA KUNCI: web crawler, information retrieval, web mining, web spider, PageRank, and link analysis. 1. PENDAHULUAN World Wide Web merupakan salah satu sumber informasi yang dapat diakses dengan mudah. Informasi tersebut disimpan dalam suatu file dengan nama yang unik dalam suatu direktori yang unik pula dalam suatu situs yang diindentifikasi dalam nomor IP address atau alamat Uniform Resource Locator (URL)[5]. Seorang pengguna internet perlu mengingat setiap URL-URL yang penting baginya. Karena jumlah yang sangat banyak, maka tidak mungkin seorang user mengingat alamat-alamat tersebut. Salah satu solusinya adalah dengan membangun sebuah daftar indek dari alamat URL-URL tersebut. Mesin pencari (search engine) merupakan salah satu alat yang mengunakan teknik tersebut [6]. Bagian penting dari sebuah mesin pencari adalah web crawler. Web crawler merupakan program yang mengumpulkan informasi yang akan ditempatkan pada basis data. Sebuah web crawler bertugas menelusuri web dan mengumpulkan dokumen-dokumen di dalamnya. Selanjutnya web crawler akan mengurutkan dokumen-dokumen tersebut dan membangun sebuah daftar indeknya. Tujuan pengurutan tersebut adalah untuk menentukan seberapa penting suatu dokumen dan untuk menduga URL-URL yang mungkin penting sehingga URL tersebut perlu ditelusuri terlebih dahulu[2]. Sejumlah metode penelusuran berkaitan dengan pengurutan tersebut antara lain adalah breath first search(bfs) dan depth first search(dfs). Pada BSF, web crawler akan menelusuri dokumen-dokumen global terlebih dahulu. Kemudian web crawler akan mengunjungi dokumen-dokumen yang bersifat lokal yang terdapat pada sebuah kelompok tertentu saja[2]. Sedangkan pada metode penelusuran DFS, web crawler akan menelusuri dokumendokumen yang bersifat lokal terlebih dahulu. Kemudian web crawler akan menelusuri dokumen-dokumen pada situs lain. Salah satu contoh metode penelusuran seperti ini adalah penelusuran berdasarkan banyaknya jumlah backlink. Berbeda dengan kedua metode penelusuran diatas, penelusuran berdasarkan nilai PageRank mempunyai sifat BFS dan DFS. Dimana pola penelusurannya tergantung dari kualitas dokumen-dokumen bukan berdasarkan jumlah backlink[2]. Dengan menggunakan PageRank, diharapkan sebuah web crawler akan mengunjungi dokumen-dokumen penting terlebih Kerjasama antara Lemlit dan PIKTI ITS Paper 19-1

2 dahulu sehingga penelusuran akan efisien dan efektif. Pada Makalah ini akan diuraikan bagaimana web crawler menelusuri URL-URL yang diketahuinya berdasarkan algoritma PageRank[9]. 1.1 Dasar Teori Perkembangan dunia Teknologi melahirkan sebuah cabang ilmu pengetahuan yang dikenal dengan nama information retrieval[10]. Sebelum informasi retrieval digunakan pada web, ilmu ini sudah digunakan di perpustakaan oleh seorang pustakawan. Pencarian informasi pada sistem ini didasarkan pada analisa kata (content-based analysis). Berbeda dengan perpustakaan, web selalu berubah setiap saat. Seorang pengguna web perlu mencari informasi melalui mesin pencari (search engine) yang menggunakan algoritma tidak hanya berdasarkan kata (contentbased analysis), tetapi juga berdasarkan analisa hyperlink (hyperlink analysis) dan analisa bahasa bermarkup (markup language analysis). Hyperlink antara 2 dokumen A dan B pada web berarti bahwa dokumen A mengacu pada dokumen B. Hubungan tersebut tentu mempunyai makna tertentu bagi penulis dokumen A. Penulis dokumen A tentu memberikan link yang mengacu pada dokumen B yang berisi informasi yang berguna bagi pembaca dokumen A. Analisa Hyperlink sangat penting di dalam menentukan tingkat kualitas suatu dokumen yang dicari oleh seorang user. Analisa Hyperlink Analisa hyperlink merupakan suatu analisa yang didasarkan pada hubungan antara dokumen yang satu dengan dokumen yang lain. Karena web merupakan kumpulan dari dokumendokumen yang tersebar dan saling berhubungan melalui suatu link, maka analisa hyperlink dapat digunakan untuk menentukan kualitas suatu dokumen. Ada 2 kegunaan utama analisa hyperlink dalam bidang information retrieval yaitu untuk penelusuran (crawling) dan ranking. Connectivity-Based Ranking Connectiivity-Based ranking merupakan ranking terhadap dokumen-dokumen dalam web berdasarkan hubungan-hubungan berupa link yang terdapat pada dokumen-dokumen dalam suatu koleksi web. Ada 2 jenis dari Connectivity-Based Ranking yaitu: 1. query-independent ranking yang bersifat bebas dan memberikan nilai pada dokumen secara bebas dari pengaruh query yang diberikan. 2. query-dependent ranking yang bersifat tidak bebas dan nilai pada dokumen bergantung pada query yang diberikan. Query-Independent Ranking Beberapa metode pengukuran yang digunakan untuk menilai kualitas dokumen berdasarkan hubungannya diantaranya sebagai berikut: 1. Back link Count Pada pengukuran tersebut, suatu dokumen dinilai berdasarkan jumlah dokumen yang mengacu kepadanya. 2. Forward link Count Pada pengukuran tersebut, suatu dokumen dinilai berdasarkan jumlah link yang ada pada dokumen tersebut. 3. Page Rank Pengukuran tersebut merupakan turunan dari back link count dimana suatu dokumen dinilai berdasarkan persamaan rumus (1). IRt ( 1) IR( tn) IR ( p)?( d? 1)? d[?...? ]..(1) c1 cn IR(p) nilai pentingnya suatu dokumen. d dumping factor (0<d<1) t 1... t n Dokumen yang mengacu dokumen p. c 1...c n Jumlah link pada dokumen t 1...t n 1.2 Perancangan Web Crawler web crawler merupakan program yang digunakan untuk menelusuri dokumen yang ada di internet. Untuk memperoleh sebuah dokumen, sebuah crawler membutuhkan URL sebagai inisial awal p 0. Crawler akan mendapatkan p 0, mencari URL yang ada didalamnya dan memasukkan dalam sebuah antrian URL yang akan diamati. Cara kerja sebuah crawler secara sederhana dapat ditulis pada algoritma dibawah ini: Algoritma Crawler Input : AllURLs Kumpulan URL-URL yang diketahui CollURLs Kumpulan URL-URL yang tersimpan Prosedur: While (true) Kerjasama antara Lemlit dan PIKTI ITS Paper 19-2

3 URL SelectToCrawl(AllURLs) page Crawl(URL) if (URL? CollURLs) update(url, page) else tmpurl selecttodiscard(collurls) Discard(tmpURL) Save(URL,page) CollURLs (CollURLs-tmpURL)? URL newurls extracturls(page) AllURLs AllURLs? newurls Secara garis besar arsitektur web crawler terdiri atas 3 buah koleksi (AllURLs, CollURLs, dan Collection) dan 4 buah modul (Order Module, SelectToDiscard Module, Save Module, Crawl Module) seperti terlihat pada gambar III.1. Garis dan anak panah menunjukkan aliran data antara module dan label yang terdapat diatasnya menunjukan nama fungsi atau kelas yang dipanggil. Kedua koleksi AllURLs dan CollURLs mengelola data yang hampir sama yaitu alamat URL. Bedanya pada AllURLs tersimpan semua alamat URL-URL yang telah diketahui, sedangkan CollURLs menyimpan semua URL yang terdapat pada Collection. URL-URL yang terdapat pada AllURLs dipilih oleh Order Module. Secara konstan Order Module mengamati URL-URL yang terdapat pada koleksi AllURLs, CollURLs, dan Collection untuk melakukan usaha perbaikan dokumendokumen yang terdapat pada koleksi. Sepintas dapat dikatakan bahwa jika sebuah crawler menggunakan metode PageRank sebagai importance metric, maka Order Module akan mengevaluasi semua URL-URL yang terdapat pada koleksi AllURLs berdasarkan nilai PageRank. Ketika sebuah dokumen yang tidak berada pada CollURLs berubah menjadi lebih penting dari dokumen yang terdapat pada CollURLs, maka SelectToDiscard module dan Save Module akan membuang dokumen dalam CollURLs yang tidak penting dan menggantinya dengan dokumen baru. Jadi Order Module digunakan sebagai refinement decision sedangkan SelectToDiscard module dan Save Module digunakan sebagai update decision. Secara konstan Crawl Module menelusuri dokumen dan menyimpan ke dalam CollURLs. 2. UJI COBA Sejumlah uji coba dilakukan pada sejumlah dataset dengan nilai parameter dan metode yang berbeda-beda. UjiCoba tersebut dilakukan dengan 2 macam pengukuran yaitu : BackLink metric dan PageRank metric. Keterangan tentang Dataset Dataset yang digunakan di dalam uji coba tersebut diperoleh dari intranet di sekitar ITS yaitu its-sby.edu dan its.ac.id. Dalam penelusuran dokumen tersebut semua URL yang merujuk pada dokumen di luar its-sby.edu akan diabaikan. Disamping itu juga beberapa data yang dianggap tidak valid juga diabaikan seperti data pada direktori book pada se.its-sby.edu yang berisi buku-buku online dan belajarweb yang terdapat pada se.its-sby.edu yang berisi daftar file mahasiswa. Important Metric Jika suatu dokumen p mempunyai important metric I(p), maka I(p) suatu dokumen pada uji coba ini ditentukan dengan BackLink Count dan PageRank. Definisi Dokumen Penting Uji coba tersebut menggunakan model Crawl and Stop with Threshold. Pada model Crawl and Stop with Threshold, diasumsikan crawler telah mengunjungi sejumlah K dokumen kemudian berhenti. Sebuah target sebesar G yang telah ditentukan terlebih dahulu digunakan sebagai threshold. Jika sebuah dokumen mempunyai nilai I(p)? G, maka dokumen tersebut dikatakan penting. Nilai G dapat bervariasi tergantung dari pengukuran yang digunakan. Dalam uji coba ini digunakan sejumlah target G yang berbeda-beda untuk masing-masing pengukuran. Untuk backlink metric digunakan target G sebesar 3 dan 10. Sedangkan untuk PageRank metric digunakan target G yang lebih kecil sebesar 0.5, 1, dan 3. Gambar III.1. Arsitektur Web Crawler. Kerjasama antara Lemlit dan PIKTI ITS Paper 19-3

4 Pengukuran Kinerja Web Crawler Kinerja web crawler diukur dengan mencari nilai P st (C) dan P(C). P st (C) merupakan persentase antara jumlah halaman penting (h) yang telah ditelusuri saat web crawler berhenti dengan jumlah seluruh halaman penting yang terdapat pada web (H). Persamaan tersebut dapat dilihat pada rumus 2. Tentu saja nilai H tidak dapat ditentukan sebelum seluruh dokumen telah ditelusuri. Sedangkan jumlah halaman penting (h) pada uji coba ini ditentukan setiap 10 dokumen ditelusuri. Dengan kata lain crawler akan berhenti sejenak setelah mengunjungi 10 dokumen untuk menghitung jumlah halaman penting yang telah diperoleh sejauh ini. Sedangkan P(C) merupakan persentase antara jumlah halaman yang telah ditelusuri saat crawler berhenti(c) dengan jumlah seluruh dokumen yang terdapat pada web (C). Persamaan ini dapat dilihat pada rumus 3. h P st ( C)?..(2) H c P ( C)? (3) C Pada uji coba yang dilakukan tersebut, kinerja crawler ini digambarkan dalam bentuk grafik. Dimana sumbu x merupakan nilai P(C) dan sumbu y merupakan nilai dari P st (C) yang bersesuaian. Jadi awal grafik akan dimulai dari 0% dan berakhir pada 100%. Grafik hasil uji coba akan digunakan untuk mengukur kinerja suatu crawler dengan dua metode yaitu PageRank dan BackLink. Crawler yang mampu menelusuri dokumendokumen penting lebih dahulu merupakan crawler yang mempunyai kinerja lebih baik. Uji Coba dengan BackLink Metric Pada BackLink metric tersebut, sebuah dokumen dianggap penting jika dokumen tersebut mempunyai jumlah backlink lebih besar dari target yang telah ditetapkan. Perhitungan BackLink metric/ib(p) membutuhkan struktur web secara lengkap. Selama proses penelusuran, crawler hanya dapat menghitung nilai IB (p) yang merupakan jumlah backlink yang dapat dihitung sampai saat ini. Tanggal percobaan 17 Oktober 2002 Dataset tc.its-sby.edu Jumlah Doc 194 Jumlah URL tidak valid 46 Lama Pengukuran 10 %Hot Page 39% (76) Target G 3 Tabel V.1. memperlihatkan keterangan tentang percobaan tersebut. Dari tabel ini diperoleh keterangan bahwa jumlah dokumen valid yang disimpan di dalam koleksi sampai akhir penelusuran adalah 194 dokumen. Sedangkan jumlah dokumen yang tidak valid adalah 46 dokumen. Sedangkan lama pengukuran 10 menunjukkan bahwa pengukuran dari sampel tersebut dilakukan setiap 10 dokumen baru ditelusuri. Dengan menggunakan target G = 3, maka pada akhir penelusuran jumlah dokumen penting adalah 39% dari jumlah dokumen yang telah ditelusuri. Tabel V.2. Tabel Perbandingan Backlink dan PageRank 0.3. %Hot PageRank 0.3(x) %Hot BackLink(y)?(x-y)?(x-y)/y %Peningkatan : Percobaan pada tc.its-sby.edu (target G=3) Tabel V.1. Dataset tc.its-sby.edu hasil penelusuran dengan backlink metric dengan target G sebesar 3 Kerjasama antara Lemlit dan PIKTI ITS Paper 19-4

5 % Hot BackLink vs PageRank 36 BackLink PageRank 0.95 PageRank 0.8 PageRank % Crawled Gambar V.1. Grafik BackLink vs PageRank dengan dumping factor pada dataset tc.itssby.edu dengan target G sebesar 3. Percobaan tersebut dilakukan sebanyak 4 kali dengan menggunakan metode BackLink dan metode PageRank. Metode PageRank dilakukan sebanyak 3 kali dengan mengubah-ubah nilai dumping factor dari 0.95, 0.8, dan 0.3. Kedua metode tersebut menggunakan target G yang sama yaitu 3. Angka 3 berarti semua dokumen yang mempunyai jumlah backlink lebih besar atau sama dengan 3 dianggap sebagai dokumen yang penting. Perbandingan antara metode PageRank dan BackLink dapat dilihat pada gambar v.1. Pada grafik sumbu horisontal menunjukkan persentase dokumen yang telah ditelusuri, P(C), pada waktu crawler berhenti. Pada akhir sumbu horisontal, 194 dokumen telah ditelusuri oleh crawler. Sedangkan sumbu vertikal menunjukan persentase dokumen penting yang telah ditelusuri, P st (C), pada saat crawler berhenti. Dari grafik pada gambar V.1. dapat dilihat bahwa metode PageRank dengan dumping factor sebesar 0.3 mempunyai kinerja paling baik. Hal ini telihat garis pada metode PageRank 0.3 selalu berada di atas kiri garis-garis yang lain. Sedangkan tabel V.2. menunjukkan peningkatan sebesar 30% pada kinerja metode PageRank 0.3 dibanding metode BackLink Clu Clu Gambar V.2. Urutan penelusuran dengan Backlink ordering. Garis putus-putus berarti belum ditelusuri, sedangkan garis lurus berarti sudah ditelusuri. Metode PageRank dengan dumping factor sebesar 0.3 ini mempunyai kinerja yang baik disebabkan karena metode tersebut sesuai dengan bentuk struktur web yang terdapat pada tc.its-sby.edu. Berdasarkan hasil tersebut terlihat bahwa metode BackLink bertingkah laku seperti depth-first search. Sedangkan metode PageRank merupakan kombinasi breath-first search dan depth-first search. Gambar V.3. Urutan penelusuran dengan PageRank ordering. Garis putus-putus berarti belum ditelusuri, sedangkan garis lurus berarti sudah ditelusuri. Dengan kata lain, selama proses penelusuran, penggunaan metode BackLink akan bias jika menemukan sekelompok dokumen yang saling berkaitan (lihat gambar V.2.). Jika crawler menggunakan metode BackLink maka crawler akan menelusuri dokumen-dokumen penting dalam kelompok tertentu terlebih dahulu dibanding menelusuri dokumen-dokumen secara global. Sedang pada metode PageRank, crawler tidak hanya menelusuri dokumen-dokumen dalam kelompok tertentu saja, tetapi juga mengunjungi dokumen-dokumen secara global (lihat gambar V.3.). Pada percobaan selanjutnya akan digunakan dataset yang sama, namun target G yang digunakan dinaikkan menjadi 10. Pada percobaan ini juga digunakan metode dan metric yang sama dengan percobaan pada tc.its-sby.edu dengan target G=3 yang lalu. Kerjasama antara Lemlit dan PIKTI ITS Paper 19-5

6 Percobaan pada tc.its-sby.edu (target G=10) Dataset yang digunakan percobaan tersebut sama dengan dataset pada percobaan sebelumnya. Namum nilai target G diubah menjadi 10. Dari penelusuran tersebut diperoleh data seperti pada tabel V.3. Tabel V.3. Dataset tc.its-sby.edu hasil penelusuran dengan backlink metric dengan target G sebesar 10 Tanggal percobaan 18 Oktober 2002 Dataset tc.its-sby.edu Jumlah Doc 194 Jumlah URL tidak valid 46 Lama Pengukuran 10 %Hot Page 14% (28 doc) Target G 10 % Hot PageRank vs BackLink Target pagerank 0.95 pagerank0.8 pagerank0.3 Backlink % Crawled Gambar V.4. Grafik BackLink vs PageRank dengan dumping factor 0.95, 0.8, dan 0, 3 pada dataset tc.itssby.edu dengan target G sebesar 10. Pada percobaan tersebut terjadi peningkatan sebesar 30% pada kinerja metode PageRank 0.3 dibanding metode BackLink. Dari grafik pada gambar V.4. dapat dilihat bahwa hanya metode PageRank dengan dumping factor sebesar 0.3 mempunyai kinerja paling baik. Hal ini terlihat pada garis dari metode PageRank 0.3 yang selalu berada di atas dibanding dengan garis-garis yang lain yang mengalami perubahan yang tidak beraturan. Garis dari metode PageRank 0.3, 0.8, dan 0.95 mengalami perbaikan dibanding percobaan sebelumnya. Terlihat bahwa PageRank dengan nilai dumping factor yang besar mempunyai pola yang mirip bahkan sama dengan BackLink. Hal ini disebabkan karena metode PageRank merupakan turunan dari metode BackLink. Bedanya pada metode PageRank terdapat dumping factor yang menyebabkan metode ini kadang-kadang mempunyai sifat breadth-first search. Uji Coba dengan PageRank Metric Bagian tersebut menguraikan sejumlah percobaan yang kinerjanya diukur dengan menggunakan PageRank metric. Pada PageRank metric, sebuah dokumen yang mempunyai nilai IR(p) lebih besar atau sama dengan nilai target G akan dikatakan penting. Percobaan pada tc.its-sby.edu (target G=0.5) Tabel V.4. Dataset tc.its-sby.edu hasil penelusuran dengan PageRank metric dengan target G sebesar 0.5 Tanggal percobaan 18 Oktober 2002 Dataset tc.its-sby.edu Jumlah Doc 194 Jumlah URL tidak valid 46 Lama Pengukuran 10 %Hot Page 28% (54) Target G 0.5 Tabel v.5. Peningkatan PageRank 0.9 terhadap BackLink %hot %hot pagerank(x) BackLink (y)?(x-y)?(x-y)/y , , , , , , ,765 %peningkatan Untuk menghindari data yang sangat sensitif, maka pada percobaan tersebut digunakan target G sebesar 0.5. Percobaan tersebut menghasilkan data yang dapat dilihat pada tabel V.4. Percobaan tersebut dilakukan sebanyak 2 kali dengan menggunakan metode BackLink dan metode PageRank. Metode PageRank dilakukan dengan nilai dumping faktor sebesar 0.9. Kedua metode tersebut menggunakan target G yang sama yaitu 0.5. Angka 0.5 disini berarti semua dokumen yang mempunyai nilai pagerank lebih Kerjasama antara Lemlit dan PIKTI ITS Paper 19-6

7 besar atau sama dengan 0.5 dianggap sebagai dokumen yang penting. Tabel V.5. menunjukkan peningkatan kinerja pada metode PageRank 0.9 sebesar 27% dibanding dengan metode BackLink. Sedangkan grafik yang menggambarkan kedua tabel tersebut dapat dilihat pada gambar V.6. Dari gambar tersebut terlihat jelas bahwa PageRank mampu memperoleh dokumen penting lebih dahulu dibanding dengan metode BackLink, meskipun kinerja tersebut terlihat tidak begitu baik. Hal ini disebabkan pada host yang kecil terdapat banyak cross link yang sangat sensitive %Hot PageRank pagerank 0.9 %Crawled %Hot Backlink pagerank0.9 PageRank vs BackLink %Crawled Gambar V.5. Grafik BackLink vs PageRank dengan dumping factor 0.9 dan 0.5 pada dataset tc.its-sby.edu dengan target G sebesar 0.5 Percobaan pada its.ac.id dan its-sby.edu (target G=10) Tabel V.6. Dataset its-sby.edu hasil penelusuran dengan PageRank metric dengan target G sebesar 0.5. Tanggal percobaan 12-Oct-02 Dataset its.ac.id & its-sby Jumlah Doc 3932 Jumlah URL tidak valid 182 Lama Pengukuran 10 %Hot Page 15% (587) Target G Gambar V.6. Grafik PageRank dengan dumping factor 0.9 pada dataset its-sby.edu dan its.ac.id dengan target G sebesar 10. Pada percobaan tersebut, dataset yang digunakan adalah its.ac.id dan its-sby.edu. Percobaan tersebut menghasilkan data yang dapat dilihat pada tabel V.6. Percobaan tersebut dilakukan sebanyak satu kali dengan menggunakan metode PageRank. Metode PageRank dilakukan dengan nilai dumping faktor sebesar 0.9. Dari gambar tersebut terlihat bahwa dengan metode PageRank, Crawler mempunyai kinerja yang baik dibanding percobaan-percobaan sebelumnya. Hal ini disebabkan pada jumlah situs yang terlibat lebih bervariasi. 3. KESIMPULAN DAN SARAN Kesimpulan Kesimpulan yang dapat diuraikan dari penelitian tersebut adalah sebagai berikut:?? Penelusuran suatu struktur web sangat dipengaruhi oleh dumping factor. Dimana jika dumping factor naik, maka pola penelusuran akan mendekati pola penelusuran breath-first search. Sedangkan jika dumping factor turun, maka pola penelusuran akan mendekati pola penelusuran depth-first search.?? Urutan dokumen-dokumen berdasarkan nilai PageRank mencerminkan tingkat relevansi terhadap dokumen-dokumen lain yang mengacunya.?? Fungsi PageRank yang lain adalah PageRank dapat digunakan untuk menduga URL-URL mana yang berkualitas yang perlu dikunjungi terlebih dahulu. Kerjasama antara Lemlit dan PIKTI ITS Paper 19-7

8 ?? Berdasarkan uji coba yang dilakukan pada dataset tc.its-sby.edu, PageRank dengan dumping factor 0.3 mempunyai rata-rata peningkatan kinerja 30% dari BackLink. Saran?? Perangkat lunak tersebut dapat diintegrasikan dengan sebuah mesin pencari (Search Engine).?? Diharapkan crawler dapat melakukan penelusuran dan perhitungan secara pararel.?? Diharapkan crawler tersebut dilengkapi dengan algoritma penjadwalan. 4. DAFTAR PUSTAKA [1] Brin, Sergey, Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, California, [2] Cho, Junghoo, Hector Gracia-Molina, Lawrence Page, Efficient Crawling Through URL Ordering, New York,1998. [3] Cho, Junghoo. Crawling the Web: Discovery and Maintenance of Large-Scale Web Data, California, [4] Google Inc, [5] Henzinger, Monika R., Hyperlink Analysis for The Web. California: IEEE Internet Computing, [6] Henzinger, Monika R., Link Analysis in Web Information Retrieval, California, [7] Kleinberg, Jon., Authoritative Sources in a Hyperlinked Environment, ACM-SIAM Symposium on Discreate Algorithms, [8] Page, Lawrence, Sergey Brin, Rejeev Motwani, Terry Winograd, The PageRank Citation Ranking: Bringing Order to the Web, California, [9] Salton, Gerard, Introduction to Modern Information Retrieval, McGrawHill, [10] Agus Zainal Arifin dan Ari Novan Setiono, Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering, Teknik Informatika, Institute Teknologi Sepuluh Nopember, Surabaya, Kerjasama antara Lemlit dan PIKTI ITS Paper 19-8