Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Bab 3 Metode dan Perancangan Sistem

Peranan Web Spider Dalam Internet Search Engine

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. Teknologi Informasi saat ini mengalami perkembangan yang signifikan.

PERANCANGAN DAN PEMBUATAN WEB CRAWLER APLIKASI PANDUAN PEMBELIAN SPESIFIKASI KOMPUTER RAKITAN ONLINE DENGAN MEMANFAATKAN GOOGLE GEARS

BAB 1 PENDAHULUAN. pengguna Internet harus tetap up-to-date dengan dokumen terbaru. Karena jumlah

Penelusuran Informasi (Information Retrieval)

Fauzan Azmi Apa itu Search Engine. Cara Kerja Search Engine. Lisensi Dokumen:

Menggunakan Browser dan Mesin Pencari

Pemanfaatan Google Drive Dalam Pengembangan Electronic Document Delivery : Pendekatan Aplikatif Untuk Peningkatan Kinerja Pustakawan

Search Engines. Information Retrieval in Practice

BAB 1 PENDAHULUAN. menjual berbagai jenis pakaian. Seiring dengan perkembangan fashion pakaian ini

MOBILE ONLINE DICTIONARY

BAB I Pendahuluan. 1 Launching Business on the Web, David Cook and Deborah Sellers, QUE, 1995, hal 12.

MAKALAH SEMINAR TUGAS AKHIR. APLIKASI BUKU ELEKTRONIK (e-book) BERBASIS WEB Anandianingsih (L2F304211)*, Agung BP, ST. MIT**, Aghus Sofwan, ST.

IMPLEMENTASI ALGORITMA BFS (BREADTH-FIRST SEARCH) PADA APLIKASI WEB CRAWLER

BAB III METODE PENELITIAN

SEARCH ENGINE OPTIMIZATION (MESIN PENCARI)

Penerapan Graf dalam Algoritma PageRank Mesin Pencari Google

PERTEMUAN 6 PROMOSI DAN PEMELIHARAAN WEB

ANALISIS DAN PERANCANGAN SEARCH ENGINE DOKUMEN PAPER BERBASIS WEB NASKAH PUBLIKASI. diajukan oleh Aldrik Saddermi

Search Engine. Asep Herman Suyanto

PENERAPAN FOCUSED CRAWLING PADA SITUS BERITA ONLINE

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II LANDASAN TEORI

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Rancang Bangun Aplikasi Pencarian Tempat Indekos Pada Perangkat Mobile Android

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

LANDASAN TEORI. Dunia informasi di Indonesia sedang dan harus. berubah. Saat ini, dunia pemasaran tidak dapat

PERANCANGAN DAN IMPLEMENTASI GOOGLE GEARS PADA WINDOWS MOBILE DENGAN STUDI KASUS WEB PENJUALAN BARANG PRANESTI NOVITASARI

Gambar 2. Halaman web dari Google. Search Bar

BAB I PENDAHULUAN.

INFORMATICS MEDIA BOARD NEWS READER VIA BLUETOOTH DENGAN PENERAPAN ALGORITMA WEB CRAWLER

Tugas E-Commerce. Nama : TRIYANTO NIM : Prody : TI

BAB I PENDAHULUAN. 1.1 Latar Belakang

ANALISIS WEB SCRAPING UNTUK DATA BENCANA ALAM DENGAN MENGGUNAKAN TEKNIK BREADTH-FIRST SEARCH TERHADAP 3 MEDIA ONLINE

IV. HASIL DAN PEMBAHASAN

Information Retrieval

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

DEGI PANJU ANANDIA Dosen Pembimbing Ary Mazharuddin Shiddiqi, S.Kom, M.Comp.Sc

BAB I PENDAHULUAN. 1.1 Latar Belakang

Search Engine. Adri Priadana ilkomadri.com

HOSTING & INTERNET MARKETING

Aplikasi DFS dan BFS pada Web Crawler di dalam Mesin Pencari (Search Engine)

BAB IV IMPLEMENTASI DAN EVALUASI SISTEM

Inovasi, Publikasi, Sitasi, Kompetisi, Kolaborasi

INTERNET DASAR DEFINISI INTERNET

APLIKASI PENCARIAN PASIEN, DOKTER, KAMAR PADA RUMAH SAKIT BERBASIS WEB MENGGUNAKAN MULTI DBMS

BFS dan DFS. Bahan Kuliah IF2151 Strategi Algoritmik. Oleh: Rinaldi Munir

SISTEM INFORMASI BANK DATA DAN PENELUSURAN TUGAS AKHIR DAN SKRIPSI BERBASIS WEB ( STUDY KASUS STMIK PRINGSEWU)

Keamanan Web Server ARSITEKTUR KEAMANAN DAN SISTEM ADMINISTRATOR

Pertemuan 1. Pengenalan Dasar Web

Tutorial Instal XAMPP

Pengantar. Ketika kita meng-install Adobe Acrobat, kita diberi pilihan untuk meng-install program-program berikut:

PENELUSURAN JURNAL INTERNASIONAL DAN KELOLA PUSTAKA DENGAN MENDELEY

BAB III PERANCANGAN SISTEM

SOAL LATIHAN 2 - INTERNET. 1. Salah satu web browser yang mengakses web yang populer saat ini adalah A

Halaman web dalam Internet Explorer dapat disimpan ke dalam file di komputer anda. Ini Bertujuan nantinya halaman web tersebut dapat dibuka kembali

Pengenalan Internet. Mahasiswa dapat menggunakan internet, mengenal browser, mengoperasikan internet explorer.. Nawindah,S.Kom, M.Kom.

Hasil Hitung Webometrics 2010

internet. Alhasil, informasi tersebut menjadi tak berguna karena tak berhasil

KORPUS BERITA DARING BAHASA INDONESIA DENGAN DEPTH FIRST FOCUSED CRAWLING Aad Miqdad Muadz Muzad 1), Faisal Rahutomo 1)

Algoritma Traversal di dalam Graf

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Mesin Pencari Web. Ayub Firmansyah Hutabarat. Abstrak. Pendahuluan.

PERANCANGAN APLIKASI WEB SCRAPING UNTUK KOLEKSI KONTEN RESEP MASAKAN TRADISIONAL JAWA BERBASIS XML

WWW (World Wide Web) Adalah salah satu bentuk layanan yang dapat diakses melalui internet. Biasa disingkat sebagai Web. Merupakan sekumpulan

Budi Rahardjo. PPAU Mikroelektronika ITB

BAB I PENDAHULUAN. A. Latar Belakang Masalah

PERPUSTAKAAN IPB MENUJU DIGITAL LIBRARY Oleh: Ir. Abdul Rahman Saleh, M.Sc. 1

Peranan Graf/Tree dalam sejarah perkembangan DNS Internet

PUBLIKASI ILMIAH MENGGUNAKAN JURNAL ELEKTRONIK PANDUAN SINGKAT

RAHASIA KERJA SEARCH ENGINE.

Petunjuk Penggunaan Moodle Bagi Pengajar

MODEL ARSITEKTUR SISTEM INFORMASI TERDISTRIBUSI

MESIN PENCARI INFORMASI

01. Pengenalan Internet

BAB I PENDAHULUAN I-1

Perbandingan Algoritma Breadth First Search dan Depth First Search Sebagai Focused Crawler

Informatics Media Board News Reader Via Bluetooth Dengan Penerapan Algoritma Webcrawler

BAB I PERSYARATAN PRODUK

Sofiyan Arif Kurniawan

OPTIMASI SITUS WEB UNTUK MENINGKATKAN URUTAN DI SERP MENGGUNAKAN METODE SEO

Universitas Negeri Semarang memberikan ketentuan umum penulisan skripsi, diantaranya:

PENGENALAN INTERNET. INTERNET - INTERnational NETworking - INTERconnected NETworking

dapat diakses melalui salah satu menu yang berkaitan dengan komponen pada halaman administrator.

WEB1. Pertemuan Ke-1 (Konsep Dasar Web) S1 Teknik Informatika - Unijoyo 1

Knowledge Management Tools

I. Sekilas Tentang Website SKPD

BAB 1 PENDAHULUAN Latar Belakang

BROWSER INTERNET UHRIA. Abstrak. Pendahuluan. Pembahasan.

PERANCANGAN DAN PEMBUATAN PERANGKAT LUNAK PENELUSUR WEB (WEB CRAWLER) MENGGUNAKAN ALGORITMA PAGERANK

Konversi File Elektronik ke Dalam Format PDF dan HTML

PEMANFAATAN WEBSITE PARSER TEMPLATE PADA WEB CRAWLER UNTUK MEMBANGUN METADATA PADA SISTEM PENCARIAN BERBASIS SEMANTIK

SMP NEGERI 1 SAWANGAN KISI-KISI SOAL UJIAN SEKOLAH TAHUN PELAJARAN 2015 / 2016

BAB II LANDASAN TEORI

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

DR.LULUK FAUZIAH, M.SI FISIP UNIVERSITAS MUHAMMADIYAH SIDOARJO 27 AGUSTUS 2016

Pengantar E-Business dan E-Commerce

Transkripsi:

Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu Penerapan Web Crawler dalam Pencarian e-book ini merupakan hasil pengembangan dari penelitian terhadap Web Crawler yang sudah ada. Penelitian terdahulu yang mengembangkan Web Crawler adalah aplikasi Web crawler berdasarkan Breadth First Search dan Back-Link, Dalam penelitian ini telah diteliti tantangan bagaimana memprioritaskan antrian URL untuk menelusuri halaman yang lebih relevan berdasarkan Breadth First Search dan banyaknya Back-link. Pengembangnya adalah mahasiswa Fakultas Teknologi Informasi, Universitas Stikubank Semarang (Sulastri dan Zuliarso, 2010). Penelitian terhadap penggunaan Internet menunjukkan beberapa hal yang menarik antara lain, hampir 80 persen pengguna Internet menggunakan search engine, lebih dari 52 persen pengguna Internet menggunakan search engine yang sama setiap kali menggunakan search engine, dan kurang dari 46 persen pengguna merasa selalu berhasil mendapatkan apa yang dicarinya dengan menggunakan search engine tersebut. Hal ini menunjukkan pentingnya peranan Internet search engine bagi user dalam proses pencarian informasi yang dibutuhkan (Ozsoyoglu, 2003). 6

7 2.2 Web Crawler Web Crawler adalah program yang melintasi Internet secara otomatis dengan mengambil sebuah halaman web dan kemudian secara rekursif mengambil semua halaman halaman terkait (Mayocchi, 2001; Boldi, Codenotti, Santini & Vigna, 2002). 2.2.1 Fungsi utama Web Crawler Fungsi utama Web Crawler adalah untuk melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di Internet. Hasil pengumpulan situs web selanjutnya akan diindeks oleh mesin pencari sehingga mempermudah pencarian informasi di Internet. Secara umum sebuah mesin pencari web terdiri dari tiga bagian, yaitu: 1. Spider atau crawler atau link finder: Program komputer yang menelusuri link dari sebuah halaman web ke halaman web yang lain di Internet. 2. Index: Database yang terorganisir dan dapat dicari isinya, merupakan penyimpanan hasil penelusuran crawler. 3. Mekanisme pencarian dan pengambilan informasi: perangkat lunak yang dipakai oleh pemakai untuk mencari data yang terdapat pada index dan menyusun hasilnya berdasarkan aturan yang ditentukan (algoritma

8 tertentu). Bagian ketiga ini sering disebut search engine. Web Crawler melakukan proses validasi terhadap code HTML dan tautan yang ditemukan pada situs yang dikunjungi. Setelah melakukan validasi, halaman web dan tautan tersebut diunduh kemudian diuraikan ke dalam tempat penyimpanan utama. Data yang dibawa oleh Web Crawler secara sederhana hanya berupa text dan metadata. Sedangkan data tautan yang ditemukan pada halaman web yang dikunjungi akan ditempatkan pada seeds (tempat penyimpanan data URL) masuk ke dalam antrian kunjungan selanjutnya Web Crawler. Secara simultan Web Crawler mengunjungi situs-situs yang alamatnya terdapat di dalam antrian sampai data URL habis atau dihentikan oleh administrator. 2.2.2 Dasar Web Crawler Walaupun banyak aplikasi Web Crawler, pada intinya semuanya secara fundamental sama dan tidak berbeda jauh. Berikut ini proses yang dilakukan Web Crawler pada saat berkerja (Sulastri dan Zuliarso, 2010): 1. Mengunduh halaman web. 2. Menguraikan halaman yang diunduh dan mengambil semua link. 3. Untuk setiap link yang diambil, ulangi proses.

9 Web Crawler mengambil URL dan mengunduh halaman dari Internet berdasarkan URL yang diberikan. Tahap kedua, Web crawler menguraikan keseluruhan halaman yang diunduh dan mengambil link dari halaman lain. Tiap link dalam halaman didefinisikan dengan sebuah penanda HTML. Langkah ketiga dari Web Crawler adalah mengulangi proses. Semua crawler bekerja dengan rekursif atau bentuk perulangan, tetapi ada dua cara berbeda untuk menanganinya. Link dapat di-crawling dalam cara depth-first atau breadth-first (Sulastri dan Zuliarso, 2010). Breadth-first crawling adalah algoritma yang melakukan pencarian secara melebar yang mengunjungi link secara preorder yaitu mengunjungi suatu link kemudian mengunjungi semua link yang bertetangga dengan link tersebut terlebih dahulu. Selanjutnya, link yang belum dikunjungi dan bertetangga dengan link yang tadi dikunjungi, demikian seterusnya (kustanto, mutia, Viqarunnisa, 2005). Breadth-first crawling menguji tiap link pada sebuah halaman sebelum memproses ke halaman berikutnya. Jadi, algoritma ini menelusuri tiap link pada halaman pertama dan kemudian menelusuri tiap link pada halaman pertama pada link pertama dan begitu seterusnya sampai tiap level pada link telah dikunjungi (Menczer, Pant, Srinivasan and Ruiz, 2001; Chakrabarti, van den Berg, Domc, 1999; Angkawattanawit, Rungsawang, 2002).

10 Gambar 2.1 Breadth-first crawling (Gozali & Faezal. 2004). Alternatif lainnya adalah Depth first crawling. Dalam hal ini. Crawling atau spider akan menelusuri halaman web dengan mengikuti link mulai dari link pertama pada halaman awal level 0 dilanjutkan pada link pertama pada level 1 dan begitu seterusnya sampai akhir dari link tersebut. Selanjutnya proses secara iterative akan dilanjutkan dengan melakukan proses index mulai dari link kedua yang berada pada halaman utama level 0 sampai seluruh link yang ada pada halaman utama level 0 tersebut selesai di index.

11 Gambar 2.2 Depth first crawling (Gozali & Faezal, 2004). Dalam mengikuti link pada sebuah alamat situs web yang dikunjungi, seberapa jauh kedalaman level yang diikuti spider tersebut diatur sendiri oleh pembuatnya. Ada spider yang mengindeks sebuah alamat situs web secara tuntas, ada yang mengikuti link tanpa menghiraukan letak dari halaman tersebut. Beberapa search engine bahkan membatasi kedalaman spidering mereka untuk menghemat tempat penyimpanan yang dibutuhkan dan untuk menghindari loop yang terjadi pada sebuah situs web. Kecepatan dan banyaknya informasi yang diperoleh spider juga dipengaruhi oleh kedalaman ini. (Gozali & Faezal, 2004). Keberadaan Internet khususnya web menimbulkan tantangan baru didalam teknologi penelusuran informasi atau information retrieval. Jumlah informasi yang ada di web berkembang dengan sangat pesat, diperkirakan pada tahun 1998

12 terdapat lebih dari 350 juta halaman web dan bertambah hampir sejuta halaman setiap hari, bahkan dari hasil penelitian diperkirakan lebih dari 600 Giga byte data halaman web yang berubah setiap bulannya. Kecepatan pertumbuhan informasi pada halaman web ini menyebabkan terbatasnya kemampuan dari search engine yang menggunakan kedua cara spidering tersebut diatas (Ozsoyoglu & Alhamdani, 2003). Untuk mempercepat proses spidering serta memperbanyak informasi yang dimiliki pada database, beberapa situs bahkan memiliki lebih dari satu spider, misalnya, google.com memiliki beberapa spider yang bekerja sangat cepat dalam mengumpulkan data tentang halaman situs web. Cara ini disebut multi-threaded spidering. Setiap spider dapat membuka lebih dari 300 koneksi halaman web dalam waktu yang bersamaan. Pada performa terbaiknya, sebuah spider dapat membuka ratusan bahkan ribuan halaman web perdetik dan mengumpulkan sekitar 600 KByte data perdetik (Bharat & Broder,1998). 2.2.3 Desain Web Crawler Penerapan Crawler pertama dilakukan oleh Mathew Gray s Wanderer pada musim semi 1993 yang bertepatan dengan diluncurkan MOSAIC NCSA yaitu sebuah penjelajah web berbasis grafis pertama yang berjalan di atas sistem operasi

13 Windows dan UNIX (berbasis Motif). Peramban web tersebut dinamai MOSAIC. Gambar 2.3 Arsitektur Web Crawler (Heydon & Narajork, 1999) Manager Crawler Mengambil satu set URL dari link Extractor dan mengirim URL selanjutnya ke DNS resolver untuk mendapatkan alamat IPnya. Hal ini dapat menghemat banyak waktu karena spider tidak harus setiap waktu mengirimkan permintaan DNS setiap kali ingin menggunduh halaman. File Robot.txt Robot.txt adalah sarana dimana pembuat web (web author) menunjukkan halaman mana yang ingin web crawler hindari. Crawler juga harus menghormati keinginan para author. Spider Download robot.txt file dan halaman lain yang diminta oleh manager crawler dan diijinkan oleh web author. File-file robot.txt dikirimkan ke manager crawler untuk processing dan extracting URL tersebut.

14 Link Extractor Link extractor ini digunakan untuk melihat halaman yang diunduh oleh spiders, extract URL dari link pada halaman tersebut dan mengirim URL ke manager crawler untuk diunduh. Setiap Crawler harus memenuhi dua syarat berikut (Suel dan Shkapenyuk, 2002): 1. Crawler harus memiliki rancangan strategi yang baik. 2. Mempunyai sistem arsitektur yang sangat optimal sehingga dapat mengunduh halaman dalam jumlah banyak tiap detiknya. Kebanyakan search engines menggunakan lebih dari satu crawler dan mengendalikannya dalam sebuah metode distribusi. Search engines mempunyai beberapa kelebihan: 1. Meningkatkan pemanfaatan sumber daya. 2. Pendistribusian tugas crawling menjadi lebih efektif tanpa hambatan. 3. Kemampuan konfigurasi tugas-tugas crawling.

15 2.3 E-Book E-Book sendiri merupakan buku atau dokumen/artikel dalam format elektronik yang mempunyai banyak manfaat antara lain : 1. Ukuran fisik yang kecil. 2. Tidak lapuk. 3. Mudah diproses. 4. Mudah dibawa. 5. Mudah didistribusikan. 6. Penggandaan ( duplikasi, copying ) e-book sangat murah dan mudah. E-Book adalah singkatan dari Electronic Book atau buku elektronik. e-book tidak lain adalah sebuah bentuk buku yang dapat dibuka secara elektronis melalui komputer. e-book ini berupa file dengan format bermacam-macam, ada yang berupa PDF (portable document format) yang dapat dibuka dengan program Acrobat Reader atau sejenisnya. Ada juga yang dengan bentuk format HTML, yang dapat dibuka dengan browser secara offline (Anandianingsih, 2005).