BAB I Pendahuluan. 1 Launching Business on the Web, David Cook and Deborah Sellers, QUE, 1995, hal 12.

dokumen-dokumen yang mirip
PENGENALAN INTERNET. INTERNET - INTERnational NETworking - INTERconnected NETworking

APLIKASI MANAJEMEN PERPUSTAKAAN BERBASIS WEB MENGGUNAKAN PHP DAN MYSQL PADA SMA NEGERI 5 BINJAI TUGAS AKHIR FATIMAH

Pengenalan Internet. Arrummaisha A

INTERNET. INTERconnected NETworking. INTERnational NETworking

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Teknologi Informasi saat ini mengalami perkembangan yang signifikan.

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Pemrograman Web Teknik Informatika Fakultas Teknologi Industri

Pengenalan Internet dan Protokol HTTP

PENGANTAR INTERNET & DESAIN WEB

Pengenalan Internet dan Protokol HTTP

Pemrograman Web I (Mengenal. Web) Oleh : Devie Rosa Anamisa

SMK-TI TRAINING AND CERTIFICATION APLIKASI INTERNET ISI. Aplikasi Internet Modul 2. Team Training SMK TI 27

PERANCANGAN WEBSITE PENJUALAN SECARA ONLINE MENGGUNAKAN PHP DAN MYSQL TUGAS AKHIR MIRA RIZKY S TANJUNG

BAB III TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. pengguna Internet harus tetap up-to-date dengan dokumen terbaru. Karena jumlah

dapat diakses melalui salah satu menu yang berkaitan dengan komponen pada halaman administrator.

BAB III LANDASAN TEORI

Browsing dan Searching Tanggal : 11 Maret 2009

MENDEMONSTRASIKAN AKSES INTERNET

OPTIMASI SITUS WEB UNTUK MENINGKATKAN URUTAN DI SERP MENGGUNAKAN METODE SEO

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Komputer Perkantoran. Internet. Salhazan Nasution, S.Kom

BAB III TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI. Kata komputer (computer) berasal dari bahasa latin computare yang berarti

BAB I PENDAHULUAN I-1

BROWSER INTERNET UHRIA. Abstrak. Pendahuluan. Pembahasan.

BAB II LANDASAN TEORI

INTERNET SEBAGAI TOOL

Komputer Perkantoran. Salhazan Nasution, S.Kom

Domain & Web Hosting. Wisnu Hera

BAB 3 Landasan Teori

Pemrograman Web BAB I Pendahuluan

BAB 2 LANDASAN TEORI. disebut HTML (HyperText Markup Langauge). Pada perkembangan berikutnya,

BAB 1 PENDAHULUAN 1.1 Pendahuluan

TEORI HTML. Informasi dari Internet dapat diakses Keseluruh dunia hanya dalam hitungan detik.

BAB III INTERNET LABORATORIUM MANAJEMEN MENENGAH 30

PERANCANGAN DAN PEMBUATAN WEB CRAWLER APLIKASI PANDUAN PEMBELIAN SPESIFIKASI KOMPUTER RAKITAN ONLINE DENGAN MEMANFAATKAN GOOGLE GEARS

BAB 1 PENDAHULUAN. Internet, dalam (28 April 2006)

Dasar Pemrograman Web. Pemrograman Web. Adam Hendra Brata

Sejarah Web Browser. Web Browser pertama menggunakan perintah teks biasa dan hanya bisa menampilkan dokumen teks.

BAB III METODE PENELITIAN

PENGERTIAN WEBSITE DAN FUNGSINYA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Internet & Web. Elfan Nofiari. Departemen Teknik Informatika Institut Teknologi Bandung. Page 1. IF-ITB/EN/1-Mar-04 IF3292 Internet & Web

SEARCH ENGINE OPTIMIZATION (MESIN PENCARI)

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. Gambar I.1 Captcha Dengan Corak Hitam Putih

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PEMROGRAMAN WEB. Agussalim

Aplikasi Dasar Internet

BAB I PENDAHULUAN.

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

Fauzan Azmi Apa itu Search Engine. Cara Kerja Search Engine. Lisensi Dokumen:

BAB 1 PENDAHULUAN. menjual berbagai jenis pakaian. Seiring dengan perkembangan fashion pakaian ini

Pertemuan I SEJARAH TEKNOLOGI INTERNET YONO MAULANA S.KOM, MM

BAB I PENDAHULUAN. dan militer, kini telah digunakan secara luas di berbagai bidang, misalnya Bisnis,

Search Engine Optimization

BAB III LANDASAN TEORI

Jurnal Ilmiah d ComPutarE Volume 2 Juni 2012

BAB III LANDASAN TEORI

DASAR-DASAR Web Programing(WP) copyright by : japikinfo.com

Pertemuan 1. Pengenalan Dasar Web

APPLICATION LAYER. Oleh : Reza Chandra

BAB II LANDASAN TEORI. Perangkat lunak atau Software adalah perintah (program komputer) yang dieksekusi

Gambar 2. Halaman web dari Google. Search Bar

BAB I PENDAHULUAN. adalah sebuah dimensi baru dalam kehidupan manusia. Kehadiran internet dalam

3 BAB III LANDASAN LANDASAN TEORI

PERTEMUAN 1. Kompetensi Dasar : Menjelaskan konsep dasar dan teknologi Webpage

Webometrics Best Practice. Beni Rio Hermanto, ITB webmaster team.

BAB I PENDAHULUAN. 1.1 Latar Belakang

APLIKASI BERBASIS WEB PEMETAAN INFORMASI PADA GAMBAR BITMAP

Ahmad Royani, S.Kom. Ahmad Royani, S.Kom SMK NEGERI 3 DEPOK JUDUL MATERI EVALUASI PENUGASAN KELUAR

E-MARKETING. On Page SEO

LANDASAN TEORI. Dunia informasi di Indonesia sedang dan harus. berubah. Saat ini, dunia pemasaran tidak dapat

No HP :

01. Pengenalan Internet

BAB I PENDAHULUAN. diidentifikasikan menurut lokasinya dalam sebuah database, dimana nantinya data

I-1 BAB I PENDAHULUAN

WEB1. Pertemuan Ke-1 (Konsep Dasar Web) S1 Teknik Informatika - Unijoyo 1

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM

BAB II LANDASAN TEORI. beberapa ahli, definisi sistem adalah sebagai berikut.

BAB 1 PENDAHULUAN. Universitas Kristen Maranatha

PERTEMUAN 6 PROMOSI DAN PEMELIHARAAN WEB

BAB III LANDASAN TEORI

Penerapan Graf dalam Algoritma PageRank Mesin Pencari Google

Implementasi Algoritma Dijkstra pada Peta Spasial

Pertemuan 3. PENGENALAN INTERNET Oleh : Julham Afandi

kegiatan-kegiatan yang saling berkaitan dan prosedur-prosedur yang saling berhubungan untuk melaksanakan dan mempermudah kegiatan-kegiatan utama

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah. Dalam pencarian informasi, sumber ilmu pengetahuan, dan penelitian,

BAB I PENDAHULUAN. Dewasa ini komputer tidak lagi menjadi hal yang asing, segala sesuatu

Materi 1 Komputer Aplikasi IT (KAIT) 2 SKS Semester 1 S1 Sistem Informasi UNIKOM 2014 Nizar Rabbi Radliya nizar.radliya@yahoo.com

BAB II LANDASAN TEORI. suatu maksud tertentu adalah bagian dari suatu sistem, yang mana sistem

PERANCANGAN APLIKASI WEB SCRAPING UNTUK KOLEKSI KONTEN RESEP MASAKAN TRADISIONAL JAWA BERBASIS XML

BAB I PERSYARATAN PRODUK

BAB I PENDAHULUAN. internet yang sangat membantu dalam kemudahan serta kecepatan pengiriman,

Gambar di halaman berikut ini adalah sekema atau bagan yang menggambarkan cara kerja WWW :

BAB III LANDASAN TEORI

Transkripsi:

BAB I Pendahuluan Perkembangan teknologi komputer akhir-akhir semakin maju, terutama perkembangan dibidang teknologi informasi, karena didukung oleh perkembangan perangkat keras, perangkat lunak dan jaringan telekomunikasi. Komputer kini bukan hanya sebagai sebuah alat pengolah kata dan angka saja, namun berkembang menjadi alat multimedia yang semakin lengkap. Semakin lama, komputer diharapkan untuk lebih mirip dengan manusia atau dapat berpikir seperti layaknya manusia. Komputer diharapkan untuk dapat mengerti dan memahami bahasa alami manusia. Sebuah komputer yang memiliki lebih banyak perbendaharaan kata, maka komputer tersebut akan lebih mirip dengan manusia, dan akan dikatakan lebih cerdas. Komputer memiliki perbendaharaan kata dalam bentuk daftar kata. Daftar kata ini dapat dimanfaatkan untuk proses analisis teks untuk menemukan informasi baru (unknown information) dari sekumpulan teks berbahasa alami yang tidak terstruktur yang disebut Text mining. Contoh penggunaan Text mining antara lain untuk spam filtering agent yang dapat menentukan apakah sebuah e-mail yang masuk merupakan spam atau tidak, untuk Search Engine atau mesin pencari yang merupakan sebuah fasilitas yang berguna karena memudahkan pengguna internet untuk mencari informasi yang dibutuhkan, atau untuk pemilihan kata pada permainan scrabble. Daftar kata dapat dibentuk dari berbagai sumber. Dari berbagai sumber tersebut, salah satunya adalah internet. Pada halaman web yang ada, tersedia berbagai macam kata yang siap untuk diambil menjadi sebuah daftar kata. Internet adalah kumpulan besar jaringan komputer yang saling berhubungan yang menggunakan protokol TCP/IP. Teknologi internet pada awalnya belumlah sekompleks dan serumit seperti sekarang ini. Internet dimulai dari suatu eksperimen jaringan yang dilakukan oleh pemerintah Amerika Serikat, oleh suatu lembaga riset komputer yang bernama Departement of Defense s Advance Research Project Agency (ARPA). 1 1 Launching Business on the Web, David Cook and Deborah Sellers, QUE, 1995, hal 12. 1

Internet didesain untuk menghubungkan banyak komputer yang berbeda pada tempat yang berbeda untuk saling berbagi data. Jaringan ini pada awalnya hanya menghubungkan komputer-komputer di lingkungan militer, perusahaan, dan universitas yang memiliki keterikatan kontrak dengan Departemen Pertahanan Amerika Serikat. Saat ini internet telah digunakan secara luas dalam banyak aspek kehidupan dengan berbagai layanan yang disediakan. Pertumbuhan internet ditandai dengan bertambahnya arus pertukaran data yang terjadi didunia, jumlah situs-situs yang bermunculanpun semakin banyak. Hal ini menyebabkan sulitnya mencari informasi yang dibutuhkan oleh user. 1.1 Latar Belakang Masalah Search Engine atau mesin pencari merupakan sebuah fasilitas yang berguna karena memudahkan pengguna internet untuk mencari informasi yang dibutuhkan. Search Engine memudahkan pencarian suatu situs karena pencarian dilakukan berdasarkan kata kunci yang diinputkan, kemudian sebuah Search Engine akan menampilkan semua URL (Uniform Resource Locator) dari situs-situs yang berhubungan dengan kata kunci tersebut. Pada dasarnya, sistem pencarian berdasarkan kata kunci yang dilakukan oleh Search Engine adalah berdasarkan pada meta tags dari suatu situs yang berhasil disimpan dalam search engine data file. Dengan kebutuhan akan informasi yang makin meningkat, membuat penyimpanan pada data file berdasarkan pada meta tags tidak akan mencukupi. Untuk membentuk suatu daftar kata, kata-kata dalam body tag akan diambil dan dimasukkan dalam data file. Search engine data file perlu dibangun untuk melakukan pendataan dari setiap URL yang ada di Internet. Search engine data file harus dapat malakukan penambahan data-data atau informasi mengenai suatu URL secara otomatis tanpa pemilik site harus mendaftarkan sitenya. Oleh karena itu, diperlukan sebuah sistem penambah dan pengupdate data file yang lengkap dan selalu memperbaharui informasi, sehingga informasi yang dibutuhkan para pengguna internet dengan mudah dapat dicari. Program robot yang berjalan di Internet yang berguna untuk menambah ataupun mengupdate search engine data file selanjutnya akan disebut dengan crawler. 2

Dengan kemungkinan begitu banyaknya kata yang kembar atau sama dalam sebuah halaman web, pemeriksaan setiap kata yang kembar dengan memanfaatkan pemeriksaan dalam data file secara teori akan membuat kinerja web crawling menjadi kurang efektif. Oleh karenanya, kata-kata yang terdapat dalam sebuah halaman web perlu untuk diperiksa dan dipilah dalam memori utama sebelum masuk pada database sebagai daftar kata. Penggunaan trie untuk pemilahan kata dalam sebuah memori utama sangat disarankan. Akan tetapi dengan semakin banyaknya informasi pada suatu halaman web yang ditandai dengan semakin banyaknya kata yang ada di dalam suatu situs,membuat penggunaan trie dalam pemilahan kata menjadi kurang efektif dari segi ukuran data. Oleh karenanya diperlukan suatu algoritma yang dapat mengkompres data pada trie. 1.2 Perumusan Masalah Metode yang akan diimplementasikan adalah metode dengan algoritma Directed Acyclic Word Graph (DAWG). DAWG adalah sebuah struktur data dengan pencarian kata yang sangat cepat. Setiap entry point yang direpresentasikan dalam graf melambangkan huruf pertama di dalam proses pencarian. Tiap node merepresentasikan sebuah huruf, dan satu node dapat terhubung oleh lebih dari satu node berikutnya, tergantung apakah huruf tersebut merupakan huruf yang dicari. Struktur data DAWG mirip dengan struktur data trie, namun jauh lebih effisien untuk ukuran datanya. DAWG menggabungkan huruf-huruf yang sama pada node yang sama jika ada huruf yang identik. Disebut identik bila mempunyai huruf dan kedalaman yang sama, node tersebut juga mempunyai tanda stop yang sama, serta mempunyai anak yang juga identik. Hal ini membuat ukuran DAWG menjadi lebih kecil. Metode DAWG ini akan diimplementasikan pada web crawler. Metode ini memerlukan sebuah URL utama (portal) sebagai inputan, kemudian meta tags beserta URL akan disimpan ke dalam sebuah search engine data file. Proses yang dilakukan oleh program crawler adalah pencarian URL dalam suatu portal kemudian menyimpan meta tags pada database untuk setiap URL yang ditemui dan akan secara otomatis meng-update database agar selalu mencari situs-situs terbaru serta mencegah terjadinya broken link. Setelah itu, program crawler akan memilih kata- 3

kata dalam body tag dan memilahnya dengan menggunakan DAWG untuk menghindari kata-kata yang kembar. Output yang dihasilkan adalah sebuah daftar kata yang terdapat di dalam situs tersebut. Daftar kata tersebut dapat digunakan sebagai Search Engine data file yang memungkinkan pengguna untuk mencari data-data yang diperlukan seputar situs-situs berdasarkan meta tags (Generator, Author, Keywords, Description) dan kata-kata yang ada dalam body tags. Melalui penelitian ini, akan dianalisa seberapa efektif web crawler yang memanfaatkan metode DAWG ini dapat mengambil dan memilah kata dengan kondisi software, hardware dan koneksi internet yang telah ditentukan. Apakah hasil prosesnya linear dengan banyaknya kata yang harus diproses, dengan kata lain apabila semisal web crawler dengan metode DAWG dapat mengubah 1000 kata dalam kedalam 200 node, apakah ia akan mengubah 2000 kata kedalam 400 node? Dan dengan melihat juga pembatasan masalah, berapa banyak kata yang harus dia proses sehingga pemakaian web crawler dengan menggunakan metode DAWG mencapai kinerja yang optimal? 1.3 Pembatasan Masalah Pembatasan masalah perlu dilakukan dalam penulisan ini mengingat luasnya ruang lingkup yang dapat dijangkau (seluruh dunia) dan keterbatasan waktu yang dimiliki untuk menjalankan program. Sistem yang akan dibuat mencakup beberapa hal diantaranya adalah: a) Protokol internet yang digunakan untuk crawling adalah protokol HTTP. Protokol internet yang lainnya, seperti misalnya HTTPS atau FTP, tidak akan diakses. b) URL yang diakses adalah URL yang terdapat pada satu domain yang sama berdasarkan input yang dimasukkan oleh user. Apabila nama domain berbeda, maka URL tersebut tidak akan diakses. c) Pengaksesan URL (Uniform Resource Locator) dibatasi hingga maksimum 1 kedalaman ke bawah berdasarkan nama URL dimasukkan oleh user. 4

d) Sistem yang akan dibuat hanya akan menyimpan kata-kata yang terdapat diantara meta tag, body tag,dan title serta URL dari setiap web yang dikunjungi. e) Karakter-karakter yang disimpan pada node DAWG hanyalah karakter yang berupa karakter huruf latin. Karakter lainnya, misalnya angka, huruf arab atau tanda baca apapun, akan dianggap sebagai pemisah antar kata dan tidak akan disimpan pada node DAWG. f) Kata yang disimpan pada node DAWG hanyalah kata yang terdiri dari 3 (tiga) sampai dengan 45 (empat puluh lima) karakter huruf latin. g) Pembuatan program lebih difokuskan pada implementasi DAWG, bukan pada pembangunan Web Crawler ataupun pada searching. h) Sistem yang akan dibuat tidak termasuk perancangan atau pembuatan sebuah Search Engine. 1.4 Tujuan Penulisan Tujuan Umum Mengimplementasikan metode DAWG pada web crawler pada suatu halaman web dan menerapkan metode pencarian (searching) yang diperoleh selama masa perkuliahan ke dalam suatu permasalahan nyata. Tujuan Khusus Merancang program yang dapat secara otomatis membentuk suatu daftar kata pada search engine data file yang ada pada suatu alamat web (URL). 1.5 Metodologi Penelitian Metode penelitian yang digunakan adalah studi pustaka dengan mencari, mengumpulkan, dan selanjutnya mempelajari pustaka referensi yang berhubungan dengan search engine, crawler, algoritma pencarian, Directed Acyclic Word Graph (DAWG), Trie Tree serta pemrograman Perl. 5

1.6 Sistematika Penulisan a. Bab I Pendahuluan berisi tentang latar belakang, perumusan masalah, batasan masalah, tujuan serta metodelogi penelitian. b. Bab II Landasan Teori membahas mengenai Dasar Teori tentang apa itu Search Engine, HTML, Meta Tags, Body Tags, Crawler, Metoda Pencarian, Algoritma Crawler, Trie Tree, DAWG, Perl dan proses kerja kesemuanya dalam web crawler program. c. Bab III Perancangan Sistem berisi analisis, perancangan sistem dan database yang akan digunakan. d. Bab IV Implementasi dan Pengujian merupakan inti dari permasalahan dimana dalam bab ini akan dijelaskan bagaimana implementasi web crawler program bererta pengujian secara nyata. e. Bab V Penutup adalah penutup yang berisi kesimpulan, saran-saran, serta kemungkinan pengembangan penelitian. Untuk melengkapi uraian, setelah daftar pustaka akan disertakan lampiranlampiran tentang kode program yang digunakan beserta modul-modul open source yang digunakan. 6