BAB 1 PENDAHULUAN Latar Belakang

dokumen-dokumen yang mirip
BAB 2 LANDASAN TEORI

FOCUSED WEB CRAWLER DENGAN SISTEM TERDISTRIBUSI SKRIPSI ATRAS NAJWAN

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu

Perbandingan Algoritma Breadth First Search dan Depth First Search Sebagai Focused Crawler

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. pengguna Internet harus tetap up-to-date dengan dokumen terbaru. Karena jumlah

PENERAPAN FOCUSED CRAWLING PADA SITUS BERITA ONLINE

BAB I PENDAHULUAN. canggih dan pesat dari waktu ke waktu, dengan berkembangnya teknologi

BAB I PENDAHULUAN. Teknologi Informasi saat ini mengalami perkembangan yang signifikan.

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN I - 1

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PERANCANGAN DAN PEMBUATAN WEB CRAWLER APLIKASI PANDUAN PEMBELIAN SPESIFIKASI KOMPUTER RAKITAN ONLINE DENGAN MEMANFAATKAN GOOGLE GEARS

BAB 1 PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. Perkembangan teknologi web dan internet yang ada saat ini. memungkinkan seseorang membuat website yang diinginkan menjadi lebih

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. bahkan luar negeri. Hal ini dikarenakan produk souvenir merupakan produk

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB 1 PENDAHULUAN. Informasi merupakan salah satu kebutuhan di dalam suatu instansi,

Penelusuran Informasi (Information Retrieval)

BAB 1 PENDAHULUAN. Perangkat lunak adalah istilah umum untuk data yang diformat dan disimpan secara

BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. banyaknya penggunaan komputer di berbagai bidang. Banyak perusahaan yang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. lebih cepat dan murah tentunya menuntut para pemberi informasi untuk memiliki

3.1 Desain Penelitian

BAB 1 PENDAHULUAN. yang dapat dilakukan oleh perusahaan. kepada partner bisnisnya dan dapat melakukan pemesanan secara online.

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB 1 PENDAHULUAN. perusahaan diharapkan agar mampu menerapkan dan mengikuti. pelayanannya dimana petugas yang melayani pemesanan travel harus

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. komputer ataupun perangkat mobile mereka dari manapun dan kapanpun. Setelah

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. mudah berpartisipasi, berbagi, dan menciptakan isi meliputi blog, jejaring sosial, wiki,

PERTEMUAN 6 PROMOSI DAN PEMELIHARAAN WEB

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

PERANCANGAN SISTEM INFORMASI PENDAFTARAN PESERTA EVENT BERBASIS WEB PADA UKM RADIO MERCU BUANA

BAB 1 PENDAHULUAN. khususnya teknologi Internet dan Web berkembang dengan sangat pesat. Pengguna

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang. Dalam rangka meningkatkan produktifitas dan efisiensi pelaksanaan tugas

BAB I PENDAHULUAN. dengan lingkungan sosialnya pengguna social media seringkali menceritakan

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. pengadaan, inventarisasi, katalogisasi, sirkulasi bahan pustaka, serta. pengelolaan data anggota dan statistik.

BAB 1 PENDAHULUAN. yang sudah maju seperti Amerika, Eropa, Jepang dan lain sebagainya.

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. beberapa tahun terakhir (Dave Chaffey, 2016). Media jejaring sosial seperti Twitter,

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. terjadi kesalahan dalam proses tersebut, karena tidak didasari oleh suatu acuan tertulis

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. hingga saat ini semakin meningkat, terutama pada jaringan internet

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. dari pendayagunaan teknologi khususnya teknologi informasi. Penjualan elektronik atau yang akrab di sebut e-commerce ( electronic

BAB I PENDAHULUAN. Salah satunya teknologi internet yang dapat merambah dunia. pendidikan, yang melingkupi sistem informasi berbasis web sebagai wujud

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Dalam dunia teknologi informasi, komputer tidak hanya digunakan sebagai alat untuk

UKDW BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. Gambar 1.1. Grafik jumlah pengguna internet di Indonesia tahun versi APJII

EXPERT SYSTEM SEARCH ENGINE OPTIMIZATION (SEO) DALAM MENGOPTIMALKAN WEBSITE

BAB 1 PENDAHULUAN. Informasi merupakan salah satu kebutuhan di dalam suatu instansi, perusahaan,

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. diinginkan. Dengan banyaknya penjual ikan secara konvensional untung yang

BAB 1 PENDAHULUAN. Teknologi komputer di era saat ini sangat membantu brainware untuk

BAB I PENDAHULUAN I.1. Latar Belakang

BAB I PENDAHULUAN. Dengan menggunakan kecerdasan buatan maka tidaklah mustahil akan ada mesin yang benar-benar mampu berpikir layaknya manusia.

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

BAB I PENDAHULUAN. dan efisien sangat dibutuhkan oleh setiap orang. Perkembangan teknologi yang semakin

BAB I PENDAHULUAN Latar Belakang Masalah

BAB 1 PENDAHULUAN. harga buku dan juga sebagai upaya mengurangi dampak pemanasan global

BAB I PENDAHULUAN. Jaringan Internet merupakan jaringan internasional (World Wide Web) yang

Transkripsi:

BAB 1 PENDAHULUAN 1.1. Latar Belakang Perkembangan internet yang semakin pesat membuat masyarakat dapat memperoleh informasi dengan cepat. Informasi yang disajikan pun beragam jenis, seperti kesehatan, keuangan, teknologi dan lain sebagainya. Pemanfaatan informasi dari internet sangat tepat di terapkan di Indonesia, karena masyarakat indonesia yang sudah terbiasa dengan internet. Dimana menurut siaran pers yang dikemukakan oleh Asosiasi Penyelenggara Jasa Internet Indonesia (APJII), di Tahun 2014 pengguna internet di Indonesia mencapai 88,1 juta atau setara dengan 34,9% dari jumlah penduduk Indonesia (APJII, 2015). Salah satu pemanfaatan informasi dari internet yang dapat diterapkan di Indonesia adalah sebagai salah satu sumber informasi kesehatan. Dengan jumlah artikel kesehatan di internet yang terus meningkat, maka internet dapat menjadi sumber informasi kesehatan yang cost effective atau berbiaya murah. Mengingat beragamnya jenis informasi yang terdapat di situs-situs di internet, maka dibutuhkan suatu mekanisme mengumpulkan informasi kesehatan yang akurat dan efisien. Pengumpulan artikel dari internet dapat dilakukan dengan menggunakan metode mesin crawler. Mesin crawler atau disebut juga dengan spider web adalah sebuah program yang melintasi struktur HTML dari web, dimulai dari sebuah alamat awal (seed) dan secara rekursif mengunjungi alamat web di dalam halaman web. Penelitian terkait dengan algoritma mesin crawler terus dilakukan oleh banyak peneliti. Pada tahun 2014, Rashmi Janbandhu, Prashant Dahiwale dan M. M. Raghuwanshi mereka mengungkapkan bahwa Focused Crawling Algorithm mempunyai kelebihan daripada algoritma yang lainnya, dimana algoritma ini mempunyai response time yang paling

2 kecil daripada yang lain. Focused Crawling algorithm adalah algoritma Crawler yang akan mengambil data dengan spesifikasi tertentu, misalkan dengan topik kesehatan, maka crawler hanya akan mengambil halaman web yang hanya berhubungan dengan topik kesehatan. Algoritma ini akan mencari kesamaan dari halaman yang sedang dicrawl dengan query yang diberikan (Chakrabarti, et al., 1999). Pemilihan urutan alamat situs atau page ordering juga mempengaruhi performa dari suatu web crawler. Dimana pada penelitian yang dilakukan oleh Ricardo Baeza-Yates, Mauricio Marin, Carlos Castillo, Andrea Rodriguez pada tahun 2005 mengungkapkan metode Larger-Sites- First terbukti mempunyai performa yang lebih baik dari algoritma lainnya. Algoritma ini mengurutkan website yang akan di-crawl berdasarkan halaman yang dimiliki dari terbanyak sampai yang terkecil. Berdasarkan hal ini, penerapan algoritma focused crawling dengan metode Larger Sites First untuk page ordering dapat diterapkan untuk pengumpulan artikel kesehatan dari internet dengan response time lebih baik. Tahapan pengumpulan artikel kesehatan dengan algoritma focused crawler juga meliputi algoritma ekstraksi dan pengklasifikasian artikel. Ekstraksi artikel dilakukan untuk dapat mengetahui isi kandungan artikel sehingga artikel dapat di klasifikasikan apakah termasuk artikel kesehatan atau bukan. Algoritma klasifikasi yang digunakan yaitu algoritma Naive Bayes Classifier. Peningkatan performa mesin crawler juga dapat dilakukan dengan cara perancangan mesin crawler terdistribusi dan juga memanfaatkan penggunaan multithread. Beberapa penelitian terdahulu telah membuktikan bahwa sistem terdistribusi dapat meningkatkan performa dari suatu mesin crawler dan penggunaan thread dengan jumlah tertentu juga dapat meningkatkan efisiensi waktu pengumpulan. Berdasarkan latar belakang tersebut, pada skripsi ini penulis merancang sebuah Focused Web Crawler dengan Sistem Terdistribusi. Penelitian ini dilakukan untuk mendapatkan focused crawler dengan sistem terdistribusi yang memiliki performa yang tinggi dengan menggunakan Naive Bayes Classifier (NBC), algoritma Larger-Sites- First dalam page ordering dan penggunaan multithread yang optimal.

3 1.2. Rumusan Masalah Adapun rumusan masalah pada penelitian ini adalah: Bagaimana cara mesin crawler mengumpulkan artikel khusus di bidang kesehatan? Bagaimana cara meningkatkan kecepatan pengambilan data dari web crawler dengan sistem terdistribusi? 1.3. Tujuan Penelitian Tujuan utama yang ingin dicapai pada penelitian ini adalah menghasilkan focused web crawler terdistribusi untuk mengumpulkan artikel kesehatan. 1.4. Batasan Masalah Dalam melakukan penelitian ini, peneliti membatasi ruang masalah yang akan diteliti. Batasan-batasan masalah yang digunakan adalah : 1. Seeds awal yang digunakan sebanyak 32 URL yang merupakan situs berbahasa Indonesia 2. Topik yang digunakan adalah kesehatan. 3. Konten yang diambil merupakan artikel. 4. Dataset kesehatan untuk klasifikasi diacu dari www.idai.or.id, www.depkes.go.id dan www.kateglo.com. 5. Crawler tidak akan meng-crawl external link dari URL seeds. 6. Jumlah node yang digunakan untuk sistem terdistribusi adalah satu master dan 4 slaves. 1.5. Manfaat Penelitian Manfaat yang diperoleh dari penelitian ini adalah: 1. Menghasilkan suatu metode untuk pengumpulan artikel kesehatan berbahasa indonesia. 2. Mampu mengintegrasikan hasil penelitian peneliti lain untuk membangun sebuah focused web crawler yang efisien.

4 1.6. Metodologi Penelitian Tahapan-tahapan yang akan dilakukan dalam pelaksanaan penelitian ini adalah sebagai berikut : 1. Studi Literatur Tahap ini dilaksanakan untuk mengumpulkan dan mempelajari informasiinformasi yang diperoleh dari buku, jurnal dan berbagai sumber referensi lain yang berkaitan dengan penelitian seperti focused web crawler, Naive Bayyes Classifier, Sistem Terditribusi, Multi Thread, Larger Sites First. 2. Analisis Permasalahan Pada tahap ini dilakukan analisis terhadap berbagai informasi yang telah diperoleh dari berbagai sumber yang terkait dengan penelitian agar didapatkan metode yang tepat untuk menyelesaikan masalah dalam penelitian ini. 3. Perancangan Sistem Tahap ini dilakukan perancangan sistem untuk menyelesaikan permasalahan yang terdapat di dalam tahap analisis. Kemudian dilanjutkan dengan mengimplementasikan hasil analisis dan perancangan ke dalam sistem. 4. Implementasi dan Pengujian Pada tahap ini dilakukan implementasi ke dalam kode sesuai dengan analisis dan perancangan yang telah dilakukan pada tahap sebelumnya. Dan dilakukan pengujian terhadap hasil yang didapatkan melalui implementasi algoritma Larger Sites First dan Naive Bayes Classifier dalam Focused Crawler terdistribusi. 5. Analisis dan Pengambilan Kesimpulan Pada tahap ini dilakukan analisis data yang didapatkan dari implementasi algoritma Larger Sites First dan Naive Bayes Classifier dalam Focused Crawler terdistribusi dan menyipulkan hasil analisis tersebut. 1.7. Sistematika Penulisan Sistematika penulisan dari skripsi ini terdiri atas lima bagian utama sebagai berikut: Bab 1: Pendahuluan

5 Bab ini berisi latar belakang dari penelitian yang dilaksanakan, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, serta sistematika penulisan. Bab 2: Landasan Teori Bab ini berisi teori-teori yang diperlukan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan Web Crawler, Focused Crawling Algorithm, Larger Site-First, Multithreading, Naive Bayes Classifierdan sistem terdistribusi akan dibahas pada bab ini. Bab 3: Analisis dan Perancangan Bab ini menjelaskan tentang analisis dan perancangan sistem yang bangun untuk focused crawler dengan sistem terdistribusi. Adapun dua tahapan yang dibahas pada bab ini yaitu tahap analisis dan tahap perancangan sistem. Pada analisis sistem meliputi kebutuhan perangkat lunak dan perangkat kerasdan pada perancangan sistem meliputi tahapan untuk perancangan sistem terdistribusi dan juga tahapan percobaan yang dilakukan. Bab 4: Implementasi dan Pengujian Bab ini berisi pembahasan tentang implementasi dari perancangan yang telah dijabarkan pada bab 3. Selain itu, hasil yang didapatkan selama proses yang terjadi pada penelitian juga dijabarkan pada bab ini. Bab 5: Kesimpulan dan Saran Bab ini berisi ringkasan serta kesimpulan dari rancangan yang telah dibahas pada bab 3, serta hasil penelitian yang dijabarkan pada bab 4, serta pada bagian akhir bab ini akan berisi saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.