BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini, keberadaan data telah menjadi unsur yang sangat menentukan dalam dunia bisnis. Pertumbuhan data yang cepat benar-benar mencengangkan. Menurut Eric Schmidt mencapai 5 exabytes per 2 hari. Jumlah data ini secara kasarnya sama dengan jumlah seluruh data yang terbentuk semenjak munculnya peradaban hingga tahun Hampir setengah dari respondennya yang notabene adalah para CEO perusahaan-perusahaan terkemuka mengatakan bahwa data telah menjadi faktor yang sangat penting dalam bisnis mereka. Kemudian 10 persen dari mereka juga mengakui bahwa data telah benar-benar mengubah cara kerja perusahaannya. Namun demikian, ditemukan pula bahwa banyak perusahaan yang masih berjuang keras dalam menangani aspek-aspek dasar dalam manajemen data dan bagaimana cara mengeksploitasi data secara efektif. Berangkat dari sini, yang akan menjadi langkah selanjutnya dalam memasuki era big data adalah bagaimana perusahaan dapat menemukan cara untuk mengekstrak nilai dari data yang mereka dapatkan (Economist Intelligence Unit, 2011). Kemudian, selama semester pertama 2012, Economist Intelligence Unit telah mencoba menggali dan melihat lebih dalam tentang isu tersebut. Pada surveinya yang disponsori oleh SAS, terdapat 752 eksekutif senior dari berbagai sektor bisnis dan negara berbagi pendapat dan pandangan mereka seputar dunia data. Secara paralel, EIU juga melakukan interview terhadap 17 eksekutif, konsultan, dan spesialis yang dikenal sebagai pionir dalam dunia pengolahan data. Secara garis besar, hasil surveinya adalah sebagai berikut: 1
2 1. Hubungan yang sangat erat antara finansial dan pemanfaatan big data. 2. Fokus pada prioritas bisnis adalah kunci sukses dalam eksploitasi data 3. Talenta bernilai sebanding dengan teknologi Fakta telah menunjukan bahwa pertumbuhan data akan terus berlipat ganda dari waktu ke waktu sehingga pada akhirnya melampaui batas penyimpanan maupun sistem database saat ini (Economist Intelligence Unit, 2012). Karena pertumbuhan data yang begitu pesatnya maka dibutuhkan sebuah system yang mampu memanajemen data tersebut, maka munculah project open source Apache dalam komputasi parallel terdistribusi (distributed parallel computing) yang dikenal dengan Hadoop sebagai salah satu sistem manajemen data terdistribusi. Salah satu pengguna Hadoop adalah Facebook, SNS (Social Network Service) terbesar dunia dengan jumlah pengguna yang mencapai 800 juta lebih. Facebook menggunakan Hadoop dalam memproses big data seperti halnya content sharing, analisa access log, layanan message, dan layanan lainnya yang melibatkan pemrosesan big data. (Turkington, 2012 ). Salah satu teknologi yang ditawarkan oleh Hadoop adalah HDFS (Hadoop Distributed File System) dimana semua data akan didistribusikan dalam bentuk blok-blok data untuk disimpan dalam setiap media penyimpanan (node) dalam sebuah cluster. HDFS juga menawarkan keunggulan dalam spesifikasi node yang digunakan, dimana node dapat berupa PC konvensional biasa. Melalui keunggulan dan kebutuhan akan sebuah file system yang dapat menyimpan data dalam ukuran besar secara scaleable maka penggunaan Hadoop dalam era teknologi cloud computing saat ini akan semakin dibutuhkan. Melalui tugas akhir ini, akan dipaparkan implementasi HDFS dalam ruang lingkup sederhana yang mudah dipahami pada sebuah cluster, tentang bagaimana data disimpan dan ditulis (read and write ) dalam HDFS.
3 1.2 Perumusan Masalah 1. Mengimplementasikan konsep HDFS dalam sebuah cluster server. 2. Menjelaskan konsep read and write dalam HDFS. 3. Analisa performa HDFS menggunakan DFSIO 1.3 Batasan Masalah Penelitian Batasan masalah dalam mengimplementasikan konsep HDFS dalam sebuah Cluster Server dimana cluster yang dibangun meliputi 1 NameNode dan 3 buah DataNode. 1.4 Tujuan Penelitian Mengimplementasikan dan menjelaskan konsep read and write HDFS dalam ruang lingkup sederhana yang nantinya dapat diproyeksikan sebagai sebuah metode alternative dalam penanganan penyimpanan data yang lebih efektif. 1.5 Manfaat Penelitian Manfaat yang diperoleh melalui pengerjaan Tugas Akhir Implementasi Hadoop Distributed File System dalam Cluster Server adalah: 1. Memberikan alternative metode penyimpanan data yang besar melalui konsep distribusi blok data. 2. Menjelaskan kelebihan teknologi HDFS.
4 1.6 Metodologi Penelitian Metodologi yang digunakan dalam pengerjaan Implemetasi Hadoop Distributed File System dalam Cluster Server digambarkan melalui diagram alir pada gambar 1.1 Gambar 1.1 Metodologi Penelitian Secara terperinci metodologi penelitian pada diagram alir pada gambar 1.1 dijelaskan sebagai berikut: a. Studi Literatur Studi literature difokuskan pada proses pencarian dan pembelajaran dari berbagai literature yang menjadi dasar dalam pengerjaan, yang terfokus pada materi Hadoop dan HDFS. Studi literatur yang digunakan bersumber dari internet dan E-Book yang terkait dengan HDFS. b. Analisa Kebutuhan Melakukan analisa kebutuhan perancangan sistem baik dari segi software maupun hardware yang dibutuhkan untuk menjalankan Hadoop Distributed File System dalam lingkungan sistemnya.
5 c. Perancangan Sistem Merancang desain topologi jaringan dalam skema HDFS dan juga rancangan desain komunikasi antar node dalam sistem HDFS agar setiap node bias saling berkomunikasi. d. Implementasi Mengimplementasikan topologi jaringan dan desain arsitektur HDFS berdasarkan desain sistem yang telah dibuat pada perancangan sistem beserta dengan pemenuhan kebutuhan terhadap lingkungan sistem HDFS. e. Analisa Hasil Melakukan ujicoba terhadap lingkungan sistem HDFS yang telah dibangun dengan melakukan pengujian read and write dalam HDFS beserta dengan analisa terhadapa blok file dan data dalam model HDFS sekaligus untuk menganalisa throughput HDFS. f. Kesimpulan Memberikan sebuah kesimpulan terhadap analisa hasil dari sistem HDFS yang telah dibangun, meliputi keunggulan, kekurangan dan analisa hasil. 1.7 Sistematika Penulisan Sistematika dalam penyusunan laporan Tugas Akhir Implemntasi Hadoop Distributed File System dalam Cluster Server meliputi 5 bagian utama yaitu: a. Landasan Teori (BAB II) Bagian pendahulaun berisi tentang latar belakang masalah, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian, dan sistematika penulisan. b. Landasan Teori (BAB II) Bagian landasan teori berisi tentang teori yang memuat tinjauan pustaka, kerangka pemikiran dan hipotesis.
6 c. Analisa kebutuhan dan Perancangan Sistem (BAB III) Bagian analisa dan perancangan sistem memuat tentang pemenuhan kebutuhan system beserta dengan alur perancangan sistem. d. Implementasi dan Pembahasan (BAB IV) Bagian implementasi dan pembahasan memuat tentang implementasi dari bagian perancangan system dan pembahasan dari sistem yang telah dibangun, e. Penutup (BAB V) Bagian penutup berisi kesimpulan dari implementas dari sistem yang telah dibangun beserta dengan pemberian saran.