BAB I PENDAHULUAN 1.1 Latar Belakang Big data merupakan data yang tidak dapat diproses menggunakan alat pengolahan data tradisional karena berukuran sangat besar dan rumit [1]. Pada era digital ini, data berkembang semakin pesat di berbagai bidang, para ahli memprediksi bahwa data tahunan akan meningkat 43 kali lipat pada tahun 2020, bukan hanya ukuran yang membuatnya unik tetapi juga bentuknya yang tidak terstruktur yang dapat menyebabkan masalah dalam pengolahannya [2]. Setiap hari, 2,5 triliun byte data diciptakan. Data ini berasal dari gambar digital, video, posting ke situs media sosial, sensor cerdas, catatan transaksi pembelian, sinyal GPS ponsel, dan lain-lain [3]. Salah satu bidang yang menghasilkan data yang kompleks dengan volume yang besar adalah bidang transportasi. Saat ini kecenderungan penggunaan transportasi publik serta penggunaan pembayaran elektronis semakin meningkat. Salah satu contohnya adalah penyedia jasa transportasi publik jenis BRT (Bus Rapid Transit) di Jakarta. Pada tahun 2014, Mereka harus menangani rata-rata 322.000 data transaksi setiap harinya [4]. Semakin banyaknya pengguna BRT, semakin kompleks pula sistem transportasi yang ada, semakin banyak pula data transaksi yang harus disimpan dan diolah. Data ini penting untuk disimpan dan diolah, karena ketika data besar dapat disimpan, diproses, dan dianalisis secara efektif dan efisien, perusahaan dapat memperoleh pemahaman yang lebih lengkap tentang bisnis, pelanggan, produk, dan pesaing mereka. Hal tersebut dapat menyebabkan peningkatan efisiensi, penjualan, kualitas layanan, dan pengurangan biaya [5]. Pada sistem big data, query dijalankan sebagai beberapa tugas pada server terdistribusi. Hal ini memang menawarkan tingkat kinerja yang tidak dapat dicapai dengan metode lain [6]. Selain itu, ukuran dan varietas data yang mampu ditangani oleh big data jauh lebih tinggi dibandingkan penyimpanan data tradisional [6]. Kerangka kerja yang paling umum digunakan dalam sistem big data adalah Hadoop. Apache Hadoop adalah suatu kerangka kerja perangkat lunak sumber terbuka
yang digunakan untuk penyimpanan terdistribusi dan pengolahan data set besar menggunakan model pemrograman Map Reduce. Map Reduce adalah model pemrograman untuk memproses dataset besar yang tersimpan dalam HDFS (Hadoop Distributed File System) [7]. Semua modul di Hadoop dirancang dengan asumsi dasar bahwa kegagalan perangkat keras adalah kejadian umum dan harus ditangani secara otomatis oleh framework [8]. Dalam kasus penyedia jasa transportasi BRT ini, terdapat berbagai tantangan untuk mengolah data secara cepat. Berdasarkan wawancara kami dengan salah satu pegawai perusahaan tersebut, sistem penyimpanan data yang mereka miliki sudah tidak mampu lagi menangani data transaksi yang bertambah setiap harinya, untuk mencari data saja dibutuhkan waktu yang sangat lama, apalagi jika melakukan visualisasi dan analisis. Sistem penyimpanan data yang mereka gunakan saat ini masih menggunakan sistem penyimpanan data tradisional. Sistem penyimpanan data yang mereka miliki tidak relevan dengan perkembangan data yang mereka miliki, di masa depan, mereka mungkin saja memiliki kebutuhan untuk menyimpan data yang tidak terstruktur, misalnya rekaman keamanan dari CCTV suatu halte. Karena beberapa masalah yang mereka alami tersebut, perusahaan tidak dapat memanfaatkan data yang mereka miliki sebagai dasar analisis bisnis. Selain itu, terdapat pula kebutuhan untuk menampilkan data dalam bentuk time series. Time series mengacu masalah di mana pengamatan dikumpulkan pada interval waktu yang teratur dan ada korelasi antara pengamatan berturut-turut [9]. Dengan data time series, kepadatan suatu halte pada kurun waktu tertentu akan dapat dipetakan. Sebuah analisis dari data lampau time series dapat digunakan oleh manajemen untuk membuat keputusan saat ini dan rencana berdasarkan peramalan jangka panjang, biasanya pola masa lalu diasumsikan akan memiliki kemiripan di masa depan [10]. Hingga saat ini, penyedia transaksi BRT di Jakarta tersebut belum memiliki workflow yang memanfaatkan konsep big data untuk mengatasi masalah data transaksi tersebut. Ketika perusahaan tersebut tidak memiliki workflow yang menerapkan konsep big data, data transaksi yang selama ini mereka simpan menjadi tidak dapat digunakan, karena dengan menggunakan infrastruktur komputasi dan
teknologi pemroses data yang mereka miliki saat ini, data tersebut tidak dapat dianalisis sehingga tidak dapat digunakan sebagai dasar keputusan bisnis. Salah satu cara yang dapat digunakan untuk membuat workflow tersebut adalah dengan menggunakan Apache Spark. Apache Spark adalah platform komputasi klaster yang dirancang agar bekerja secara cepat dan untuk tujuan umum [11]. Salah satu fitur utama yang ditawarkan Spark untuk kecepatan adalah kemampuan untuk menjalankan komputasi di dalam memori. Selain itu, Spark juga lebih efisien daripada Map Reduce untuk aplikasi yang kompleks ketika berjalan dalam disk [11]. Salah satu fitur yang terdapat pada Spark adalah Spark-SQL, Hasil penelitian menunjukkan bahwa pemrosesan data dengan Spark-SQL rata-rata 2,5 kali lebih cepat dibandingkan dengan model pemrograman Map Reduce[12]. Apache Spark dan Spark-SQL ini dapat berjalan di dalam kluster hadoop dan melakukan akses ke dalam berbagai sumber data Hadoop. Atas dasar berbagai faktor yang disebutkan di atas, pada pengembangan ini dilakukan pengembangan workflow untuk melakukan agregasi dan visualisasi data transaksi BRT berdasarkan runtun waktu secara cepat dengan menerapkan konsep big data. Workflow ini akan mengubah sistem penyimpanan data tradisional yang selama ini dilakukan oleh penyedia jasa transportasi BRT ke dalam sistem big data menggunakan Apache Spark yang berjalan pada klaster hadoop. Dengan workflow ini, data transaksi akan diubah dan ditampilkan ke dalam bentuk time series.
1.2 Rumusan Masalah Dari latar belakang di atas, terdapat masalah yang perlu diselesaikan, yaitu : 1. Penyedia layanan transportasi BRT di Jakarta masih mengolah data transaksi dengan tools tradisional, yang dalam implementasinya terbukti tidak mampu menangani data transaksi yang bertambah setiap harinya. 2. Perlunya workflow untuk mengolah dan menyimpan big data secara cepat dan melakukan visualisasi big data berdasarkan interval waktu sebagai dasar analisis bisinis. 1.3 Batasan Masalah Agar pengembangan ini dapat terfokus pada masalah yang hendak dipecahkan, pengembangan ini memiliki batasan sebagai berikut : 1. Pengembangan ini berfokus pada pengembangan workflow untuk melakukan agregasi dan visualisasi data transaksi BRT berdasarkan runtun waktu menggunakan Spark-SQL. 2. Pengembangan ini belum mencakup hal yang berkaitan dengan keamanan informasi dan user experience. 3. Penelitian ini menggunakan kasus data transaksi BRT di Jakarta dalam pengembangan workflow big data. 1.4 Tujuan Pengembangan Tujuan dari pengembangan ini adalah : 1. Mengembangkan workflow big data yang mampu melakukan pengelompokan dan agregasi data transaksi BRT berukuran besar berdasarkan kurun waktu tertentu. 2. Melakukan visualisasi data transaksi BRT berdasarkan kurun waktu. 1.5 Manfaat Pengembangan Manfaat yang diharapkan dari pengembangan ini adalah : 1. Bagi akademisi, untuk menjadikan pengembangan ini sebagai bahan pembelajaran untuk ke depannya.
2. Bagi penyedia layanan transportasi BRT, untuk melakukan pengolahan big data dalam bentuk time series secara lebih efisien dibandingkan dengan cara pengolahan sebelumnya menggunakan workflow yang dikembangkan. 1.6 Sistematika Penulisan Penulisan laporan hasil pengembangan, disajikan ke dalam lima bab dengan penjelasan secara ringkas sebagai berikut : 1. BAB I: PENDAHULUAN Pada bab ini dijelaskan latar belakang, rumusan masalah, batasan masalah, tujuan pengembangan, manfaat pengembangan, dan sistematika penulisan. Bab ini memberikan gambaran masalah yang diselesaikan dan tujuan yang ingin dicapai dari pengembangan ini. 2. BAB II: DASAR TEORI Bab ini berisikan perihal penelitian-penelitian dan teori-teori terkait big data, time series, dan hal terkait lainnya yang digunakan sebagai acuan dan dasar dalam penelitian ini. Bagian ini juga menunjau penelitian yang pernah dilakukan sebelumnya sebagai justifikasi mengapa penelitian ini dilakukan. 3. BAB III: METODE PENGEMBANGAN Bab ini menjabarkan metode yang digunakan dalam melakukan pengembangan. Selain itu, menjelaskan pula proses perancangan sistem dan perancangan cara pengujian yang terkait. 4. BAB IV: HASIL DAN PEMBAHASAN Pada Bab IV ini dijelaskan hasil pengembangan pada aspek yang diteliti, serta analisis atas hasil dari pengembangan workflow.
5. BAB V: KESIMPULAN DAN SARAN Bab V ini berisi kesimpulan dan saran atas hasil pengembangan dan pengujian berdasarkan tujuan pengembangan yang dapat digunakan untuk pengembangan selanjutnya.