BAB II TINJAUAN PUSTAKA 2.1 Data Data adalah kumpulan kejadian yang diangkat dari suatu kenyataan (fakta),at berupa angka-angka, huruf, simbol-simbol, atau gabungan dari ketiganya. Dalam perkembangan selanjutnya, data akan diolah menjadi bentuk yang lebih kompleks yang disebut dengan informasi. Informasi adalah data yang sudah diproses dengan cara tertentu untuk meningkatkan pengetahuan dari orang yang menggunakannya (Prescott,2005,p5). [8] Informasi dapat digunakan untuk membantu dalam meningkatkan pengetahuan yang dimiliki oleh perusahaan. Oleh karena itu penting bagi perusahaan untuk selalu memperbaharui informasi yang dimilikinya. 2.2 Data Mining 2.2.1 Pengertian Data Mining Dalam perkembanga data mining memiliki banyak definisi yang cukup beragam. Berikut adalah beberapa definisi Data Mining pada umunya: Menurut Han, Jiawei(2006,p5) : Data mining merupakan pemilihan atau menembang pengetahuan dari jumlah yang banyak. Menurut Berry(2004,p7) : Data minig adalah kegiatan mengeksplorasi dan menganalisa data dalam jumlah yang besar untuk menemukan pattern dan rule yang berarti, Data mining digunakan untuk mencari informasi bisnis yang berharga dari basis data yang sangat besar, yang dipakai untuk memprediksi trend dan sifat-sifat bisnis serta menemukan pola-pola yang tidak diketahui sebelumnya. II-1
II-2 Menurut Prescott, Hoffer dan McFadden (2005,p482) : Data mining adalah penemuan pengetahuan dengan menggunakan teknik-teknik yang tergabung dari statistik,tradisional, artificial intelligence dan grafik komputer Dapat disimpulkan bahwa data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenal pola yang penting atau menarik dari data yang terdapat dalam basis data. 2.2.2 Fungsi Data Mining Menurut JiaweiHan(2006,p21) Fungsi data mining digunakan untuk menentukan jenis pola yang terdapat dalam database. Secara umum fungsi data mining dapat dikelompokan menjadi dua kategori yaoti deskriptif dan prediktif. Deskriptif berfungsi untuk merincikan sifat umum dari data yang terdapat dalam database. Prediktif berfungsi untuk menyediakan referensi yang dapat digunakan untuk merancang rangkaian prediksi. Sistem data mining harus dapat membantu pengguna untuk menemukan petunjuk yang tepat dan spesifik. Menurut Berson, Smith dan Thearling (2000,pp37-38) pada dasarnya aplikasi data mining digunakan untuk melakukan empat macam fungsi yatiu[8] : 1. Fungsi Klasifikasi (Classification) Data mining dapat digunakan untuk mengelompokkan data-data yang jumlahnya besar menjadi data-data yang lebih kecil. 2. Fungsi Segmentasi (Segmentation) Data mining dapat digunakan untuk melakukan segmentasi (pembagian) terhadap data berdasarkan karakteristik tertentu. 3. Fungsi Asosiasi (Association) Pada fungsi asosiasi ini, data mining digunakan untuk mencari hubungan antara karakteristik tertentu.
II-3 4. Fungsi Pengurutan (Sequencing) Pada fungsi ini, data mining digunakan untuk mengidentifikasikan perubahan pola yang terjadi dalam jangka waktu tertentu 2.2.3 Proses Dalam Data Mining Data mining adalah sebuah langkah dalam proses mencari pola-pola yang terdapat dalam setiap informasi. Langkah-langkah tersebut akan dijelaskan pada gambar 2.1 (Han,2006,p6)[8]. Gambar 2.1 Proses Menghasilkan Pengetahuan Melalui Data Mining, Sumber : Han,Jiawei (2006,p6)[8] Gambar 2.1 menggambarkan proses data mining dalam menghasilkan pengetahuan dan terdiri dari beberapa urutan : 1. Data Cleaning, untuk menghapus data yang tidak dipakai dan data yang tidak konsisten.
II-4 2. Data Integration, dimana berbagai sumber data dapat digabungkan 3. Data Selection, data yang bersangkutan pada tugas analisis diseleksi dan diambil kembali dari database. 4. Data transformation, dimana data diubah atau diperkuat menjadi bentuk yang seharusnya untuk diolah dengan menganaisis ringkasan atau jumlah total agregasi. 5. Data Mining, sebuah proses penting dimana metode intelijen diterapkan dengan tujuan untuk mengolah pola-pola data. 6. Pattern evaluation, untuk mengidentifikasi pola-pola menarik yang menjelaskan mengenai ukuran dasar pengetahuan yang ada. 7. Knowledge presentation, dimana visualisasi dan teknik representasi pengetahuan digunakan untuk menyajikan pengetahuan yang telah diolah untuk pengguna. 2.2.4 Metodologi Analisis Data Mining Menurut Vercellis, ada tujuh kegiatan dasar data mining (Vercellis, 2009,p90) yaitu[8] : 1. Karakterisasi dan Diskriminasi Sebelum mengembangkan model klasifikasi, ada baiknya melakukan anlisis eksplorasi. Tujuannya ada dua, yang pertama adalah untuk mendapatkan karakterisasi dengan cara membandingkan distribusi dari nilai-nilai atribut yang dimiliki oleh kelas yang sama. yang ke dua adalah untuk mendeteksi perbedaan melalui perbandingan distribusi dari nilai-nilai atribut yang dimiliki oleh kelas yang berbeda. 2. Klasifikasi Teknik klasifikasi melihat perilaku dan atribut kelompok yang telah ditentuka. Data mining dapat menetapkan klasifikasi data baru dengan memerika data yang sudah diklasifikasian dan menggunakan hasil tersebut untuk menyimpulkan suatu set aturan. Kemudian akan diterapkan pada data yang
II-5 akan diklasifikasikan. Teknik ini sering menggunakan induksi yang terawasi yaitu memperkerjakan pelatihan kecil set cacatan yang sudah diklasifikasikan untuk menentukan klasifikasi tambahan. 3. Regresi Regresi berbeda dengan klasifikasi yang ditunjukan untuk target yang terpisah, regresi digunakan saat variabel sasaran memiliki nilai kontinu dan digunakan untuk memetakan data dengan prediksi atribut bernilai real. 4. Time Series Time Series adalah atribut target berkembang dari waktu ke waktu dank arena itu berhubungan dengan sumbu waktu. 5. Asosiasi Dalam dunia bisnis lebih dikenal sebagai market basket analysis atau disebut dengan analisis keranjang karanjang karena konteksnya seperti toko grosir. Teknik data mining ini digunakan untuk mengidentifikasi prilaku dari suatu peristiwa atau proses tertentu. Penemuan asosiasi menghubungkan kejadian dalam peristiwa tunggal. 6. Clustering Teknik clustering digunakan untuk menemukan kelompok yang berbeda dalam data. Clutering serupa dengan klasifikasi, hanya kelompok-kelompok yang belum didefinisikan pada saat menjalankan tool data mining. 7. Deskripsi dan Visualisasi Tujuan dari data mining adalah untuk memberikan representasi yang sederhana dan ringkas dari informasi yang tersimpan dalam dataset yang besar. Berbeda dengan clustering dan asosiasi, analisis dekriptif tidak melakukan pengelompokkan atau pembagian dalam dataset. Sebuah deskripsi singkat mengenai dataset yang besar sangat membantu pola-pola tersembunyi dalam data.
II-6 2.3 Classification 2.3.1 Pengertian Classification Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Tan et all, 2004). Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut yang dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record[9]. Masukan Atribut (x) Model Klasifikasi Keluaran Label Kelas (y) Gambar 2.2 Klasifikasi sebagai suatu tugas memetakan Atribut (x) ke dalam Label Kelas (y) Model klasifikasi terdiri dari (Tan et all, 2006) : 1. Pemodelan Deskriptif Dapat bertindak sebagai suatu alat yang bersifat menjelaskan untuk membedakan antara objek dengan kelas yang berbeda. 2. Pemodelan Prediktif Model klasifikasi juga dapat menggunakan prediksi label kelas yang belum diketahui record-nya. 2.3.2 Tujuan Classification Tujuan dari klasifikasi adalah untuk (Universitas Islam Indonesia, 2012) [9]: 1. Menemukan model dari training set yang membedakan record ke dalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk
II-7 mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada testing set. 2. Mengambil keputusan dengan memprediksi suatu kasus, berdasarkan hasil klasifikasi yang diperoleh. 2.4 Neural Network 2.4.1 Pengertian Neural Network Neural Network atau jaringan syaraf tiruan adalah paradigma pemrosesan suatu informasi yang terinspirasi oleh sistim sel syaraf biologi, sama seperti otak yang memproses suatu informasi. Elemen mendasar dari paradigma tersebut adalah struktur yang baru dari sistim pemrosesan informasi[5]. Neural Network (NN) merupakan prosesor tersebar paralel (paralel distributed processord) yang sangat besar yang memiliki kencenderungan untuk menyimpan pengetahuan yang bersifat pengalaman yang dapat digunakan. Neural Network atau Jaringan syaraf tiruan menyerupai otak manusia dalam dua hal, yaitu pengetahuan diperoleh jaringan melalui proses belajar, dan kekuatan hubungan antar sel syaraf (neuron) yang dikenal sebagai bobot-bobot sinaptik digunakan untuk menyimpan pengetahuan[hay 94 ][11]. 2.4.2 Model Otak Manusia Dalam Prespektif Biologi Otak manusia terdiri dari dari ber-miliar-an sel (disebut neuron) yang memproses informasi. Setiap sel bekerja bagaikan sebuah processor sederhana dan saling berinteraksi dengan sel lainnya serta dengan pasangan paralel-nya dalam menghasilkan kemampuan otak. Gambar 2.2 memperlihatkan diagram sebuah neuron[10]
II-8 Gambar 2.3 Diagram sebuah neuron[10] Sebuah neuron, terdiri dari core sebagai inti neuron, dendrites sebagai pintu masuk informasi dan axon dengan dendrites sebagai pintu keluar informasi ke sel lainnya. Informasi dialirkan antar neuron dalam bentuk stimulasi listrik sepanjang dendrites. Informasi masuk yang mencapai dendrites dikuatkan, kemudian dibawah sepanjang axon untuk mencapai dendrites di ujungnya, dimana informasi tersebut akan diteruskan ke neuron lainnya jika sinyal stimulasi melewati threshold. Pada kondisi ini, sebuah neuron disebut activated. Jika stimulasi yang masuk terlalu rendah, informasi tidak akan dikirim, pada kondisi ini, sebuah neuron disebut inhibited. Koneksi antar neuron bersifat adaptive, dimana struktur koneksi berubah secara dinamis. Gambar 2.4 Struktur Neural Network[10] 2.4.3 Komponen Neural Network Dalam Neural Network, neuron dikelompokan dalam layer, yang disebut neuron layer. Biasanya setiap neuron dari sebuah layer dihubungkan ke semua neuron
II-9 yang ada di layer belakang maupun depannya (kecuali input dan output). Informasi yang dikirim dalam sebuah Neural Network, dipropagasi layer per layer mulai dari input hingga output tanpa atau melalui satu atau lebih hidden layers. Bergantung pada algoritma yang digunakan, informasi juga dapat dipropagasi ke arah belakang (backpropagation). Berikut Gambar 2.4 menunjukan Neural Network dengan tiga neuron layer[10.] Gambar 2.5 Neural Network dengan 3 Neuron Layer [10] 2.4.4 Jenis Neural Network Terdapat beberapa jenis Neural Network (NN), yang dibedakan berdasarkan type, algoritma, learning method maupun activation function, yang digunakan[10]. 1. Type Neural Network, yaitu yang berkaitan dengan koneksi antar neuron. Ada 2 type, yaitu feedforward dan feedback. Feedforward type merupakan tipe NN dimana neuron pada suatu layer hanya bisa berkoneksi dengan neuron yang berada pada layer yang berbeda. Sedangkan feedback type merupakan type NN dimana neuron pada suatu layer bisa berkoneksi dengan neuron pada layer lainnya dan juga dengan neuron pada layer yang sama.
II-10 2. Algoritma, yaitu algoritma matematis yang digunakan Neural Network untuk melakukan proses belajar. Ada beberapa jenis algoritma yang biasa digunakan, yaitu : (1) Backpropagation, merupakan suatu algoritma belajar (learning algorithm) yang digunakan oleh NN pada metode supervised. Salah satu bentuknya adalah delta learning rule. (2) Delta learning rule, merupakan algoritma belajar (learning algorithm) yang digunakan oleh NN pada metode supervised, dimana perubahan weight diperoleh dari hasil perkalian antara input, error dan learning rate. (3) Forwardpropagation, merupakan algoritma dimana output neuron hanya dipropagasi pada satu arah dari input ke output. (4) Hebb learning rule, merupakan algoritma yang digunakan dengan supervised learning, khususnya pada perceptron, dimana perubahan weight diperoleh dari perkalian input, output dan learning rate. (5) Simulated annealing, merupakan tipe khusus dari learning algorithm, khususnya untuk NN tipe feedback. 3. Metoda (learning method), ada dua macam, yaitu : (1) Supervised learning, dimana ada target outputnya, sehingga error dihitung dari output hasil perhitungan dikurangi dengan target output. (2) Unsupervised learning, merupakan metode khusus dimana tidak ada target outputnya, contohnya adalah pada selforganizing neural nets seperti Kohonen Feature Map. 4. Fungsi aktivasi (activation function), merupakan fungsi matematis yang digunakan untuk mendapatkan output neuron dari nilai inputnya. Disebut aktivasi karena output akan bernilai jika melampaui nilai threshold-nya. Beberapa fungsi aktivasi yang sering digunakan, yaitu : hard limiter, signum activation dan sigmoid activation. 2.5 Multilayer Perceptron Multi-Layer Perceptron adalah jaringan syaraf tiruan feed-forward yang terdiri dari sejumlah neuron yang dihubungkan oleh bobot-bobot penghubung. Neuron-neuron tersebut disusun dalam lapisan-lapisan yang terdiri dari satu lapisan
II-11 input (input layer),satu atau lebih lapisan tersembunyi (hidden layer), dan satu lapisan output (output layer). Lapisan input menerima sinyal dari luar, kemudian melewatkannya ke lapisan tersembunyi pertama, yang akan diteruskan sehingga akhirnya mencapai lapisan output[12]. Gambar 2.6 Arsitektur jaringan multilayer perceptron[12] Tidak ada batasan banyaknya hidden layer dan jumlah neuron pada setiap layernya. Setiap neuron pada input layer terhubung dengan setiap neuron pada hidden layer. Demikian juga, setiap neuron pada hidden layer terhubung ke setiap neuron pada output layer. Setiapn euron, kecuali pada layer input, memiliki input tambahan yang disebut bias. Bilangan yang diperlihatkan pada gambar di atas digunakan untuk mengidentifikasi setiap node pada masing-masing layer. Kemudian, jaringan dilatih agar keluaran jaringan sesuai dengan pola pasangan masukan-target yang telah ditentukan. Proses pelatihan adalah proses iteratif untuk mementukan bobot-bobot koneksi antara neuron yang paling optimal. Kata back propagation yang sering dikaitkan pada MLP merujuk pada cara bagaimana gradien perubahan bobot dihitung. Jaringan MLP yang sudah dilatih dengan baik akan memberikan keluaran yang masuk akal jika diberi masukan yang serupa (tidak harus sama) dengan pola yang dipakai dalam pelatihan[12]. Berikut ini adalah tahap-tahapan dalam penyelesaian masalah menggunakan metode Jaringan Syarat Tiruan menggunakan Multilayer Percepteron. 1. Identifikasi masalah
II-12 Tahap ini merupakan identifikasi masalah yang hendak diselesaikan dengan jaringan syaraf tiruan, meliputi identifikasi jenis dan jumlah masukan serta keluaran pada jaringan. 2. Menyiapkan training data set Training data set merupakan kumpulan pasangan data masukan-keluaran berdasarkan pengetahuan yang telah dikumpulkan sebelumnya. Banyaknya data set harus mencukupi dan dapat p p mewakili setiap kondisi yang hendak diselesaikan. Terbatasnya data set akan menyebabkan akurasi jaringan menjadi rendah. 3. Inisialisasi dan pembentukan jaringan Tahap inisialisasi meliputi penentuan topologi, pemilihan fungsi aktivasi, dan pemilihan fungsi pelatihan jaringan. Penentuan topologi adalah penentuan banyaknya hidden layer dan penentuan jumlah neuron pada input layer, hidden layer dan output layer. 4. Simulasi jaringan Simulasi jaringan dilakukan untuk melihat keluaran jaringan berdasarkan masukan, bobot neuron dan fungsi aktivasinya. 5. Pelatihan / training jaringan Sebelum melakukan pelatihan, dilakukan penentuan parameter training terlebih dahulu, seperti penentuan jumlah iterasi, learning rate, error yang diijinkan. Setelah itu dilakukan pelatihan yang merupakan proses iteratif untuk menentukan bobot koneksi antar neuron. 6. Menggunakan jaringan untuk pengenalan pola Setelah pelatihan dilakukan, jaringan siap untuk digunakan untuk pengenalan pola. Kemampuan jaringan dalam mengenal pola sangat bergantung dari bagaimana jaringan tersebut dilatih. Jaringan syaraf tiruan cocok digunakan untuk menyelesaikan masalah yang tidak linier, yang tidak dapat dimodelkan secara matematis. Jaringan cukup belajar
II-13 dari pasangan data masukan dan target yang diinginkan, setelah itu jaringan dapat mengenali pola yang mirip dengan masukan ketika dilakukan pelatihan. Karena itu, kinerja jaringan pun ditentukan oleh banyaknya pasangan data set selama training. Bila data training cukup banyak dan konsisten, akurasi jaringan akan tinggi, sebaliknya bila data training tidak memadai, akurasi jaringan rendah. Selain data training, akurasi jaringan juga ditentukan oleh pemilihan topologi yang tepat[12]. Proses pembentukan jaringan sangat melelahkan, dilakukan secara terus menerus hingga diperoleh jaringan yang paling baik. Tetapi setelah jaringan yang optimal ditemukan, proses pengenalan pola dapat dilakukan secara cepat, lebih cepat bila dibandingkan metoda lainnya[12]. Metode MLP merupakan salah satu metode dari Jaringan Syaraf Tirual (JST) sangat cocok untuk menyelesaikan masalah yang tidak linear dan non deterministik. Contoh aplikasinya antara lain adalah: Untuk speech recognition Untuk image recognition Untuk software mesin tranlasi 2.6 Hujan Hujan adalah jatuhnya hydrometeor yang berupa partikel-partikel air dengan diameter 0.5 mm atau lebih. Hujan merupakan sebuah presipitasi berwujud cairan, berbeda dengan presipitasi non-cair seperti salju, batu es dan slit. Hujan memerlukan keberadaan lapisan atmosfer tebal agar dapat menemui suhu di atas titik leleh es di dekat dan di atas permukaan Bumi. Di Bumi, hujan adalah proses kondensasi uap air di atmosfer menjadi butir air yang cukup berat untuk jatuh dan biasanya tiba di daratan[6]. Hujan merupakan siklus alam yang sangat penting bagi mahluk hidup didunia, namun hujan yang berlebihan akan mengalami kerugian yaitu dapat menyebabkan bencana alam seperti : banjir, dan badai. Intensitas hujan adalah banyaknya curah hujan persatuan jangka waktu tertentu. Berikut adalah kriteria intensitas curah hujan[13].
II-14 Hujan sangat ringan : Intensitas < 5 mm dalam 24 jam Hujan ringan : Intensitas 5 20 mm dalam 24 jam Hujan sedang : Intensitas 20 50 mm dalam 24 jam Hujan lebat : Intensitas 50 100 mm dalam 24 jam Hujan sangat lebat : Intensitas > 100 mm dalam 24 jam