BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Suatu data Multivariate Time Series (MTS), dilihat dari sifatnya, dapat didefinisikan sebagai suatu data yang didapat dengan melakukan observasi terhadap beberapa komponen yang dilakukan secara periodik, dimana komponen komponen tersebut memilik satu kesatuan makna. Data-data yang dapat direpresentasikan sebagai suatu data MTS adalah data Cuaca pada suatu area dalam kurun waktu tertentu, data ekonomi suatu negara dalam kurun waktu tertentu, musik, data kesehatan dan lain-lain. Data data tersebut dapat diproses untuk menghasilkan suatu pengetahuan ataupun kesimpulan terhadap suatu hal. Proses yang bisa dilakukan diantaranya prediksi dan klasifikasi. Prediksi dilakukan untuk meramalkan kejadian yang akan datang berdasarkan data yang dimiliki sekarang. Klasifikasi terhadap data dilakukan jika data tersebut adalah data baru yang perlu dikategorikan ke dalam salah satu kategori atau kelas yang ada. Suatu data MTS yang baru tidak selalu memiliki spesifikasi yang sama persis dengan data MTS yang sudah ada, walaupun data tersebut mempunyai kelas yang sama dengan data yang lama. Misalkan saja gambar pemandangan pegunungan anak satu belum tentu sama dengan gambar pemandangan pegunungan anak yang lain. Hal yang sama dapat terjadi dengan data MTS. Sedikit perbedaan tersebut menyebabkan metode pencarian tidak lagi bisa digunakan untuk menentukan kesamaan dua buah data yang sekelas. Salah satu metode klasifikasi yang banyak digunakan adalah K Nearest Neighbour (knn). Metode knn menentukan kelas suatu data berdasarkan k buah data terdekat. Metode knn tidak menentukan sendiri metode untuk melakukan perhitungan jaraknya, sehingga perlu dikombinasikan dengan metode perhitungan jarak tersendiri. Pemilihan metode perhitungan jarak dapat mempengaruhi kinerja dari metode knn ini (Min dkk., 2009). Metode perhitungan jarak yang banyak digunakan adalah metode euclidean distance. Metode perhitungan ini baik digunakan untuk data yang berada pada bidang datar (Keogh dan Pazzani, 1999). Untuk data selain pada bidang datar, metode ini kurang bagus. Dynamic Time Warping (DTW) adalah metode perhitungan jarak 1
2 lain yang juga sering digunakan dalam penelitian. Keogh dan Pazzani (1999) menyebutkan bahwa metode DTW lebih baik dari pada euclidean distance untuk beberapa kasus tertentu. Salah satu keunggulan yang banyak dibahas adalah kemampuan DTW dalam menghitung jarak dengan panjang data yang berbeda. Eros distance adalah metode perhitungan jarak yang paling akhir diperkenalkan, dari pada metode euclidean distance dan DTW. Metode ini dikhususukan sebagai metode perhitungan jarak untuk data MTS. Seperti halnya DTW, metode eros distance juga mampu memproses data MTS dengan panjang yang berbeda (Yang dan Shahabi, 2004). Permasahalan pada klasifikasi secara umum, dan data MTS secara khusus, adalah permasalahan akurasi. Hasil klasifikasi yang ingin didapat pastilah klasifikasi dengan akurasi yang tinggi, bahkan kalau bisa mencapai 100%. Data yang bervariasi meskipun memiliki kelas yang sama, missing value, noise, serta data-data yang berada kelas namun dengan perbedaan spesifikasi data yang kecil, membuat klasifikasi dengan akurasi yang tinggi menjadi tantangan bagi semua peneliti, apalagi untuk mencapai akurasi 100%. Selain itu, jenis data MTS yang berbeda beda juga dapat memiliki spesifikasi yang berbeda, sehingga belum tentu memiliki akurasi yang sama. Permasalahan lain pada proses klasifikasi adalah waktu perhitungan. Permasalahan ini tidak absolut, yang berarti kadang menjadi concern kadang tidak. Tergantung konteks dari permasalahan. Selalu ada kondisi dimana kecepatan dalam mengambil kesimpulan menjadi faktor yang penting untuk diperhatikan. Sementara perhitungan data MTS yang kompleks, jumlah variabel yang banyak serta jumlah data masingmasing variabel yang relatif panjang akan membuat proses perhitungan data MTS menjadi lebih lama daripada proses perhitungan data selain MTS. 1.2 Perumusan Masalah Dari latar belakang di atas, maka dapat dirumuskan masalah untuk tesis ini adalah belum adanya penelitian yang membandingkan pengaruh metode perhitungan jarak Euclidean Distance, DTW dan Eros terhadap kinerja metode knn pada proses klasifikasi data MTS. Seberapa besar pengaruh metode perhitungan jarak tersebut pada permasalahan klasifikasi data MTS.
3 1.3 Tujuan Penelitian Berdasarkan perumusan masalah di atas maka tujuan penelitian ini adalah mengukur pengaruh metode perhitungan jarak Euclidean Distance, DTW dan Eros terhadap kinerja dari metode klasifikasi knn pada data MTS. Tujuan ini dapat dicapai dengan melakukan percobaan beberapa metode perhitungan jarak dikombinasikan dengan metode knn. Percobaan perlu dilakukan dengan beberapa data berbeda agar lebih bervariasi sehingga memberikan hasil yang lebih baik. 1.4 Manfaat Penelitian Dengan mengacu pada tujuan penelitian di atas, maka manfaat penelitian yang diharapkan adalah dapat memberikan metode perhitungan jarak yang tepat untuk metode klasifikasi knn pada data MTS. Manfaat ini diharapkan akan memudahkan peneliti berikutnya dalam menentukan metode perhitungan jarak mana yang tepat dikombinasikan dengan metode klasifikasi knn. 1.5 Batasan Masalah Batasan masalah dari aplikasi ini adalah sebagai berikut: 1. Pengujian hanya dilakukan pada tiga data MTS, yaitu data ECG, CMU dan Wafer. 2. Penelitian hanya melihat dari sisi akurasi, kepekaan, kekhasan dan kecepatan. 1.6 Metode Penelitian Metode penelitian yang akan dilakukan, secara garis besar, dapat dilihat pada Gambar 1.1. Adapun langkah-langkah penelitian yang akan dilakukan adalah : 1. Akusisi Pengetahuan Pada tahapan ini, dilakukan proses pengumpulan data. Untuk data berupa pengetahuan tentang data MTS dan klasifikasi data MTS didapat dengan melakukan studi pustaka. Data MTS di dapat dari Baydogan dan Runger (2015). Data tersebut diolah untuk mendapatkan pengetahuan tentang spesifikasi data seperti jumlah item, jumlah variabel, jumlah label (kelas), jumlah item per label dan rata-rata panjang variabel.
4 Gambar 1.1: Metode dari penelitian yang dilakukan 2. Perancangan Model Pelatihan Setelah diketahui spesifikasi data, maka selanjutnya dirancang model yang akan digunakan dalam proses pelatihan nanti. Model yang dirancang akan disesuaikan dengan metode Eros untuk mendapatkah hasil pelatihan yang terbaik. 3. Perancangan Model Pengujian/Klasifikasi Selanjutnya, dirancang model untuk proses klasifikasi. Perancangan model akan lebih dispesifikasikan untuk metode knn dengan input berupa data yang ingin di klasifikasikan serta hasil dari proprosesing dari setiap data. 4. Implementasi Setelah model pelatihan dan model klasifikasi selesai dirancang maka sistem dapat mulai dikembangkan berdasarkan model yang telah dibuat. Pengembangan model dapat dilakukan secara paralel antara model pelatihan maupun model pengujian walaupun sebenarnya input model pengujian bergantung pada output model pelatihan. 5. Pengujian Data dari Baydogan dan Runger (2015) akan digunakan dalam proses pengujian. Data tersebut telah dibagi menjadi 2, yaitu data latih dan data uji. Data latih akan digunakan pada proses pelatihan atau sebagai pengetahuan awal dari sistem sedangkan data latih adalah data yang akan diklasifikasikan dengan menggunakan sistem. Akurasi, kepekaan (sensitivity) dan kekhasan (spesificity) akan digunakan untuk mengetahui ketepatan dari sistem yang dikembangkan. Waktu proses akan digunakan untuk mengetahui kecepatan dari sistem yang
5 dikembangkan. Rumus yang digunakan untuk menghitung akurasi adalah: akurasi = Jumlah hasil pengujian benar Jumlah Data P engujian 100 (1.1) Rumus dari kepekaan adalah: kepekaan = Jumlah true positif Jumlah true positif + Jumlah false negatif Rumus dari kekhasan adalah: kekhasan = 100 (1.2) Jumlah true negatif 100 (1.3) Jumlah true negatif + Jumlah false positif dimana true positif adalah data yang sebenarnya kelas 1 benar dikategorikan sebagai kelas 1. False negatif adalah data yang sebenarnya kelas 1 salah dikategorikan sebagai kelas 2. True negatif adalah data yang sebenarnya kelas 2 benar dikategorikan sebagai kelas 2. Sedangkan false positif adalah data yang sebenarnya kelas 2 salah dikategorikan sebagai kelas 1. Akurasi, kepekaan, kekhasan dan waktu proses yang didapat dari rumus di atas akan dibandingkan dengan hasil yang bersesuaian dengan menggunakan metode Euclidean Distance dan DTW. Perbandingan yang dilakukan adalah dengan membandingkan nilai dari setiap parameter kinerja antara metode Eros dengan metode pembanding untuk mengetahui kemampuan dari Eros. 1.7 Sistematika Penulisan Sistematika penulisan yang digunakan dalam menyusun tesis ini adalah sebagai berikut: 1. BAB I Pendahuluan Bab ini merupakan overview dari tulisan ini. Pendahuluan menjelaskan latar belakang masalah, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metode penelitian yang digunakan, sistematika penulisan serta keaslian tesis ini. Tujuan dari bab ini agar pembaca mengetahui arah dari penelitian yang dilakukan.
6 2. BAB II Tinjauan Pustaka Berisi daftar dari pustaka-pustaka yang digunakan sebagai referensi penulisan tesis ini, disertai perbadingan dalam bentuk tabel. Beberapa poin penting pada pustaka-pustaka tersebut dibahas terutama yang berhubungan dengan penelitian ini. 3. BAB III Landasan Teori Bab ini membahas teori-teori yang menjadi landasan topik pada tesis ini. Landasan teori yang dibahas mencakup Algoritma knn, metode Eros, euclidean distance dan Dynamic Time Warping. Rumus dan persamaan yang digunakan pada tiap metode, serta ilustrasi dasar tentang metode yang digunakan. 4. BAB IV Analisis dan Perancangan Sistem Bab ini berisi rancangan dan spesifikasi sistem yang akan dibangun. Rancangan mencakup class diagram dan activity diagram. Selain itu, juga dibahas perhitungan manual dari masing-masing metode dalam contoh yang sederhana. 5. BAB V Implementasi Bab ini membahas tentang implementasi dari sistem. Bagaimana Algoritma knn dikombinasikan dengan setiap similarity measure dibuat dalam format bahasa pemrograman. Setiap baris dari potongan program yang berperan penting dalam sistem dibahas secara mendetail pada bab ini. 6. BAB VI Pembahasan Pada bagian ini dibahas hasil dari implementasi. Hasil dari setiap metode untuk setiap data dibahas dengan detail pada bab ini. Pembahasan mencakup nilai akurasi, kepekaan, kekhasan dan juga waktu proses dari setiap metode. 7. BAB VII Penutup Dalam bab ini ditampilkan kesimpulan yang diperoleh dari penelitian yang telah dilakukan. Kesimpulan yang diambil untuk menjawab permasalahan yang ada pada Bab I. Selain kesimpulan, juga ada saran-saran untuk penelitian atau pengembangan selanjutnya. Hal-hal yang mungkin bisa dilakukan untuk mendapatkan hasil yang lebih baik lagi.
7 1.8 Keaslian Tesis Berdasarkan studi pustaka yang dilakukan penulis, penulis menemukan penelitian klasifikasi data MTS sudah pernah dilakukan. Namun belum ada yang membandingkan metode perhitungan jarak Euclidean Disatnce, Dynamic Time Warping dan Eros pada metode knn untuk melakukan klasifikasi. Peneliti yang memperkenalkan Eros hanya menggunakan metode tersebut untuk proses pencarian.