BAB 2 TINJAUAN PUSTAKA

Transkripsi

1 BAB 2 TINJAUAN PUSTAKA 2.1 Pendahuluan Revolusi digital telah membuat manusia makin mudah untuk menangkap, memproses, menyimpan, mendistribusikan, dan mengirimkan informasi digital. Dengan kemajuan yang signifikan dalam komputasi dan teknologi yang terus berkembang, sejumlah besar karakteristik data yang beragam terus terkoleksi dan disimpan dalam database. volume data yang tersimpan berkembang sangat fenomenal. Penemuan pengetahuan dari volume data yang sangat besar merupakan sebuah tantangan. Kecanggihan teknologi manajemen database dewasa ini memungkinkan untuk mengintegrasikan berbagai jenis data seperti video, gambar, teks, dan data numerik maupun non-numerik lainnya dalam database tunggal untuk memfasilitasi pengolahan multimedia. Akibatnya gabungan teknik statistik dan alat-alat manajemen data tradisional tidak lagi memadai untuk menganalisis koleksi data campuran ini. Teknik data mining merupakan solusi yang mungkin (Chakrabarti et al.2009). 2.2 Data Mining : Knowledge Discovery Databases (KDD) Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual (Pramudiono, 2006). Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar (Larose, 2005). Data mining sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran

2 dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santoso, 2007). Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005). Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat dicirikan dengan (Piatetsky & Shapiro, 2006) : Memerlukan keputusan yang bersifat knowlegde-based. Mempunyai lingkungan yang berubah. Metode yang ada sekarang bersifat sub-optimal. Tersedia data yang bisa diakses, cukup dan relevan. Memberikan keuntungan yang tinggi jika keputusan yang ambil tepat. Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa metode yang sering disebut-sebut dalam literatur data mining antara lain clustering, classification, association rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2006).

3 Data mining sering digunakan untuk membangun model prediksi/inferensi yang bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan analisis data terstruktur. Dalam konteks ini, prediksi adalah pembangunan dan penggunaan model untuk menilai kelas dari contoh tanpa label, atau untuk menilai jangkauan nilai atau contoh yang cenderung memiliki nilai atribut. Klasifikasi dan regresi adalah dua bagian utama dari masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilai diskrit atau nominal sedangkan regresi digunakan untuk memprediksi nilai terusmenerus atau nilai yang ditentukan (Larose, 2005). 2.3 Tahapan Data Mining Data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996) Gambar 2.1 Data Mining : Proses KDD Sumber : Fayyad 1996 Menurut Kusrini (Kusrini & Emha, 2009) proses KDD dapat diuraikan sebagai berikut : Seleksi Data (Data Selection)

4 Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari database operasional. Pra-pemrosesan / Pembersihan (Pre-processing / Cleaning) Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. Transformasi (Transformation) Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam database. Data mining Data mining adalah proses mencari pola atau informasi menarik dalam data yang terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. Interpretasi / Evaluasi (Interpretation / Evaluation) Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

5 2.4 Pengelompokan Data Mining Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) : 1. Deskripsi (Description) Terkadang penelitidan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan. 2. Estimasi (Estimation) Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya. 3. Prediksi (Prediction) Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan penelitian adalah : Prediksi harga beras dalam tiga bulan yang akan datang. Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikkan. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

6 4. Klasifikasi (Classification) Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah : Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk. Mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit apa. 5. Pengklusteran (Clustering) Pengklusteran merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal. Contoh pengklusteran dalam bisnis dan penelitian adalah : Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar. Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam baik dan mencurigakan. 6. Asosiasi (Assosiation)

7 Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah : Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons positif terhadap penawaran upgrade layanan yang diberikan. 2.5 Algoritma Clustering (Clustering Algorithm) Clustering (pengelompokan data) mempertimbangkan sebuah pendekatan penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar daripada diantara kelompok-kelompok (Rui Xu & Donald 2009). Gagasan mengenai pengelompokan data, atau clustering, memiliki sifat yang sederhana dan dekat dengan cara berpikir manusia; kapanpun kepada kita dipresentasikan jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang besar ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori untuk memfasilitasi analisanya lebih lanjut. Selain dari itu, sebagian besar data yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang melekat yang mengalami pengelompokan-pengelompokan natural (Hammouda & Karray, 2003). Namun demikian, penemuan pengelompokan-pengelompokan ini atau upaya untuk mengkategorikan data adalah bukan sebuah tugas yang sederhana bagi manusia kecuali data memiliki dimensionalitas rendah (dua atau tiga dimensi paling banyak). Inilah sebabnya mengapa beberapa metode dalam soft computing telah dikemukakan untuk menyelesaikan jenis masalah ini. Metode ini disebut Metode-metode Pengelompokan Data (Hammouda & Karray, 2003).

8 Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat bermanfaat untuk kompresi data dan konstruksi model. Melalui pencarian kesamaan dalam data, seseorang dapat merepresentasikan data yang sama dengan lebih sedikit simbol misalnya. Juga, jika kita dapat menemukan kelompok-kelompok data, kita dapat membangun sebuah model masalah berdasarkan pengelompokan-pengelompokan ini (Dubes & Jain, 1988). Clustering menunjuk pada pengelompokan record, observasi-observasi, atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah sekumpulan record yang adalah sama dengan satu sama lain dan tidak sama dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak ada variabel target untuk clustering. Tugas clustering tidak mencoba untuk mengklasifikasikan, mengestimasi, atau memprediksi nilai variabel target (Larose, 2005). Bahkan, algoritma clustering berusaha mensegmentasikan seluruh kumpulan data ke dalam subkelompok-subkelompok atau cluster-cluster homogen secara relatif. Dimana kesamaan record dalam cluster dimaksimalkan dan kesamaan dengan record diluar cluster ini diminimalkan. Clustering sering dilaksanakan sebagai langkah pendahuluan dalam proses pengumpulan data, dengan cluster-cluster yang dihasilkan digunakan sebagai input lebih lanjut ke dalam sebuah teknik yang berbeda, seperti neural network. Karena ukuran yang besar dari banyak database yang dipresentasikan saat ini, maka sering sangat membantu untuk menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma-algoritma downstream. Aktivitas clustering pola khusus meliputi langkah-langkah berikut (Dubes & Jain, 1988) : (I) (II) (III) (IV) Representasi pola (secara opsional termasuk ekstraksi dan/atau seleksi sifat) Definisi ukuran kedekatan pola yang tepat untuk domain data Clustering pengelompokan Penarikan data (jika dibutuhkan), dan

9 (V) Pengkajian output (jika dibutuhkan). Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering. Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat (fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik. Pertimbangkan dataset X yang terdiri dari point-point data (atau secara sinonim, objek-objek, hal-hal, kasus-kasus, pola, tuple, transaksi) x i = (x i1,, x id ) Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menentukan point-point pada sebuah sistem terbatas dari subset k, cluster. Biasanya subset tidak berpotongan (asumsi ini terkadang dilanggar), dan kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan outlier. C i adalah sekelompok point data dalam dataset X, dimana X = C i.. C k.. C outliers, C j1.. C j2 = Clustering Hirarkhi (Hierarchical Clustering) Clustering hirarkhi membangun sebuah hirarkhi cluster atau, dengan kata lain, sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarkhi dikategorikan ke dalam agglomeratif (bawah-atas) dan divisive (atas-bawah) (Jain & Dubes, 1988; Kaufman & Rousseeuw, 1990). Clustering agglomeratif dimulai dengan cluster satu point (singleton) dan secara berulang menggabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria

10 penghentian (seringkali, jumlah k yang diperlukan dari cluster) dicapai. Kelebihan cluster hirarkhi meliputi: (I) (II) (III) Fleksibilitas yang tertanam mengenai level granularitas Kemudahan menangani bentuk-bentuk kesamaan atau jarak Pada akhirnya, daya pakai pada tipe-tipe atribut apapun. Kelemahan dari clustering hirarkhi berhubungan dengan: (I) (II) ketidakjelasan kriteria terminasi Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi. Untuk clustering hirarkhi, menggbungkan atau memisahkan subset dari point-point dan bukan point-point individual, jarak antara point-point individu harus digeneralisasikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik hubungan yang digunakan secara signifikan mempengaruhi algoritma hirarkhi, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Metrik hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua metrik hubungan diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams (Lance & Williams, 1967). D(C i C j, C k = ɑ (i) d (C i, C k ) + ɑ (k) d (C j, C k ) + bd (C i, C j ) + c d (C i, C k ) d (C j, C j ) (2.1) Dimana, a, b, c, adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah metrik hubungan antara kesatuan dari dua cluster dan cluster ketiga dalam bentuk komponen-komponen yang mendasari. Clustering hirarkhi berdasarkan metrik hubungan mengalami kompleksitas waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi (metodemetode grafik memenuhi kondisi ini), metode-metode metrik hubungan memiliki kompleksitas (N 2 ) (Olson 1995).

11 Metrik-metrik hubungan berdasarkan jarak Euclidean untuk clustering hirarkhi dari data spatial secara natural mempengaruhi cluster-cluster dari bentukbentuk convex yang tepat. Sementara itu, scanning visual dari gambar-gambar spatial sering memperlihatkan cluster-cluster dengan tampilan curvy. Dalam linguistik, pencarian informasi, dan taksonomi biner aplikasi clustering dokumen adalah sangat membantu. Metode-metode aljabar linear, yang didasarkan pada dekomposisi nilai singular (Singular Value Decomposition - SVD) digunakan untuk tujuan ini dalam filtering kolaboratif dan pencarian informasi (Berry & Browne, 1999). Aplikasi SVD terhadap clustering divisive hirarkhi dari kumpulan dokumen menghasilkan algoritma PDDP (Principal Direction Divisive Partitioning) (Boley, 1998). Algoritma ini membagi dua data dalam ruang Euclidean dengan sebuah hyperplane yang mengalir melalui centroid data secara ortogonal pada eigenvector dengan nilai singular yang besar. Pembagian cara k juga memungkinkan jika k nilai singular terbesar dipertimbangkan. Divisive hirarkhi yang membagi dua rata-rata k terbukti (Steinbach et al. 2000) dapat dipilih untuk clustering dokumen. Algoritma clustering hirarkhi populer untuk data kategorikal COBWEB (Fisher, 1987) memiliki dua kualitas yang sangat penting. Pertama, menggunakan pembelajaran incremental. Daripada mengikuti pendekatan divisive atau agglomerative, secara dinamis membangun sebuah dendrogram melalui pengolahan satu point data pada suatu waktu. Kedua, COBWEB termasuk pada pembelajaran berdasarkan konseptual atau model. Ini berarti bahwa setiap cluster dianggap sebagai sebuah model yang dapat dijelaskan secara intrinsik, dan bukan sebagai sebuah kumpulan point yang ditentukan terhadapnya. Dendrogram COBWEB disebut pohon klasifikasi. Setiap node pohon C, sebuah cluster, berhubungan dengan probabilitas kondisional untuk pasangan-pasangan nilai-nilai atribut kategorikal, yakni : P r (X i = v lp C), l = 1 : d,p = 1 A l (2.2)

12 2.5.2 Clustering Partisional (Partional Clustering) Dengan mengetahui objek-objek database n, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria clustering, seperti minimisasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster. Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokan yang memungkinkan dan berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya. Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk kumpulan point-point awal yang berbeda (yang dianggap sebagai representatif) dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau tidak. Algoritma-algoritma clustering partisional berusaha memperbaiki secara lokal sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau jarak, mengurutkan hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy. Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang konseptual yang mengidentifikasikan cluster dengan model tertentu yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang distribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode probabilistis adalah daya interpretasi dari cluster-cluster yang dibuat. Dengan memiliki representasi cluster yang tepat juga memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari kesesuaian yang memberikan fungsi objektif global. Pendekatan lain dimulai dengan definisi fungsi objektif yang tergantung pada sebuah pembagian (partition). Tergantung pada bagaimana representatif dibuat, algoritma-algoritma partitioning optimisasi iteratif dibagi lagi ke dalam metode-metode K-Medoids dan K-means.

13 Dalam pendekatan probabilistis, data dianggap sebuah sampel yang diambil secara independen dari sebuah model campuran dari beberapa distribusi probabilitas (McLachlan & Basford, 1988). Asumsi utama adalah point-point data dihasilkan melalui, pertama, pengambilan secara acak model j dengan probabilitas τ j, J = 1; k, dan, kedua, melalui pengambilan point x dari sebuah distribusi yang sesuai. Daerah sekitar rata-rata dari setiap distribusi (anggaplah unimodal) membentuk sebuah cluster natural. Kemungkinan menyeluruh dari data pelatihan adalah probabilitasnya untuk ditarik dari sebuah model campuran tertentu. L(X C) = Π i =1:N j=1:k =τ j P r (X i C j ) (2.3) Algoritma SNOB (Wallace & Dowe, 1994) menggunakan model campuran bersama dengan Minimum Message Length (MML) principal. Algoritma AUTOCLASS (Cheeseman & Stutz, 1996) menggunakan model campuran dan meliputi varietas distribusi yang luas, termasuk Bernoulli, Poisson, gaussian, dan distribusi-distribusi lognormal. Clustering probabilistis memiliki beberapa sifat penting: (I) (II) (III) (IV) Dapat memodifikasi untuk menangani record dari struktur kompleks. Dapat dihentikan dan dimulai kembali dengan batch data konsekutif, karena cluster-cluster memiliki representasi yang berbeda secara total dari kumpulan point-point. Pada tahap apapun dari proses iteratif, model campuran intermediate dapat digunakan untuk menentukan kasus-kasus (property on-line). Menghasilkan sistem cluster yang dapat diinterpretasikan dengan mudah. Dalam metode-metode K-Medoids, cluster direpresentasikan oleh salah satu pointnya. Ketika Medoids dipilih, cluster didefinisikan sebagai subset point-point yang dekat dengan Medoid respektif, dan fungsi objektif didefinisikan sebagai jarak yang dirata-ratakan atau ukuran ketidaksamaan lainnya antara sebuah point dan Medoids-nya. Untuk versi-versi awal dari metode-metode k-medoids adalah algoritma PAM (Partitioning around Medoids) dan algoritma CLARA (Clustering LARge Applications) (Kaufmann & Rousseeuw, 1990). CLARANS (Clustering

14 Large Applications berdasarkan Upon RANdomized Search) dalam konteks clustering dalam database spatial. 2.6 Analisis Cluster Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin (Prayudho, 2008) Tujuan Analisis Cluster : 1. Untuk mengelompokkan objek-objek (individu-individu) menjadi kelompokkelompok yang mempunyai sifat yang relatif sama (homogen). 2. Untuk membedakan dengan jelas antara satu kelompok (cluster) dengan kelompok lainnya. Adapun manfaat Analsis Cluster sebagai berikut: 1. Untuk menerapkan dasar-dasar pengelompokan dengan lebih konsisten. 2. Untuk mengembangkan suatu metode generalisasi secara induktif, yaitu pengambilan kesimpulan secara umum dengan berdasarkan fakta-fakta khusus. 3. Menemukan tipologi yang cocok dengan karakter obyek yang diteliti. 4. Mendiskripsikan sifat-sifat / karakteristik dari masing-masing kelompok. Analisis cluster dilakukan dengan langkah-langkah berikut: 1. Merumuskan permasalahan. 2. Memilih ukuran jarak atau kesamaan. 3. Memilih prosedur pengklusteran. 4. Menetapkan jumlah cluster.

15 5. Interpretasi dan profil dari cluster. 6. Menaksir reliabilitas dan validitas. 2.7 Metode Kernel (Kernel Methods) Pendahuluan. Machine learning untuk penelitian pengolah sinyal sangat dipengaruhi oleh metode yang populer kernel Mercer (Cristianini & Taylor, 2000). Point utama dalam metode kernel adalah apa yang disebut "kernel trick", yang memungkinkan penghitungan dalam beberapa inner product, kemungkinan dengan dimensi yang tidak terbatas, ruang fitur. Anggaplah x i dan x j adalah dua point data ruang input. Jika fungsi kernel k (.,.) memenuhi kondisi Mercer maka: k (xi, x j ) = {Φ(x i ),Φ(x j )} (2.4) Dimana (.,.) menunjukkan inner product, dan Φ (.) menunjukkan pemetaan non-linier dari ruang input ke ruang fitur kernel. Kernel trick memungkinkan pelaksanaan dari algoritma pembelajaran, yang dinyatakan dalam bentuk inner product ruang fitur kernel. Metode-metode Kernel adalah algoritma yang secara implisit melaksanakan, melalui penggantian inner product dengan Kernel Mercer yang tepat, sebuah pemetaan nonlinear dari data input ke ruang fitur berdimensi tinggi (Vapnik, 1995). Metodemetode kernel yang sangat disupervisi telah dikembangkan untuk menyelesaikan masalah-masalah klasifikasi dan regresi. K-means adalah algoritma unsupervised learning yang membagi kumpulan data ke dalam sejumlah cluster yang dipilih dibawah beberapa ukuran-ukuran optimisasi. Sebagai contoh, kita sering ingin meminimalkan jumlah kuadrat dari jarak Euclidean antara sampel dan centroid. Asumsi di belakang ukuran ini adalah keyakinan bahwa ruang data terdiri dari daerah elliptical yang terisolasi. Meskipun demikian, asumsi tersebut tidak selalu ada pada aplikasi spesifik. Untuk

16 menyelesaikan masalah ini, sebuah gagasan meneliti ukuran-ukuran lain, misalnya kesamaan kosinus yang digunakan dalam pencarian informasi. Gagasan lain adalah memetakan data pada ruang baru yang memenuhi persyaratan untuk ukuran optimisasi. Dalam hal ini, fungsi kernel merupakan pilihan yang baik Fungsi Kernel (Kernel Function) Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai contoh, SVM (support vector machine) dan Perceptron memerlukan data yang tidak dapat dipisahkan secara linear, sedangkan K-means dengan jarak Euclidean mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada data, dengan memetakan mereka pada ruang baru di mana machine learning dapat digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk mendefinisikan transformasi. Anggaplah kita diberikan sekumpulan sampel x 1, x 2, x 3,, x N, dimana x i ε R D, dan fungsi pemetaan Φ yang memetakan x i dari ruang input R D pada ruang baru Q. Fungsi kernel didefinisikan sebagai dot product dalam ruang baru Q: H (xi, x j ) = Φ(x i ). Φ (x j ) (2.5) Sebuah fakta penting mengenai fungsi kernel adalah bahwa fungsi ini dibangun tanpa mengetahui bentuk konkrit dari Φ, yaitu, transformasi yang didefinisikan secara implisit. Tiga fungsi kernel yang secara umum tercantum di bawah ini: PolynomialH (xi, x j ) = (x i. x j + 1 ) d (2.6) Radial H (xi, x j ) = exp (-r X i X j 2 ) (2.7) Neural H (xi, x j ) = tanh ( ax i. x j + b) (2.8) Kelemahan utama dari fungsi Kernel meliputi, pertama, beberapa sifat dari ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga

17 kekurangan bentuk eksplisit untuk Φ. Kedua, penentuan bentuk kernel yang tepat untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen. Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin luas.

18 2.7.3 Kernel Trick Dot product sering dianggap sebagai ukuran kesamaan antara dua vektor input. Dot product Φ(x i ). Φ(x j ) dapat dianggap sebagai ukuran kesamaan antara dua jarak x i dan x j, dalam ruang yang ditransformasikan. Kernel trick adalah suatu metode untuk menghitung kesamaan dalam ruang yang ditransformasikan dengan menggunakan kumpulan atribut orisinal. Pertimbangkan pemetaan fungsi Φ yang diberikan dalam persamaan (2.9). Φ = ( x 1, x 2 ) (x 2 1, x 2 2, 2x R1, 2x R2, 1) (2.9) Dot product antara dua vektor input u dan v dalam ruang yang ditransformasikan dapat ditulis sebagai berikut: Φ(u). Φ(v) = (u 2 1 u 2 2, 2u R1, 2u R2, 1). (v 2 1 v 2 2, 2v R1, 2v R2 = u 2 1 v 2 1, +u v 2, + 2u1 v1+ 2 u2 v2 + 1 = (u. v + 1 ) 2 Analisa ini memperlihatkan bahwa dot product dalam ruang yang ditransformasikan dapat dinyatakan dalam bentuk fungsi kesamaan dalam ruang orisinal: K( u, v ) = Φ(u). Φ (v) = (u. v + 1 ) 2, 1) (2.10) Fungsi kesamaan, K, yang dihitung dalam ruang atribut orisinal, dikenal sebagai fungsi kernel. Kernel trick membantu mengatasi beberapa kecemasan tentang cara mengimplementasikan pada Support Vector Machine (SVM) nonlinear. (2.11) Pertama, kita tidak harus mengetahui bentuk yang tepat dari pemetaan fungsi Φ karena fungsi-fungsi kernel yang digunakan dalam SVM nonlinier harus memenuhi prinsip matematika yang dikenal sebagai Mercer s Theorem. Prinsip ini memastikan bahwa fungsi kernel dapat selalu dinyatakan sebagai dot product antara dua vektor input dalam beberapa ruang dengan dimensi tinggi. Ruang yang ditransformasikan dari kernel SVM disebut Reproducing kernel Hilbert space (RKHS). Kedua, penghitungan dot product yang menggunakan fungsi kernel adalah lebih mudah dengan menggunakan transformasi atribut set Φ (x). Ketiga, karena penghitungan

19 merupakan hasil dalam ruang orisinal, maka isu-isu yang berhubungan dengan masalah dimensi dapat dihindari Algoritma-algoritma Representatif Pendahuluan Sub Bab ini merupakan sebuah bagian metodologi dari penelitian ini. Dimulai dengan penjelasan-penjelasan menenai algoritma-algoritma representatif detail yang akan digunakan dalam penelitian ini. Diberikan sebuah kajian singkat mengenai konsep dasar dari algoritma K-Means clustering dan memperluas pada algoritma Kernel K-Means clustering Algoritma K-Means Clustering (K-Means Clustering Algorithm) K-Means (MacQueen, 1967) adalah salah satu dari algoritma unsupervised learning yang paling sederhana untuk menyelesaikan masalah clustering yang telah dikenal. Prosedur ini mengikuti cara sederhana dan mudah untuk mengklasifikasikan kumpulan data tertentu melalui jumlah cluster tertentu (menganggap k cluster) yang telah ditetapkan sebelumnya. Gagasan utama adalah mendefinisikan centroid k, satu untuk setiap cluster. Centroid ini harus ditempatkan dengan cara yang cerdik karena lokasi yang berbeda menyebabkan hasil yang berbeda. Oleh karena itu, pilihan terbaik adalah menempatkan mereka sejauh mungkin dari satu dengan yang lain. Langkah berikutnya adalah mengambil setiap point yang termasuk pada kumpulan data tertentu dan menghubungkannya dengan centroid yang terdekat. Apabila tidak ada point yang menantikan, maka langkah pertama diselesaikan dan groupage secara dini dilakukan. Pada point ini kita perlu mengkalkulasi kembali centroid baru k dari cluster yang berasal dari langkah sebelumnya. Setelah kita memiliki centroid baru k ini, pengikatan baru harus dilakukan antara point-point kumpulan data yang sama dan centroid baru terdekat. Sebuah loop telah dihasilkan. Karena loop ini, maka kita

20 dapat mengetahui bahwa centroid k mengubah lokasi mereka langkah demi langkah hingga tidak ada lagi perubahan yang dilakukan. Dengan kata lain, centroid tidak bergerak lagi. Akhirnya, algoritma ini membantu meminimalkan fungsi objektif, dalam hal ini sebuah fungsi kesalahan kuadrat. Sekumpulan vektor n x j, j = 1, n, akan dibagi ke dalam kelompokkelompok c G i, i=1, c. Fungsi biaya didasarkan pada jarak Euclidean antara vektorvektor x k dalam kelompok j dan pusat-pusat cluster c i yang sesuai, dapat didefinisikan melalui: Dimana j i c c j = i=1 j i = i=1( x k c i 2 ) (2.12) k,x k G i = k,x k G i x k c i 2 adalah fungsi biaya dalam kelompok i. Kelompok-kelompok yang dibagi didefinisikan oleh matriks keanggotaan biner c x n, U, dimana elemen uij adalah 1 jika point data ke-j x j termasuk pada kelompok i dan 0 atau sebaliknya. Begitu pusat cluster c i ditetapkan, peminimalan u ij untuk Persamaan (2.11) dapat diperoleh sebagai berikut: 1, if x j c i 2 x j c k 2, for each k i (2.13) 0, otherwise Yang berarti bahwa x j termasuk pada kelompok i jika c i adalah pusat terdekat diantara semua pusat. Sebaliknya, jika matriks keanggotaan ditetapkan, yakni jika u ij ditetapkan, maka pusat optimal c i yang meminimalkan persamaan (2.12) adalah ratarata dari semua vektor dalam kelompok i : 1 c N i G i k,x k G i X Rk (2.14) Dimana G i adalah ukuran dari G i, or G i = Algoritma dipresentasikan dengan kumpulan data xi, i = 1,, n ; kemudian menentukan pusat cluster c i dan matriks keanggotaan U secara iteratif dengan menggunakan langkah berikut: n j=1 u Rij

21 Algoritma 2.1 Langkah 1 Menginisialisasikan pusat cluster, c i, i=1,,c. Ini biasanya dilakukan melalui pemilihan secara acak pointpoint c diantara semua point-point data. Langkah 2 Menentukan matriks keanggotaan U melalui persamaan (2.11). Langkah 3 Menghitung fungsi biaya menurut persamaan (2.10). Hentikan jika berada dibawah nilai toleransi tertentu atau perbaikannya terhadap iterasi sebelumnya adalah dibawah batas ambang tertentu. Langkah 4 Perbaharui pusat-pusat cluster menurut persamaan (6.12). Lanjutkan ke langkah 2. Walaupun dapat dibuktikan bahwa prosedur tersebut akan selalu berakhir, algoritma k-means tidak perlu mencari konfigurasi yang paling optimal, yang sesuai dengan minimum fungsi objektif global. Algoritma ini juga secara signifikan sensitif terhadap pusat-pusat cluster yang dipilih secara acak pada awalnya. Algoritma k- means dapat dijalankan beberapa kali untuk mengurangi efek ini Kernel K-Means Clustering Metode kernel pertama dan barangkali yang paling tepat adalah Support Vector Machine (SVM) (Burges, 1998), yang mengopotimalkan kriteria margin maksimum dalam ruang fitur kernel. Algoritma k-means barangkali telah menjadi teknik clustering populer sejak diperkenalkan dalam era 1960an. Ini memaksimalkan jarak Euclidean kuadrat antara pusat-pusat cluster. Meskipun demikian, telah diketahui bahwa ini hanya optimal untuk (yang dapat dipisahkan secara linear) cluster terdistribusi Gaussian. Metode yang berbeda untuk melaksanakan algoritma ini dalam ruang kernel yakni kernel k-means telah diperoleh. Dalam (Zang & Alexander, 2006) teknik optimisasi stochastic dikembangkan dengan menggunakan

22 kernel trick, sedangkan dalam (Girolami, 2002) pemetaan data aktual diperkirakan melalui eigenvector dari apa yang disebut matriks kernel. Secara eksperimental, penelitian-penelitian ini memperlihatkan bahwa keterbatasan k-means biasa telah teratasi, dan hasil yang baik dicapai juga untuk kumpulan-kumpulan data yang memiliki batasan-batasan cluster nonlinear. Motivasi untuk keinginan melaksanakan K-means dalam ruang fitur kernel dinyatakan secara longgar sebagai masalah kemampuan memisahkan nonlinear yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang data berdimensi yang lebih tinggi dengan cara nonlinear sehingga setiap cluster untuk setiap kelas membentang ke dalam bentuk sederhana. Meskipun demikian, tidak jelas bagaimana kernel K-means berhubungan dengan sebuah operasi pada kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel dengan sifatsifat kumpulan data input. Beberapa pemikiran yang disebutkan pada point-point ini telah dibuat dalam (Girolami, 2002; Cristianini & Taylor, 2000). Biasanya perluasan dari k-means ke kernel k-means direalisasi melalui pernyataan jarak dalam bentuk fungsi kernel (Girolami, 2002; Muller et al 2003). Meskipun demikian, implementasi tersebut mengalami masalah serius seperti biaya clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau memori yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya tidak dapat sesuai untuk corpora yang besar. Anggaplah kumpulan data memiliki N sampel x 1, x 2, x N. Algoritma K- means bertujuan untuk membagi sampel N ke dalam cluster K, C 1, C 2,, C K, dan kemudian mengembalikan pusat dari setiap cluster, m 1, m 2,., m K sebagai representatif dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan ke dalam code book point K. Algoritma K-means clustering mode batch yang menggunakan jarak Euclidean bekerja sebagai berikut:

23 Algoritma 2.2 Langkah 1 Langkah 2 Pilih awal pusat K: m 1, m 2,., m Menentukan setiap sample xi (1 i N ) pada pusat terdekat, yang membentuk cluster K. Yaitu, menghitung nilai fungsi indikator δ (x i, C k ), ( 1 k K ). K 1, D (x i, m k ) < D x i, m j for all j k 0, otherwise Langkah 3 Langkah 4 Hitunglah pusat baru m k untuk setiap cluster C k m k = 1 N c k i=1 δ (x i, C k )x i Dimana C k adalah jumlah sampel dalam C C k = N i=1 δ (x i, C k )x i Ulangi langkah 2 dan 3 hingga bertemu. Langkah 5 Menghasilkan m k ( 1 k K ) k Isu utama yang memperluas k-means tradisional ke kernel k-means adalah adalah penghitungan jarak dalam ruang baru. Anggaplah u i = Φ(x i ) menunjukkan transformasi x i. Jarak Euclidean antara u i dan u j ditulis sebagai: D 2 (u i,u j ) = Φ(x i ) Φ(x j ) Anggaplah z k 2 = Φ 2 (x i ) -2 Φ(x i ) Φ(x j ) + Φ 2 (x j ) = H (xi, x i ) - 2 H (x i, x i ) + H(x j, x j ) (2.15) adalah pusat cluster dalam ruang yang ditransformasikan dimana, z k = 1 N c k i=1 δ (u i, C k )u i (2.16) Dimana δ(u i, C k ) adalah fungsi indikator. Jarak antara u i dan z k berikut: dinyatakan sebagai D 2 (u i,z k ) = u i 1 N δ c k i=1 (u i, C k )u i 2

24 = H (x i, x i ) + f (x i, C k ) + g (C k ) (2.17) Dimana, f (x i, C k ) = 2 N δ u C k j=1 j, C k H(x i, x j ) (2.18) g(c k ) = 2 C k 2 N N j=1 i=1 δ u j, C k δ(u i, C k )H(x i, x j ) (2.19) Perbedaan utama antara kernel k-means dengan versi tradisional k-means ada di langkah 5, dalam algoritma Kernel K-means. Karena cluster dalam ruang yang ditransformasikan tidak dapat dinyatakan secara eksplisit, maka harus memilih pseudo centre. Dengan menggunakan (2.15) pada tradisional k-means, diperoleh kernel berdasarkan algoritma K-Means sebagai berikut: Algoritma 2.3 Langkah 1 Tentupkan δ(x i, C k )(1 i N, 1 k K ) dengan nilai awal, yang membentuk cluster initial K C 1, C 2,, C Langkah 2 Untuk setiap cluster Ck, hitunglah C k dan g(c k ). Langkah 3 Untuk setiap sample latihan xi dan cluster C k, hitunglah f(x i, C k ) dan kemudian tentukan x i pada cluster terdekat. δ(x i, C k ) 1, f(x i, C k ) + g (C k ) < f x i, C j + g C j for all j k 0, otherwise Langkah 4 Ulangi langkah 2 dan 3 hingga bertemu. Langkah 5 Untuk setiap cluster C k,, pilih sample yang terdekat dengan pusat sebagai representatif dari C k., m k = Arg min D(Φ (x i ), z k ). X i, dimana δ(x i, C k ) = 1 Dalam Persamaan (2.5) faktor H (x i, x i ) ) diabaikan karena tidak berkontribusi untuk menentukan cluster terdekat. Perbedaan utama antara kernel k- means dan versi tradisionalnya ada dalam langkah 5. K.

25 2.8 Riset-riset Terkait Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan prestasi akademik mahasiswa seperti yang akan dijelaskan dibawah ini : Yu et al. (2010) dalam risetnya menjelaskan mengenai sebuah pendekatan data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi tingkat daya ingat mahasiswa. Oyelade et al. (2010) dalam risetnya mengimplementasikan algoritma k-means clustering dikombinasikan dengan deterministic model untuk menganalisa hasil prestasi mahasiswa pada perguruan tinggi swasta. Paul Golding & Opal Donaldson dalam risetnya Predicting Academic Performance menguji hubungan prestasi akademik dengan prestasi matrikulasi di tahun pertama pada jurusan teknologi informasi. Yang mana prestasi pada tahun pertama memiliki hubungan yang signifikan dalam memprediksi prestasi mahasiswa. 2.9 Persamaan dengan Riset-riset lain Kruck dan Lending (2003) dalam penelitiannya menjelaskan sebuah model untuk memprediksi kinerja akademis di tingkat perguruan tinggi dalam mata kuliah pengantar sistem informasi. Ogor (2007) dalam penelitiannya menggunakan teknik data mining yang digunakan untuk membangun prototipe Penilaian Kinerja Monitoring System (PAMS) untuk mengevaluasi kinerja mahasiswa. Sembiring et al. (2009) menggunakan teknik data mining dalam pemantauan dan memprediksi peningkatan prestasi mahasiswa berdasarkan minat, perilaku belajar, pemanfaatan waktu dan dukungan orang tua di perguruan tinggi.

26 2.10 Perbedaan dengan Riset-riset lain Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik perbedaan dengan riset yang akan dilakukan ini : Analisa peningkatan indeks prestasi akademik dilakukan pada perguruan tinggi yang risetnya dilakukan di jurusan Elektro Politeknik Negeri Medan. Riset yang dilakukan penulis untuk membuat aturan atau rule berdasarkan rata-rata nilai teori, rata-rata nilai praktek dan kehadiran. Pada penelitian ini hasil akhir yang diharapkan dengan analisa peningkatan indeks prestasi akademik berdasarkan rata-rata nilai teori, rata-rata nilai praktek dan kehadiran untuk mendapatkan predikat dengan pujian dan sangat memuaskan sehingga dapat dibuat sebelum masa studi berakhir Kontribusi Riset Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan rata-rata nilai teori, rata-rata nilai praktek dan kehadiran untuk meningkatkan proses belajar mengajar yang ditunjukkan dengan nilai IP semester berdasarkan predikat yang telah ditentukan oleh perguruan tinggi. Pembuat keputusan bisa menggunakan model prediksi peningkatan indeks prestasi akademik untuk meningkatkan kualitas pengambilan keputusan. Penelitian ini memperkenalkan aplikasi metode Kernel K-Means Clustering untuk lembaga pendidikan tinggi.