BAB 2 TINJAUAN PUSTAKA

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB 2 TINJAUAN PUSTAKA"

Transkripsi

1 BAB 2 TINJAUAN PUSTAKA 2.1 Pendahuluan Revolusi digital telah membuat manusia makin mudah untuk menangkap, memproses, menyimpan, mendistribusikan, dan mengirimkan informasi digital. Dengan kemajuan yang signifikan dalam komputasi dan teknologi yang terus berkembang, sejumlah besar karakteristik data yang beragam terus terkoleksi dan disimpan dalam database. volume data yang tersimpan berkembang sangat fenomenal. Penemuan pengetahuan dari volume data yang sangat besar merupakan sebuah tantangan. Kecanggihan teknologi manajemen database dewasa ini memungkinkan untuk mengintegrasikan berbagai jenis data seperti video, gambar, teks, dan data numerik maupun non-numerik lainnya dalam database tunggal untuk memfasilitasi pengolahan multimedia. Akibatnya gabungan teknik statistik dan alat-alat manajemen data tradisional tidak lagi memadai untuk menganalisis koleksi data campuran ini. Teknik data mining merupakan solusi yang mungkin (Chakrabarti et al.2009). 2.2 Data Mining : Knowledge Discovery Databases (KDD) Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual (Pramudiono, 2006). Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar (Larose, 2005). Data mining sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran

2 dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santoso, 2007). Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005). Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat dicirikan dengan (Piatetsky & Shapiro, 2006) : Memerlukan keputusan yang bersifat knowlegde-based. Mempunyai lingkungan yang berubah. Metode yang ada sekarang bersifat sub-optimal. Tersedia data yang bisa diakses, cukup dan relevan. Memberikan keuntungan yang tinggi jika keputusan yang ambil tepat. Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa metode yang sering disebut-sebut dalam literatur data mining antara lain clustering, classification, association rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2006).

3 Data mining sering digunakan untuk membangun model prediksi/inferensi yang bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan analisis data terstruktur. Dalam konteks ini, prediksi adalah pembangunan dan penggunaan model untuk menilai kelas dari contoh tanpa label, atau untuk menilai jangkauan nilai atau contoh yang cenderung memiliki nilai atribut. Klasifikasi dan regresi adalah dua bagian utama dari masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilai diskrit atau nominal sedangkan regresi digunakan untuk memprediksi nilai terusmenerus atau nilai yang ditentukan (Larose, 2005). 2.3 Tahapan Data Mining Data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996) Gambar 2.1 Data Mining : Proses KDD Sumber : Fayyad 1996 Menurut Kusrini (Kusrini & Emha, 2009) proses KDD dapat diuraikan sebagai berikut : Seleksi Data (Data Selection)

4 Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari database operasional. Pra-pemrosesan / Pembersihan (Pre-processing / Cleaning) Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. Transformasi (Transformation) Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam database. Data mining Data mining adalah proses mencari pola atau informasi menarik dalam data yang terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. Interpretasi / Evaluasi (Interpretation / Evaluation) Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

5 2.4 Pengelompokan Data Mining Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) : 1. Deskripsi (Description) Terkadang penelitidan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan. 2. Estimasi (Estimation) Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya. 3. Prediksi (Prediction) Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan penelitian adalah : Prediksi harga beras dalam tiga bulan yang akan datang. Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikkan. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

6 4. Klasifikasi (Classification) Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah : Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk. Mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit apa. 5. Pengklusteran (Clustering) Pengklusteran merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal. Contoh pengklusteran dalam bisnis dan penelitian adalah : Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar. Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam baik dan mencurigakan. 6. Asosiasi (Assosiation)

7 Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah : Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons positif terhadap penawaran upgrade layanan yang diberikan. 2.5 Algoritma Clustering (Clustering Algorithm) Clustering (pengelompokan data) mempertimbangkan sebuah pendekatan penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar daripada diantara kelompok-kelompok (Rui Xu & Donald 2009). Gagasan mengenai pengelompokan data, atau clustering, memiliki sifat yang sederhana dan dekat dengan cara berpikir manusia; kapanpun kepada kita dipresentasikan jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang besar ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori untuk memfasilitasi analisanya lebih lanjut. Selain dari itu, sebagian besar data yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang melekat yang mengalami pengelompokan-pengelompokan natural (Hammouda & Karray, 2003). Namun demikian, penemuan pengelompokan-pengelompokan ini atau upaya untuk mengkategorikan data adalah bukan sebuah tugas yang sederhana bagi manusia kecuali data memiliki dimensionalitas rendah (dua atau tiga dimensi paling banyak). Inilah sebabnya mengapa beberapa metode dalam soft computing telah dikemukakan untuk menyelesaikan jenis masalah ini. Metode ini disebut Metode-metode Pengelompokan Data (Hammouda & Karray, 2003).

8 Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat bermanfaat untuk kompresi data dan konstruksi model. Melalui pencarian kesamaan dalam data, seseorang dapat merepresentasikan data yang sama dengan lebih sedikit simbol misalnya. Juga, jika kita dapat menemukan kelompok-kelompok data, kita dapat membangun sebuah model masalah berdasarkan pengelompokan-pengelompokan ini (Dubes & Jain, 1988). Clustering menunjuk pada pengelompokan record, observasi-observasi, atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah sekumpulan record yang adalah sama dengan satu sama lain dan tidak sama dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak ada variabel target untuk clustering. Tugas clustering tidak mencoba untuk mengklasifikasikan, mengestimasi, atau memprediksi nilai variabel target (Larose, 2005). Bahkan, algoritma clustering berusaha mensegmentasikan seluruh kumpulan data ke dalam subkelompok-subkelompok atau cluster-cluster homogen secara relatif. Dimana kesamaan record dalam cluster dimaksimalkan dan kesamaan dengan record diluar cluster ini diminimalkan. Clustering sering dilaksanakan sebagai langkah pendahuluan dalam proses pengumpulan data, dengan cluster-cluster yang dihasilkan digunakan sebagai input lebih lanjut ke dalam sebuah teknik yang berbeda, seperti neural network. Karena ukuran yang besar dari banyak database yang dipresentasikan saat ini, maka sering sangat membantu untuk menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma-algoritma downstream. Aktivitas clustering pola khusus meliputi langkah-langkah berikut (Dubes & Jain, 1988) : (I) (II) (III) (IV) Representasi pola (secara opsional termasuk ekstraksi dan/atau seleksi sifat) Definisi ukuran kedekatan pola yang tepat untuk domain data Clustering pengelompokan Penarikan data (jika dibutuhkan), dan

9 (V) Pengkajian output (jika dibutuhkan). Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering. Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat (fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik. Pertimbangkan dataset X yang terdiri dari point-point data (atau secara sinonim, objek-objek, hal-hal, kasus-kasus, pola, tuple, transaksi) x i = (x i1,, x id ) Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menentukan point-point pada sebuah sistem terbatas dari subset k, cluster. Biasanya subset tidak berpotongan (asumsi ini terkadang dilanggar), dan kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan outlier. C i adalah sekelompok point data dalam dataset X, dimana X = C i.. C k.. C outliers, C j1.. C j2 = Clustering Hirarkhi (Hierarchical Clustering) Clustering hirarkhi membangun sebuah hirarkhi cluster atau, dengan kata lain, sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarkhi dikategorikan ke dalam agglomeratif (bawah-atas) dan divisive (atas-bawah) (Jain & Dubes, 1988; Kaufman & Rousseeuw, 1990). Clustering agglomeratif dimulai dengan cluster satu point (singleton) dan secara berulang menggabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria

10 penghentian (seringkali, jumlah k yang diperlukan dari cluster) dicapai. Kelebihan cluster hirarkhi meliputi: (I) (II) (III) Fleksibilitas yang tertanam mengenai level granularitas Kemudahan menangani bentuk-bentuk kesamaan atau jarak Pada akhirnya, daya pakai pada tipe-tipe atribut apapun. Kelemahan dari clustering hirarkhi berhubungan dengan: (I) (II) ketidakjelasan kriteria terminasi Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi. Untuk clustering hirarkhi, menggbungkan atau memisahkan subset dari point-point dan bukan point-point individual, jarak antara point-point individu harus digeneralisasikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik hubungan yang digunakan secara signifikan mempengaruhi algoritma hirarkhi, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Metrik hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua metrik hubungan diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams (Lance & Williams, 1967). D(C i C j, C k = ɑ (i) d (C i, C k ) + ɑ (k) d (C j, C k ) + bd (C i, C j ) + c d (C i, C k ) d (C j, C j ) (2.1) Dimana, a, b, c, adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah metrik hubungan antara kesatuan dari dua cluster dan cluster ketiga dalam bentuk komponen-komponen yang mendasari. Clustering hirarkhi berdasarkan metrik hubungan mengalami kompleksitas waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi (metodemetode grafik memenuhi kondisi ini), metode-metode metrik hubungan memiliki kompleksitas (N 2 ) (Olson 1995).

11 Metrik-metrik hubungan berdasarkan jarak Euclidean untuk clustering hirarkhi dari data spatial secara natural mempengaruhi cluster-cluster dari bentukbentuk convex yang tepat. Sementara itu, scanning visual dari gambar-gambar spatial sering memperlihatkan cluster-cluster dengan tampilan curvy. Dalam linguistik, pencarian informasi, dan taksonomi biner aplikasi clustering dokumen adalah sangat membantu. Metode-metode aljabar linear, yang didasarkan pada dekomposisi nilai singular (Singular Value Decomposition - SVD) digunakan untuk tujuan ini dalam filtering kolaboratif dan pencarian informasi (Berry & Browne, 1999). Aplikasi SVD terhadap clustering divisive hirarkhi dari kumpulan dokumen menghasilkan algoritma PDDP (Principal Direction Divisive Partitioning) (Boley, 1998). Algoritma ini membagi dua data dalam ruang Euclidean dengan sebuah hyperplane yang mengalir melalui centroid data secara ortogonal pada eigenvector dengan nilai singular yang besar. Pembagian cara k juga memungkinkan jika k nilai singular terbesar dipertimbangkan. Divisive hirarkhi yang membagi dua rata-rata k terbukti (Steinbach et al. 2000) dapat dipilih untuk clustering dokumen. Algoritma clustering hirarkhi populer untuk data kategorikal COBWEB (Fisher, 1987) memiliki dua kualitas yang sangat penting. Pertama, menggunakan pembelajaran incremental. Daripada mengikuti pendekatan divisive atau agglomerative, secara dinamis membangun sebuah dendrogram melalui pengolahan satu point data pada suatu waktu. Kedua, COBWEB termasuk pada pembelajaran berdasarkan konseptual atau model. Ini berarti bahwa setiap cluster dianggap sebagai sebuah model yang dapat dijelaskan secara intrinsik, dan bukan sebagai sebuah kumpulan point yang ditentukan terhadapnya. Dendrogram COBWEB disebut pohon klasifikasi. Setiap node pohon C, sebuah cluster, berhubungan dengan probabilitas kondisional untuk pasangan-pasangan nilai-nilai atribut kategorikal, yakni : P r (X i = v lp C), l = 1 : d,p = 1 A l (2.2)

12 2.5.2 Clustering Partisional (Partional Clustering) Dengan mengetahui objek-objek database n, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria clustering, seperti minimisasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster. Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokan yang memungkinkan dan berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya. Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk kumpulan point-point awal yang berbeda (yang dianggap sebagai representatif) dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau tidak. Algoritma-algoritma clustering partisional berusaha memperbaiki secara lokal sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau jarak, mengurutkan hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy. Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang konseptual yang mengidentifikasikan cluster dengan model tertentu yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang distribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode probabilistis adalah daya interpretasi dari cluster-cluster yang dibuat. Dengan memiliki representasi cluster yang tepat juga memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari kesesuaian yang memberikan fungsi objektif global. Pendekatan lain dimulai dengan definisi fungsi objektif yang tergantung pada sebuah pembagian (partition). Tergantung pada bagaimana representatif dibuat, algoritma-algoritma partitioning optimisasi iteratif dibagi lagi ke dalam metode-metode K-Medoids dan K-means.

13 Dalam pendekatan probabilistis, data dianggap sebuah sampel yang diambil secara independen dari sebuah model campuran dari beberapa distribusi probabilitas (McLachlan & Basford, 1988). Asumsi utama adalah point-point data dihasilkan melalui, pertama, pengambilan secara acak model j dengan probabilitas τ j, J = 1; k, dan, kedua, melalui pengambilan point x dari sebuah distribusi yang sesuai. Daerah sekitar rata-rata dari setiap distribusi (anggaplah unimodal) membentuk sebuah cluster natural. Kemungkinan menyeluruh dari data pelatihan adalah probabilitasnya untuk ditarik dari sebuah model campuran tertentu. L(X C) = Π i =1:N j=1:k =τ j P r (X i C j ) (2.3) Algoritma SNOB (Wallace & Dowe, 1994) menggunakan model campuran bersama dengan Minimum Message Length (MML) principal. Algoritma AUTOCLASS (Cheeseman & Stutz, 1996) menggunakan model campuran dan meliputi varietas distribusi yang luas, termasuk Bernoulli, Poisson, gaussian, dan distribusi-distribusi lognormal. Clustering probabilistis memiliki beberapa sifat penting: (I) (II) (III) (IV) Dapat memodifikasi untuk menangani record dari struktur kompleks. Dapat dihentikan dan dimulai kembali dengan batch data konsekutif, karena cluster-cluster memiliki representasi yang berbeda secara total dari kumpulan point-point. Pada tahap apapun dari proses iteratif, model campuran intermediate dapat digunakan untuk menentukan kasus-kasus (property on-line). Menghasilkan sistem cluster yang dapat diinterpretasikan dengan mudah. Dalam metode-metode K-Medoids, cluster direpresentasikan oleh salah satu pointnya. Ketika Medoids dipilih, cluster didefinisikan sebagai subset point-point yang dekat dengan Medoid respektif, dan fungsi objektif didefinisikan sebagai jarak yang dirata-ratakan atau ukuran ketidaksamaan lainnya antara sebuah point dan Medoids-nya. Untuk versi-versi awal dari metode-metode k-medoids adalah algoritma PAM (Partitioning around Medoids) dan algoritma CLARA (Clustering LARge Applications) (Kaufmann & Rousseeuw, 1990). CLARANS (Clustering

14 Large Applications berdasarkan Upon RANdomized Search) dalam konteks clustering dalam database spatial. 2.6 Analisis Cluster Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin (Prayudho, 2008) Tujuan Analisis Cluster : 1. Untuk mengelompokkan objek-objek (individu-individu) menjadi kelompokkelompok yang mempunyai sifat yang relatif sama (homogen). 2. Untuk membedakan dengan jelas antara satu kelompok (cluster) dengan kelompok lainnya. Adapun manfaat Analsis Cluster sebagai berikut: 1. Untuk menerapkan dasar-dasar pengelompokan dengan lebih konsisten. 2. Untuk mengembangkan suatu metode generalisasi secara induktif, yaitu pengambilan kesimpulan secara umum dengan berdasarkan fakta-fakta khusus. 3. Menemukan tipologi yang cocok dengan karakter obyek yang diteliti. 4. Mendiskripsikan sifat-sifat / karakteristik dari masing-masing kelompok. Analisis cluster dilakukan dengan langkah-langkah berikut: 1. Merumuskan permasalahan. 2. Memilih ukuran jarak atau kesamaan. 3. Memilih prosedur pengklusteran. 4. Menetapkan jumlah cluster.

15 5. Interpretasi dan profil dari cluster. 6. Menaksir reliabilitas dan validitas. 2.7 Metode Kernel (Kernel Methods) Pendahuluan. Machine learning untuk penelitian pengolah sinyal sangat dipengaruhi oleh metode yang populer kernel Mercer (Cristianini & Taylor, 2000). Point utama dalam metode kernel adalah apa yang disebut "kernel trick", yang memungkinkan penghitungan dalam beberapa inner product, kemungkinan dengan dimensi yang tidak terbatas, ruang fitur. Anggaplah x i dan x j adalah dua point data ruang input. Jika fungsi kernel k (.,.) memenuhi kondisi Mercer maka: k (xi, x j ) = {Φ(x i ),Φ(x j )} (2.4) Dimana (.,.) menunjukkan inner product, dan Φ (.) menunjukkan pemetaan non-linier dari ruang input ke ruang fitur kernel. Kernel trick memungkinkan pelaksanaan dari algoritma pembelajaran, yang dinyatakan dalam bentuk inner product ruang fitur kernel. Metode-metode Kernel adalah algoritma yang secara implisit melaksanakan, melalui penggantian inner product dengan Kernel Mercer yang tepat, sebuah pemetaan nonlinear dari data input ke ruang fitur berdimensi tinggi (Vapnik, 1995). Metodemetode kernel yang sangat disupervisi telah dikembangkan untuk menyelesaikan masalah-masalah klasifikasi dan regresi. K-means adalah algoritma unsupervised learning yang membagi kumpulan data ke dalam sejumlah cluster yang dipilih dibawah beberapa ukuran-ukuran optimisasi. Sebagai contoh, kita sering ingin meminimalkan jumlah kuadrat dari jarak Euclidean antara sampel dan centroid. Asumsi di belakang ukuran ini adalah keyakinan bahwa ruang data terdiri dari daerah elliptical yang terisolasi. Meskipun demikian, asumsi tersebut tidak selalu ada pada aplikasi spesifik. Untuk

16 menyelesaikan masalah ini, sebuah gagasan meneliti ukuran-ukuran lain, misalnya kesamaan kosinus yang digunakan dalam pencarian informasi. Gagasan lain adalah memetakan data pada ruang baru yang memenuhi persyaratan untuk ukuran optimisasi. Dalam hal ini, fungsi kernel merupakan pilihan yang baik Fungsi Kernel (Kernel Function) Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai contoh, SVM (support vector machine) dan Perceptron memerlukan data yang tidak dapat dipisahkan secara linear, sedangkan K-means dengan jarak Euclidean mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada data, dengan memetakan mereka pada ruang baru di mana machine learning dapat digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk mendefinisikan transformasi. Anggaplah kita diberikan sekumpulan sampel x 1, x 2, x 3,, x N, dimana x i ε R D, dan fungsi pemetaan Φ yang memetakan x i dari ruang input R D pada ruang baru Q. Fungsi kernel didefinisikan sebagai dot product dalam ruang baru Q: H (xi, x j ) = Φ(x i ). Φ (x j ) (2.5) Sebuah fakta penting mengenai fungsi kernel adalah bahwa fungsi ini dibangun tanpa mengetahui bentuk konkrit dari Φ, yaitu, transformasi yang didefinisikan secara implisit. Tiga fungsi kernel yang secara umum tercantum di bawah ini: PolynomialH (xi, x j ) = (x i. x j + 1 ) d (2.6) Radial H (xi, x j ) = exp (-r X i X j 2 ) (2.7) Neural H (xi, x j ) = tanh ( ax i. x j + b) (2.8) Kelemahan utama dari fungsi Kernel meliputi, pertama, beberapa sifat dari ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga

17 kekurangan bentuk eksplisit untuk Φ. Kedua, penentuan bentuk kernel yang tepat untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen. Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin luas.

18 2.7.3 Kernel Trick Dot product sering dianggap sebagai ukuran kesamaan antara dua vektor input. Dot product Φ(x i ). Φ(x j ) dapat dianggap sebagai ukuran kesamaan antara dua jarak x i dan x j, dalam ruang yang ditransformasikan. Kernel trick adalah suatu metode untuk menghitung kesamaan dalam ruang yang ditransformasikan dengan menggunakan kumpulan atribut orisinal. Pertimbangkan pemetaan fungsi Φ yang diberikan dalam persamaan (2.9). Φ = ( x 1, x 2 ) (x 2 1, x 2 2, 2x R1, 2x R2, 1) (2.9) Dot product antara dua vektor input u dan v dalam ruang yang ditransformasikan dapat ditulis sebagai berikut: Φ(u). Φ(v) = (u 2 1 u 2 2, 2u R1, 2u R2, 1). (v 2 1 v 2 2, 2v R1, 2v R2 = u 2 1 v 2 1, +u v 2, + 2u1 v1+ 2 u2 v2 + 1 = (u. v + 1 ) 2 Analisa ini memperlihatkan bahwa dot product dalam ruang yang ditransformasikan dapat dinyatakan dalam bentuk fungsi kesamaan dalam ruang orisinal: K( u, v ) = Φ(u). Φ (v) = (u. v + 1 ) 2, 1) (2.10) Fungsi kesamaan, K, yang dihitung dalam ruang atribut orisinal, dikenal sebagai fungsi kernel. Kernel trick membantu mengatasi beberapa kecemasan tentang cara mengimplementasikan pada Support Vector Machine (SVM) nonlinear. (2.11) Pertama, kita tidak harus mengetahui bentuk yang tepat dari pemetaan fungsi Φ karena fungsi-fungsi kernel yang digunakan dalam SVM nonlinier harus memenuhi prinsip matematika yang dikenal sebagai Mercer s Theorem. Prinsip ini memastikan bahwa fungsi kernel dapat selalu dinyatakan sebagai dot product antara dua vektor input dalam beberapa ruang dengan dimensi tinggi. Ruang yang ditransformasikan dari kernel SVM disebut Reproducing kernel Hilbert space (RKHS). Kedua, penghitungan dot product yang menggunakan fungsi kernel adalah lebih mudah dengan menggunakan transformasi atribut set Φ (x). Ketiga, karena penghitungan

19 merupakan hasil dalam ruang orisinal, maka isu-isu yang berhubungan dengan masalah dimensi dapat dihindari Algoritma-algoritma Representatif Pendahuluan Sub Bab ini merupakan sebuah bagian metodologi dari penelitian ini. Dimulai dengan penjelasan-penjelasan menenai algoritma-algoritma representatif detail yang akan digunakan dalam penelitian ini. Diberikan sebuah kajian singkat mengenai konsep dasar dari algoritma K-Means clustering dan memperluas pada algoritma Kernel K-Means clustering Algoritma K-Means Clustering (K-Means Clustering Algorithm) K-Means (MacQueen, 1967) adalah salah satu dari algoritma unsupervised learning yang paling sederhana untuk menyelesaikan masalah clustering yang telah dikenal. Prosedur ini mengikuti cara sederhana dan mudah untuk mengklasifikasikan kumpulan data tertentu melalui jumlah cluster tertentu (menganggap k cluster) yang telah ditetapkan sebelumnya. Gagasan utama adalah mendefinisikan centroid k, satu untuk setiap cluster. Centroid ini harus ditempatkan dengan cara yang cerdik karena lokasi yang berbeda menyebabkan hasil yang berbeda. Oleh karena itu, pilihan terbaik adalah menempatkan mereka sejauh mungkin dari satu dengan yang lain. Langkah berikutnya adalah mengambil setiap point yang termasuk pada kumpulan data tertentu dan menghubungkannya dengan centroid yang terdekat. Apabila tidak ada point yang menantikan, maka langkah pertama diselesaikan dan groupage secara dini dilakukan. Pada point ini kita perlu mengkalkulasi kembali centroid baru k dari cluster yang berasal dari langkah sebelumnya. Setelah kita memiliki centroid baru k ini, pengikatan baru harus dilakukan antara point-point kumpulan data yang sama dan centroid baru terdekat. Sebuah loop telah dihasilkan. Karena loop ini, maka kita

20 dapat mengetahui bahwa centroid k mengubah lokasi mereka langkah demi langkah hingga tidak ada lagi perubahan yang dilakukan. Dengan kata lain, centroid tidak bergerak lagi. Akhirnya, algoritma ini membantu meminimalkan fungsi objektif, dalam hal ini sebuah fungsi kesalahan kuadrat. Sekumpulan vektor n x j, j = 1, n, akan dibagi ke dalam kelompokkelompok c G i, i=1, c. Fungsi biaya didasarkan pada jarak Euclidean antara vektorvektor x k dalam kelompok j dan pusat-pusat cluster c i yang sesuai, dapat didefinisikan melalui: Dimana j i c c j = i=1 j i = i=1( x k c i 2 ) (2.12) k,x k G i = k,x k G i x k c i 2 adalah fungsi biaya dalam kelompok i. Kelompok-kelompok yang dibagi didefinisikan oleh matriks keanggotaan biner c x n, U, dimana elemen uij adalah 1 jika point data ke-j x j termasuk pada kelompok i dan 0 atau sebaliknya. Begitu pusat cluster c i ditetapkan, peminimalan u ij untuk Persamaan (2.11) dapat diperoleh sebagai berikut: 1, if x j c i 2 x j c k 2, for each k i (2.13) 0, otherwise Yang berarti bahwa x j termasuk pada kelompok i jika c i adalah pusat terdekat diantara semua pusat. Sebaliknya, jika matriks keanggotaan ditetapkan, yakni jika u ij ditetapkan, maka pusat optimal c i yang meminimalkan persamaan (2.12) adalah ratarata dari semua vektor dalam kelompok i : 1 c N i G i k,x k G i X Rk (2.14) Dimana G i adalah ukuran dari G i, or G i = Algoritma dipresentasikan dengan kumpulan data xi, i = 1,, n ; kemudian menentukan pusat cluster c i dan matriks keanggotaan U secara iteratif dengan menggunakan langkah berikut: n j=1 u Rij

21 Algoritma 2.1 Langkah 1 Menginisialisasikan pusat cluster, c i, i=1,,c. Ini biasanya dilakukan melalui pemilihan secara acak pointpoint c diantara semua point-point data. Langkah 2 Menentukan matriks keanggotaan U melalui persamaan (2.11). Langkah 3 Menghitung fungsi biaya menurut persamaan (2.10). Hentikan jika berada dibawah nilai toleransi tertentu atau perbaikannya terhadap iterasi sebelumnya adalah dibawah batas ambang tertentu. Langkah 4 Perbaharui pusat-pusat cluster menurut persamaan (6.12). Lanjutkan ke langkah 2. Walaupun dapat dibuktikan bahwa prosedur tersebut akan selalu berakhir, algoritma k-means tidak perlu mencari konfigurasi yang paling optimal, yang sesuai dengan minimum fungsi objektif global. Algoritma ini juga secara signifikan sensitif terhadap pusat-pusat cluster yang dipilih secara acak pada awalnya. Algoritma k- means dapat dijalankan beberapa kali untuk mengurangi efek ini Kernel K-Means Clustering Metode kernel pertama dan barangkali yang paling tepat adalah Support Vector Machine (SVM) (Burges, 1998), yang mengopotimalkan kriteria margin maksimum dalam ruang fitur kernel. Algoritma k-means barangkali telah menjadi teknik clustering populer sejak diperkenalkan dalam era 1960an. Ini memaksimalkan jarak Euclidean kuadrat antara pusat-pusat cluster. Meskipun demikian, telah diketahui bahwa ini hanya optimal untuk (yang dapat dipisahkan secara linear) cluster terdistribusi Gaussian. Metode yang berbeda untuk melaksanakan algoritma ini dalam ruang kernel yakni kernel k-means telah diperoleh. Dalam (Zang & Alexander, 2006) teknik optimisasi stochastic dikembangkan dengan menggunakan

22 kernel trick, sedangkan dalam (Girolami, 2002) pemetaan data aktual diperkirakan melalui eigenvector dari apa yang disebut matriks kernel. Secara eksperimental, penelitian-penelitian ini memperlihatkan bahwa keterbatasan k-means biasa telah teratasi, dan hasil yang baik dicapai juga untuk kumpulan-kumpulan data yang memiliki batasan-batasan cluster nonlinear. Motivasi untuk keinginan melaksanakan K-means dalam ruang fitur kernel dinyatakan secara longgar sebagai masalah kemampuan memisahkan nonlinear yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang data berdimensi yang lebih tinggi dengan cara nonlinear sehingga setiap cluster untuk setiap kelas membentang ke dalam bentuk sederhana. Meskipun demikian, tidak jelas bagaimana kernel K-means berhubungan dengan sebuah operasi pada kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel dengan sifatsifat kumpulan data input. Beberapa pemikiran yang disebutkan pada point-point ini telah dibuat dalam (Girolami, 2002; Cristianini & Taylor, 2000). Biasanya perluasan dari k-means ke kernel k-means direalisasi melalui pernyataan jarak dalam bentuk fungsi kernel (Girolami, 2002; Muller et al 2003). Meskipun demikian, implementasi tersebut mengalami masalah serius seperti biaya clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau memori yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya tidak dapat sesuai untuk corpora yang besar. Anggaplah kumpulan data memiliki N sampel x 1, x 2, x N. Algoritma K- means bertujuan untuk membagi sampel N ke dalam cluster K, C 1, C 2,, C K, dan kemudian mengembalikan pusat dari setiap cluster, m 1, m 2,., m K sebagai representatif dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan ke dalam code book point K. Algoritma K-means clustering mode batch yang menggunakan jarak Euclidean bekerja sebagai berikut:

23 Algoritma 2.2 Langkah 1 Langkah 2 Pilih awal pusat K: m 1, m 2,., m Menentukan setiap sample xi (1 i N ) pada pusat terdekat, yang membentuk cluster K. Yaitu, menghitung nilai fungsi indikator δ (x i, C k ), ( 1 k K ). K 1, D (x i, m k ) < D x i, m j for all j k 0, otherwise Langkah 3 Langkah 4 Hitunglah pusat baru m k untuk setiap cluster C k m k = 1 N c k i=1 δ (x i, C k )x i Dimana C k adalah jumlah sampel dalam C C k = N i=1 δ (x i, C k )x i Ulangi langkah 2 dan 3 hingga bertemu. Langkah 5 Menghasilkan m k ( 1 k K ) k Isu utama yang memperluas k-means tradisional ke kernel k-means adalah adalah penghitungan jarak dalam ruang baru. Anggaplah u i = Φ(x i ) menunjukkan transformasi x i. Jarak Euclidean antara u i dan u j ditulis sebagai: D 2 (u i,u j ) = Φ(x i ) Φ(x j ) Anggaplah z k 2 = Φ 2 (x i ) -2 Φ(x i ) Φ(x j ) + Φ 2 (x j ) = H (xi, x i ) - 2 H (x i, x i ) + H(x j, x j ) (2.15) adalah pusat cluster dalam ruang yang ditransformasikan dimana, z k = 1 N c k i=1 δ (u i, C k )u i (2.16) Dimana δ(u i, C k ) adalah fungsi indikator. Jarak antara u i dan z k berikut: dinyatakan sebagai D 2 (u i,z k ) = u i 1 N δ c k i=1 (u i, C k )u i 2

24 = H (x i, x i ) + f (x i, C k ) + g (C k ) (2.17) Dimana, f (x i, C k ) = 2 N δ u C k j=1 j, C k H(x i, x j ) (2.18) g(c k ) = 2 C k 2 N N j=1 i=1 δ u j, C k δ(u i, C k )H(x i, x j ) (2.19) Perbedaan utama antara kernel k-means dengan versi tradisional k-means ada di langkah 5, dalam algoritma Kernel K-means. Karena cluster dalam ruang yang ditransformasikan tidak dapat dinyatakan secara eksplisit, maka harus memilih pseudo centre. Dengan menggunakan (2.15) pada tradisional k-means, diperoleh kernel berdasarkan algoritma K-Means sebagai berikut: Algoritma 2.3 Langkah 1 Tentupkan δ(x i, C k )(1 i N, 1 k K ) dengan nilai awal, yang membentuk cluster initial K C 1, C 2,, C Langkah 2 Untuk setiap cluster Ck, hitunglah C k dan g(c k ). Langkah 3 Untuk setiap sample latihan xi dan cluster C k, hitunglah f(x i, C k ) dan kemudian tentukan x i pada cluster terdekat. δ(x i, C k ) 1, f(x i, C k ) + g (C k ) < f x i, C j + g C j for all j k 0, otherwise Langkah 4 Ulangi langkah 2 dan 3 hingga bertemu. Langkah 5 Untuk setiap cluster C k,, pilih sample yang terdekat dengan pusat sebagai representatif dari C k., m k = Arg min D(Φ (x i ), z k ). X i, dimana δ(x i, C k ) = 1 Dalam Persamaan (2.5) faktor H (x i, x i ) ) diabaikan karena tidak berkontribusi untuk menentukan cluster terdekat. Perbedaan utama antara kernel k- means dan versi tradisionalnya ada dalam langkah 5. K.

25 2.8 Riset-riset Terkait Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan prestasi akademik mahasiswa seperti yang akan dijelaskan dibawah ini : Yu et al. (2010) dalam risetnya menjelaskan mengenai sebuah pendekatan data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi tingkat daya ingat mahasiswa. Oyelade et al. (2010) dalam risetnya mengimplementasikan algoritma k-means clustering dikombinasikan dengan deterministic model untuk menganalisa hasil prestasi mahasiswa pada perguruan tinggi swasta. Paul Golding & Opal Donaldson dalam risetnya Predicting Academic Performance menguji hubungan prestasi akademik dengan prestasi matrikulasi di tahun pertama pada jurusan teknologi informasi. Yang mana prestasi pada tahun pertama memiliki hubungan yang signifikan dalam memprediksi prestasi mahasiswa. 2.9 Persamaan dengan Riset-riset lain Kruck dan Lending (2003) dalam penelitiannya menjelaskan sebuah model untuk memprediksi kinerja akademis di tingkat perguruan tinggi dalam mata kuliah pengantar sistem informasi. Ogor (2007) dalam penelitiannya menggunakan teknik data mining yang digunakan untuk membangun prototipe Penilaian Kinerja Monitoring System (PAMS) untuk mengevaluasi kinerja mahasiswa. Sembiring et al. (2009) menggunakan teknik data mining dalam pemantauan dan memprediksi peningkatan prestasi mahasiswa berdasarkan minat, perilaku belajar, pemanfaatan waktu dan dukungan orang tua di perguruan tinggi.

26 2.10 Perbedaan dengan Riset-riset lain Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik perbedaan dengan riset yang akan dilakukan ini : Analisa peningkatan indeks prestasi akademik dilakukan pada perguruan tinggi yang risetnya dilakukan di jurusan Elektro Politeknik Negeri Medan. Riset yang dilakukan penulis untuk membuat aturan atau rule berdasarkan rata-rata nilai teori, rata-rata nilai praktek dan kehadiran. Pada penelitian ini hasil akhir yang diharapkan dengan analisa peningkatan indeks prestasi akademik berdasarkan rata-rata nilai teori, rata-rata nilai praktek dan kehadiran untuk mendapatkan predikat dengan pujian dan sangat memuaskan sehingga dapat dibuat sebelum masa studi berakhir Kontribusi Riset Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan rata-rata nilai teori, rata-rata nilai praktek dan kehadiran untuk meningkatkan proses belajar mengajar yang ditunjukkan dengan nilai IP semester berdasarkan predikat yang telah ditentukan oleh perguruan tinggi. Pembuat keputusan bisa menggunakan model prediksi peningkatan indeks prestasi akademik untuk meningkatkan kualitas pengambilan keputusan. Penelitian ini memperkenalkan aplikasi metode Kernel K-Means Clustering untuk lembaga pendidikan tinggi.

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan analisa datadan algoritma Fuzzy C-Means untuk mangetahui pola perilaku konsumen. 2.1. Pola

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penambangan Data (Data Mining) Penambangan data (Data Mining) adalah serangkaian proses untuk menggali nilai tambah dari sekumpulan data berupa pengetahuan yang selama ini tersembunyi

Lebih terperinci

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan 6 BAB II TINJAUAN PUSTAKA 2.1 Pengertian Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data mining

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Konsep Pemasaran Dalam merancang dan mengembangkan produk, baik yang berupa jasa maupun barang, tidak terlepas dari konsep pemasaran yang bertujuan memenuhi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Pendahuluan Didalam bab ini menceritakan semua teori-teori yang digunakan didalam proses algoritma decision tree, algoritma Random tree dan Random Florest serta teoriteori dan

Lebih terperinci

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket Bab1 Konsep Data Mining POKOK BAHASAN: Konsep dasar dan pengertian Data Mining Tahapan dalam Data Mining Model Data Mining Fungsi Data Mining TUJUAN BELAJAR: Setelah mempelajari materi dalam bab ini, mahasiswa

Lebih terperinci

PERTEMUAN 14 DATA WAREHOUSE

PERTEMUAN 14 DATA WAREHOUSE PERTEMUAN 14 DATA WAREHOUSE Data Warehouse Definisi : Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah Proses yang menggunakan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Faktor penentu bagi usaha atau bisnis apapun pada masa sekarang ini adalah kemampuan untuk menggunakan informasi seefektif mungkin. Penggunaan data secara tepat karena

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya. BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Pustaka Salah satu cara untuk mengetahui faktor nilai cumlaude mahasiswa Fakultas Teknik Universitas Muhammadiyah Yogyakarta adalah dengan menerapkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Data Mining adalah proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk BAB II LANDASAN TEORI 2.1 Sistem Menurut Gondodiyoto (2007), sistem adalah merupakan suatu kesatuan yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk mencapai suatu tujuan tertentu.

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI penelitian. Pada bab ini akan dibahas literatur dan landasan teori yang relevan dengan 2.1 Tinjauan Pustaka Kombinasi metode telah dilakukan oleh beberapa peneliti

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Penelitian ini menggunakan beberapa sumber pustaka yang berhubungan dengan kasus yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

Metode Kernel. Machine Learning

Metode Kernel. Machine Learning MMA10991 Topik Khusus Machine Learning Metode Kernel Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439,

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 7 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan penerapan algoritma hierarchical clustering dan k-means untuk pengelompokan desa tertinggal.

Lebih terperinci

SVM untuk Regresi Ordinal

SVM untuk Regresi Ordinal MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,

Lebih terperinci

PEMODELAN ATURAN DALAM MEMPREDIKSI PRESTASI AKADEMIK MAHASISWA POLITEKNIK POLIPROFESI MEDAN DENGAN KERNEL K-MEANS CLUSTERING

PEMODELAN ATURAN DALAM MEMPREDIKSI PRESTASI AKADEMIK MAHASISWA POLITEKNIK POLIPROFESI MEDAN DENGAN KERNEL K-MEANS CLUSTERING EKSPLORA INFORMATIKA 151 PEMODELAN ATURAN DALAM MEMPREDIKSI PRESTASI AKADEMIK MAHASISWA POLITEKNIK POLIPROFESI MEDAN DENGAN KERNEL K-MEANS CLUSTERING A. Karim Politeknik Poliprofesi Medan Jalan Sie Batanghari

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penambangan Data (Data Mining) Penambangan data (Data Mining) adalah serangkaian proses untuk menggali nilai tambah dari sekumpulan data berupa pengetahuan yang selama ini

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Sistem Informasi Pengertian Sistem Informasi pada dasarnya merupakan hasil dari dua arti, yakni sistem dan informasi yang digabungkan. Berikut definisi sistem menurut para ahli

Lebih terperinci

BAB II TINJAUAN PUSTAKA. sekumpulan besar data yang tersimspan dalam penyimpanan dengan

BAB II TINJAUAN PUSTAKA. sekumpulan besar data yang tersimspan dalam penyimpanan dengan BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Data Mining A. Pengertian Data Mining Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Pengertian Data Mining Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik

Lebih terperinci

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009 Konsep Data Mining Pendahuluan Bertalya Universitas Gunadarma 2009 Latar Belakang Data yg dikumpulkan semakin bertambah banyak Data web, e-commerce Data pembelian di toko2 / supermarket Transaksi Bank/Kartu

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1. Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di lakukan oleh Muhammad Toha dkk (2013), Sylvia Pretty Tulus (2014), Johan

Lebih terperinci

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering Analisis Cluster Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan

Lebih terperinci

Surmayanti 1, Hari Marfalino 2, Ade Rahmi 3 Fakultas Limu Komputer Universitas Putra Indonesia YPTK Padang

Surmayanti 1, Hari Marfalino 2, Ade Rahmi 3 Fakultas Limu Komputer Universitas Putra Indonesia YPTK Padang PENERAPAN ANALYSIS CLUSTERING PADA PENJUALAN KOMPUTER DENGAN PERANCANGANAN APLIKASI DATA MINING MENGGUNAKAN ALGORITMA K-MEANS (STUDY KASUS TOKO TRI BUANA KOMPUTER KOTA SOLOK) Surmayanti 1, Hari Marfalino

Lebih terperinci

PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA

PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA Domma Lingga Mahasiswa Program Studi Teknik Informatika STMIK Budidarma Medan Jl. Sisingamangaraja

Lebih terperinci

Data Mining : Klasifikasi Menggunakan Algoritma C4.5

Data Mining : Klasifikasi Menggunakan Algoritma C4.5 Data Mining : Klasifikasi Menggunakan Algoritma C4.5 Yuli Mardi Dosen Akademi Perekam dan Informasi Kesehatan (APIKES) Iris Padang Jl. Gajah Mada No. 23 Padang, Sumatera Barat adimardi@yahoo.com ABSTRAK

Lebih terperinci

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN

PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN Fina Nasari 1 1 Sistem Informasi, STMIK Potensi Utama 3 Jalan K.L. Yos Sudarso KM.

Lebih terperinci

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means Sri Redjeki Andreas 1), Andreas Pamungkas, Pamungkas Hastin 2), Hastin Al-fatah Al-fatah 3) 1)2)3) STMIK dzeky@akakom.ac.id

Lebih terperinci

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas 1. Memahami cakupan materi dan sistem perkuliahan Data Mining.

Lebih terperinci

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK Dody Herdiana, S.T., M. Kom. Dosen PNS DPK pada Program Studi Teknik Informatika

Lebih terperinci

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa dengan Metode NAÏVE BAYES M. Ridwan Effendi Fakultas Komputer Jurusan Sistem Informasi Universitas Mohammad Husni Thamrin Jakarta Email :

Lebih terperinci

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree Disusun oleh : Budanis Dwi Meilani Achmad dan Fauzi Slamat Jurusan Sistem Informasi Fakultas Teknologi Informasi.

Lebih terperinci

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD) Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika Knowledge Discovery in Databases (KDD) Knowledge Discovery in Databases (KDD) Definisi Knowledge Discovery

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

SVM untuk Regresi. Machine Learning

SVM untuk Regresi. Machine Learning MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA Irwan Budiman 1, Dodon Turianto Nugrahadi 2, Radityo Adi Nugroho 3 Universitas Lambung Mangkurat 1,2,3 irwan.budiman@unlam.ac.id

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database

Lebih terperinci

APLIKASI DATA MINING UNTUK POLA PERMINTAAN DARAH DI UDD ( UNIT DONOR DARAH ) PMI KOTA SURABAYA MENGGUNAKAN METODE APRIORI

APLIKASI DATA MINING UNTUK POLA PERMINTAAN DARAH DI UDD ( UNIT DONOR DARAH ) PMI KOTA SURABAYA MENGGUNAKAN METODE APRIORI APLIKASI DATA MINING UNTUK POLA PERMINTAAN DARAH DI UDD ( UNIT DONOR DARAH ) PMI KOTA SURABAYA MENGGUNAKAN METODE APRIORI Budanis Dwi Meilani, dan Dermawan Cahyo Utomo Jurusan Teknik Informatika, Fakultas

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Turban mendefinisikan Decision Support System sebagai sekumpulan

BAB II TINJAUAN PUSTAKA. Turban mendefinisikan Decision Support System sebagai sekumpulan BAB II TINJAUAN PUSTAKA 2.1 Decision Support System Turban mendefinisikan Decision Support System sebagai sekumpulan prosedur berbasis model untuk data pemrosesan dan penilaian guna membantu para pengambilan

Lebih terperinci

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN Fauziah Nur1, Prof. M. Zarlis2, Dr. Benny Benyamin Nasution3 Program Studi Magister Teknik Informatika, Universitas

Lebih terperinci

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY DATA WAREHOUSE - PERTEMUAN 1 - KNOWLEGDE DISCOVERY in DATABASE (KDD) Penemuan Pengetahuan di Database Tujuan : Mahasiswa Dapat memahami konsep KDD yang merupakan tujuan akhir dari Data Warehouse dan Data

Lebih terperinci

information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi

information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi ABSTRAK Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi sejalan dengan pertumbuhan teknologi informasi.

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1. Data Mining Data mining adalah proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai untuk meningkatkan

Lebih terperinci

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak DATA MINING MELIHAT POLA HUBUNGAN NILAI TES MASUK MAHASISWA TERHADAP DATA KELULUSAN MAHASISWA UNTUK MEMBANTU PERGURUAN TINGGI DALAM MENGAMBIL KEBIJAKAN DALAM RANGKA PENINGKATAN MUTU PERGURUAN TINGGI Timor

Lebih terperinci

PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING

PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING Andreas Chandra Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman, Yogyakarta 55281 Email : andreaschaandra@yahoo.com

Lebih terperinci

BAB 1 PENDAHULUAN. teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Hampir

BAB 1 PENDAHULUAN. teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Hampir BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan database yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Hampir semua data tersebut

Lebih terperinci

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database 2. Tinjauan Pustaka 2.1 Data Mining Data mining merupakan ilmu yang mempelajari tentang proses ekstraksi informasi yang tersembunyi dari sekumpulan data yang berukuran sangat besar dengan menggunakan algoritma

Lebih terperinci

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009 Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES Bertalya Universitas Gunadarma 2009 Data Mining (DM) DM merupakan suatu proses penjelajahan otomatis untuk mendapatkan informasi berguna

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

SEGMENTASI CITRA. thresholding

SEGMENTASI CITRA. thresholding SEGMENTASI CITRA Dalam visi komputer, Segmentasi adalah proses mempartisi citra digital menjadi beberapa segmen (set piksel, juga dikenal sebagai superpixels). Tujuan dari segmentasi adalah untuk menyederhanakan

Lebih terperinci

2. Data & Proses Datamining

2. Data & Proses Datamining 2. Data & Proses Datamining Data 1. Input (Dataset) 2. Pengolahan Data Awal 3. Metode Learning Tahapan Utama Proses Data Mining Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model/ Knowledge)

Lebih terperinci

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING BAB IV GAMBARAN UMUM METODOLOGI DATA MINING A. Metodologi Data Mining Metodologi Data Mining Komponen data mining pada proses KDD seringkali merupakan aplikasi iteratif yang berulang dari metodologi data

Lebih terperinci

ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek)

ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek) ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek) Meriska Defriani 1, Noviyanti 2 1 STT Wastukancana 2 Teknik Informatika,

Lebih terperinci

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES Selvy Megira 1), Kusrini 2), Emha Taufiq Luthfi 3) 1), 2), 3) Teknik Universitas AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,

Lebih terperinci

TINJAUAN PUSTAKA Data Mining

TINJAUAN PUSTAKA Data Mining 25 TINJAUAN PUSTAKA 2.1. Data Mining Definisi sederhana dari data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database. Secara lengkap, Data mining merupakan

Lebih terperinci

PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA

PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA 1 Yulison Herry Chrisnanto, 2 Gunawan Abdillah 1,2 Jurusan Informatika Fakultas

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Beberapa penelitian terdahulu telah banyak yang menerapkan data mining, yang bertujuan dalam menyelesaikan beberapa permasalahan seputar dunia pendidikan. Khususnya

Lebih terperinci

Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas Memahami definisi, proses serta teknik data mining. Pengenalan

Lebih terperinci

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan BAB 1 PERSYARATAN PRODUK Bab ini membahas mengenai hal umum dari produk yang dibuat, meliputi tujuan, ruang lingkup proyek, perspektif produk, fungsi produk dan hal umum yang lainnya. 1.1 Pendahuluan Hal

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pasar modal merupakan salah satu bagian dari pasar keuangan, di samping pasar uang, yang sangat penting peranannya bagi pembangunan nasional pada umumnya dan bagi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA A. Knowledge Discovery in Database (KDD) dan Data Mining Banyak orang menggunakan istilah data mining dan knowledge discovery in databases (KDD) secara bergantian untuk menjelaskan

Lebih terperinci

II. TINJAUAN PUSTAKA

II. TINJAUAN PUSTAKA II. TINJAUAN PUSTAKA 2.1 Sistem Informasi Manajemen Mcleod R dan Schell G, (2004) membagi sumber daya menjadi dua bagian yaitu sumberdaya fisikal dan sumberdaya konseptual. Sumber daya fisikal terdiri

Lebih terperinci

Student Clustering Based on Academic Using K-Means Algoritms

Student Clustering Based on Academic Using K-Means Algoritms Student Clustering Based on Academic Using K-Means Algoritms Hironimus Leong, Shinta Estri Wahyuningrum Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata marlon.leong@gmail.com

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia Prosiding Statistika ISSN: 2460-6456 Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia Supiyah, 2 Aceng Komarudin Mutaqin, 3 Teti

Lebih terperinci

MODUL 12 Model Prediktif

MODUL 12 Model Prediktif MODUL 12 Model Prediktif Prediktif Analytics adalah teknologi yang menangkap proses data mining dalam rutinitas sederhana. Kadang-kadang disebut "one-click data mining," Model ini menyederhanakan dan mengotomatisasi

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Dalam mencapai tujuan pembangunan ekonomi diperlukan peran serta lembaga keuangan untuk membiayai pembangunan tersebut. Lembaga keuangan memegang peranan penting dalam

Lebih terperinci

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering. BAB I PENDAHULUAN 1.1. Latar Belakang Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang

Lebih terperinci

Support Vector Machine

Support Vector Machine MMA10991 Topik Khusus Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,

Lebih terperinci

Bab 2 Tinjauan Pustaka

Bab 2 Tinjauan Pustaka Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu Adapun penelitian terdahulu yang berkaitan dalam penelitian ini berjudul Penentuan Wilayah Usaha Pertambangan Menggunakan Metode Fuzzy K-Mean Clustering

Lebih terperinci

BAB II KAJIAN PUSTAKA

BAB II KAJIAN PUSTAKA BAB II KAJIAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah alat dan teknik perangkat lunak yang bisa memberikan saransaran untuk item yang sekiranya bermanfaat bagi pengguna (Ricci, et al.,

Lebih terperinci

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU PROYEK TUGAS AKHIR IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU (Studi Kasus : SMK Pembangunan Nasional Purwodadi) Disusun oleh: Novian Hari Pratama 10411 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS

Lebih terperinci

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM)

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM) KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM) SKRIPSI Disusun Oleh : MEKAR SEKAR SARI NIM. 24010210120008 JURUSAN STATISTIKA FAKULTAS

Lebih terperinci

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means, K- Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA

PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA Diajeng Tyas Purwa Hapsari Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman, Yogyakarta 55281 Email :

Lebih terperinci

ANALISIS DATA MINING UNTUK MENENTUKAN VARIABEL VARIABEL YANG MEMPENGARUHI KELAYAKAN KREDIT KEPEMILIKAN RUMAH MENGGUNAKAN TEKNIK KLASIFIKASI

ANALISIS DATA MINING UNTUK MENENTUKAN VARIABEL VARIABEL YANG MEMPENGARUHI KELAYAKAN KREDIT KEPEMILIKAN RUMAH MENGGUNAKAN TEKNIK KLASIFIKASI ANALISIS DATA MINING UNTUK MENENTUKAN VARIABEL VARIABEL YANG MEMPENGARUHI KELAYAKAN KREDIT KEPEMILIKAN RUMAH MENGGUNAKAN TEKNIK KLASIFIKASI Aulia Fitrul Hadi Universitas Putra Indonesia YPTK Padang E-mail:

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Pengertian Data Mining Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik

Lebih terperinci

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang) Hapsari Dita Anggraeni, Ragil Saputra, Beta Noranita APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang) Hapsari Dita

Lebih terperinci

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari 2017 50 APLIKASI KLASIFIKASI ALGORITMA C4.5 (STUDI KASUS MASA STUDI MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS MULAWARMAN

Lebih terperinci

2.2 Data Mining. Universitas Sumatera Utara

2.2 Data Mining. Universitas Sumatera Utara Basis data adalah kumpulan terintegrasi dari occurences file/table yang merupakan representasi data dari suatu model enterprise. Sistem basisdata sebenarnya tidak lain adalah sistem penyimpanan-record

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Ketika disodori sejumlah data dari suatu obyek atau kejadian, apa yang bisa dilakukan terhadap data untuk menindaklanjutinya? Data perlu diolah untuk mendapatkan

Lebih terperinci

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi IJCCS, Vol.x, No.x, July xxxx, pp. 1~5 ISSN: 1978-1520 39 Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi Irwan

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci