BAB 2 LANDASAN TEORI 2.1 Pengertian Data Mining

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB 2 LANDASAN TEORI 2.1 Pengertian Data Mining"

Transkripsi

1 BAB 2 LANDASAN TEORI 2.1 Pengertian Data Mining Menurut Han dan Kamber (2011, p36), data mining adalah proses menemukan pola yang menarik dan pengetahuan dari data yang berjumlah besar. Sedangkan menurut Linoff dan Berry (2011, p7) Data mining adalah suatu pencarian dan analisa dari jumlah data yang sangat besar dan bertujuan untuk mencari arti dari pola dan aturan. Lalu menurut Connolly dan Begg,(2010), Data mining adalah suatu proses ekstraksi atau penggalian data yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting. Dan menurut Vercellis (2009, p77), Data mining adalah aktivitas yang menggambarkan sebuah proses analisis yang terjadi secara iteratif pada database yang besar, dengan tujuan mengekstrak informasi dan knowledge yang akurat dan berpotensial berguna untuk knowledge workers yang berhubungan dengan pengambilan keputusan dan pemecahan masalah. Dari beberapa teori yang dijabarkan oleh para ahli diatas, bahwa Data mining adalah suatu pencarian dan analisa pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik dengan tujuan mengekstrak informasi dan knowledge yang akurat dan berpotensial, serta dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting. Menurut Han dan Kamber, (2011, p24), secara garis besar data mining dapat dikelompokkan menjadi 2 kategori utama, yaitu: Predictive Predictive merupakan proses untuk menemukan pola dari data dengan menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat dalam predictive mining adalah klasifikasi. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variable bebas. Contohnya, perusahaan retail dapat menggunakan 7

2 8 data mining untuk memprediksikan penjualan dari produk mereka di masa depan dengan menggunakan data-data yang telah didapatkan dari beberapa minggu. Descriptive Descriptive dalam data mining merupakan proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk validasi dan penjelasan hasil. Menurut Hoffer, Ramesh & Topi (2012), tujuan dari adanya data mining adalah: explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu kondisi. confirmatory, yaitu untuk mengkonfirmasi suatu hipotesis yang telah ada. exploratory, yaitu untuk menganalisis data baru suatu relasi yang janggal. Karakteristik data Mining menurut Turban (2007, p230): a. Seringnya data terpendam dalam database yang sangat besar dan kadang datanya sudah bertahun-tahun. b. Lingkungan data mining biasanya berupa arsitektur client-server atau arsitektur system informasi berbasis web. c. Tool baru yang canggih, termasuk tool visualisasi tambahan, membantu menghilangkan lapisan informasi yang terpendam dalam file-file yang berhubungan atau record-record arsip publik. d. Pemilik biasanya seorang end user, didukung dengan data drill dan tool penguasaan query yang lain untuk menanyakan pertanyaan dan mendapatkan jawaban secepatnya, dengan sedikit atau tidak ada kemampuan pemrograman. e. Tool data mining dengan kesediannya dikombinasikan dengan spreadsheet dan tool software pengembangan yang lainnya. f. Karena besarnya jumlah data dan usaha pencarian yang besar-besaran, kadang-kadang diperlukan penggunaan proses parallel untuk data mining. Kelebihan Data Mining sebagai alat analisis : a. Data mining mampu menangani data dalam jumlah besar dan kompleks. b. Data mining dapat menangani data dengan berbagai macam tipe atribut.

3 9 c. Data mining mampu mencari dan mengolah data secara semi otomatis. Disebut semi otomatis karena dalam beberapa teknik data mining, diperlukan parameter yang harus di-input oleh user secara manual. d. Data mining dapat menggunakan pengalaman ataupun kesalahan terdahulu untuk meningkatkan kualitas dan hasil analisa sehingga mendapat hasil yang terbaik. 2.2 Fungsi Data Mining Menurut Maclennan, Tang, & Crivat (2009, p6). Berikut adalah fungsi data mining secara umum : 1. Classification Classification adalah proses untuk mencari model atau fungsi yang menggambarkan dan membedakan kelas-kelas atau konsep data. Fungsi dari Classification adalah untuk mengklasifikasikan suatu target class ke dalam kategori yang dipilih. Gambar 2.1 Classification - Decision Tree Sumber: (Maclennan, Tang, & Crivat, 2009, p7) Decision tree adalah sebuah flowchart yang menyerupai struktur pohon, dimana tiap node menunjukkan sebuah test dari nilai atribut, tiap cabang merepresentasikan sebuah hasil dari test, dan decision tree merepresantasikan kelas-kelas atau distribusi kelas. Decision trees dapat dengan mudah di konversi ke aturan klasifikasi. Neural network ketika digunakan untuk klasifikasi, biasanya koleksi dari neuron seperti unit pengolahan dengan pertimbangan koneksi antara tiap unit. Ada banyak metode untuk membangun model klasifikasi seperti naïvebayesian classification, support vector machine (SVM) dan k-nearest neighbor classication.

4 10 2. Clustering Fungsi dari clustering adalah untuk mencari pengelompokkan atribut ke dalam segmentasi-segmentasi berdasarkan similaritas. Gambar 2.2 Clustering Sumber: (Maclennan, Tang, & Crivat, 2009, p7) 3. Association Fungsi dari association adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan rule association yang ada. Gambar 2.3 Product Association Sumber: (Maclennan, Tang, & Crivat, 2009, p7) 4. Regression Fungsi dari regression hampir sama dengan klasifikasi. Fungsi dari regression adalah bertujuan untuk mencari prediksi dari suatu pola yang ada. 5. Forecasting Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkan trend yang telah terjadi di waktu sebelumnya.

5 11 Gambar 2.4 Time Series Sumber: (Maclennan, Tang, & Crivat, 2009, p8) 6. Sequence Analysis Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian. Gambar 2.5 Web Navigation Sequence Sumber: (Maclennan, Tang, & Crivat, 2009, p9) 7. Deviation Analysis Fungsi dari deviation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal). 2.3 Data Preprocessing Menurut Han dan Kamber (2011, p83), Tahapan Data Preprocessing terbagi menjadi: Data Preprocessing : An Overview Pada bagian ini menyajikan gambaran dari data preprocessing. Pada bagian data quality, mengilustrasikan banyak unsur yang menentukan

6 12 kualitas data. Ini memberikan insentif balik bagi Data preprocessing dan selanjutnya menguraikan tugas utama dalam data preprocessing. Data Quality: Data memiliki kualitas jika data tersebut memenuhi persyaratan dari penggunaan yang data yang dimaksudkan. Faktor-faktor yang terdiri dari kualitas data seperti akurasi, kelengkapan, konsistensi, ketepatan waktu, kepercayaan, dan interpretability. Banyak alasan yang memungkinkan untuk data yang tidak akurat (yaitu, memiliki nilai atribut yang salah). Kesalahan dalam transmisi data juga dapat terjadi. Kualitas data tergantung pada tujuan penggunaan data. Ketepatan waktu juga mempengaruhi kualitas data. Major Tasks in Data Preprocessing: Langkah-langkah utama yang terlibat dalam preprocessing data, yaitu data pembersihan, integrasi data, reduksi data, dan transformasi data. Pembersihan data bekerja untuk "membersihkan" data dengan mengisi nilai-nilai yang hilang, smoothing noisy data, mengidentifikasi atau menghapus outlier, dan menyelesaikan inkonsistensi. Langkah pre-processing yang berguna adalah menjalankan data dengan pembersihan data. Gambar 2.6 Bentuk Data preprocessing Sumber: Han dan Kamber, 2011, p Data Cleaning Pembersihan data (atau data cleansing) ber-upaya untuk mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengidentifikasi outlier, dan inkonsistensi yang benar dalam data.

7 13 Missing Values: Banyak tuple yang tidak memiliki nilai yang tercatat ke dalam atribut. Cara mengatasi missing values: 1. Abaikan tuple : dilakukan ketika label kelas hilang. Metode ini sangat tidak efektif, kecuali tuple berisi beberapa atribut dengan nilai-nilai yang hilang. Dengan mengabaikan tuple, memungkinkan untuk tidak menggunakan nilai-nilai atribut yang tersisa dalam tuple. 2. Isikan nilai yang hilang secara manual : Secara umum, pendekatan ini memakan waktu dan mungkin tidak layak diberi dataset yang besar dengan banyak nilai-nilai yang hilang 3. Gunakan konstan global untuk mengisi nilai yang hilang: Ganti semua nilai atribut yang hilang dengan konstanta yang sama seperti label "Unknown". 4. Gunakan ukuran tendensi sentral untuk atribut (misalnya, ratarata atau median ) untuk mengisi nilai yang hilang. 5. Gunakan atribut berarti atau rata-rata untuk semua sampel milik kelas yang sama seperti tuple yang diberikan. 6. Gunakan nilai yang paling mungkin untuk mengisi nilai yang hilang: dapat ditentukan dengan regresi, alat berbasis inferensi menggunakan formalisme Bayesian atau decision tree. Noisy Data: Noise adalah kesalahan acak atau varian dalam variabel yang diukur. Cara mengatasi Noisy Data: 1. Binning: pertama-tama melakukan pengurutan data dan partisi ke dalam (frekuensi yang sama) suatu tempat. 2. Regression: menghaluskan dengan mencocokkan data ke dalam fungsi regresi. 3. Outlier Analysis: Mendeteksi dan menghapus outlier. Data Cleaning as a Process: Melakukan deteksi perbedaan data menggunakan metadata (domain, range, ketergantungan, distribusi), mendeteksi bagian overloading, mendeteksi uniqueness rule, consecutive rule dan null, menggunakan komersial tools. Data migrasi dan integrasi: memungkinkan transformasi yang ditentukan dengan data migrasi tools dan memungkinkan pengguna untuk menentukan transformasi melalui pengguna grafis dengan ETL tools. Integrasi dari dua proses: Iterative dan Interactive.

8 Data Integration Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada Data Reduction Data Reduction berguna untuk mendapatkan pengurangan representasi dari kumpulan data yang jauh lebih kecil di dalam volume tetapi belum menghasilkan hasil yang sama (atau hampir sama) dari suatu hasil analisis. Teknik dalam Data Reduction: a) Strategi dimensionality reduction pengurangan data meliputi dimensionality reduction, numerosity reduction, dan kompresi data. b) Wavelet Transform: Data ditransformasikan ke jarak relatif antara obyek pada berbagai tingkat resolusi. c) Principal component Analysis d) Attribute Subset Reduction e) Regression dan Log linear models f) Histogram g) Clustering h) Sampling i) Data cube Agreggation Data Transformation and Data Discretization Dalam Data Transformation dan Data Discretization, data diubah atau dikonsolidasikan sehingga proses mining yang dihasilkan mungkin lebih efisien, dan pola yang ditemukan mungkin lebih mudah untuk dipahami.

9 15 Strategi Data Transformation: 1. Smoothing, yang bekerja untuk menghilangkan noise dari dana data. 2. Atribut konstruksi (konstruksi atau fitur), di mana atribut baru dibangun dan ditambahkan oleh himpunan atribut untuk membantu proses mining. 3. Agregasi, dimana ringkasan atau agregasi operasi diterapkan pada data. 4. Normalisasi, dimana data atribut adalah skala sehingga jatuh dalam kisaran yang lebih kecil. 5. Discretization, dimana nilai-nilai baku dari atribut numerik (misalnya, usia) akan diganti dengan label Interval (misalnya, 0-10, 11-20, dll) atau label konseptual (misalnya, remaja, dewasa,senior). 6. Generasi hirarki konsep untuk data nominal, di mana atribut dapat digeneralisasi untuk konsep-tingkat yang lebih tinggi, seperti kota atau negara. 2.4 Teknik Data Mining Teknik data mining terbagi menjadi tiga, yaitu: Association Rule Mining, Classification, Clustering dan Regretion Association Rule Mining Menurut Olson dan Shi (2013), Association Rule Mining merupakan teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item atau untuk menemukan hubungan hal tertentu dalam suatu transaksi data dengan hal lain di dalam transaksi, yang digunakan untuk memprediksi pola. Sedangkan menurut Han dan Kamber (2011, p246), Association Rule Mining terdiri dari itemset yang sering muncul. Association Rule Mining dapat dianalisa lebih lanjut untuk mengungkap aturan korelasi untuk menyampaikan korelasi statistik antara itemsets A dan B Classification Menurut Olson dan Shi (2013), Klasifikasi (Classification), metodemetodenya ditunjukan untuk pembelajaran fungsi-fungsi berbeda yang memetakan masing-masing data terpilih ke dalam salah satu dari kelompok kelas yang telah ditetapkan sebelumya. Menurut Han dan Kamber (2011,

10 16 327), Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. dasar pengukuran untuk mengukur kualitas dari penemuan teks, yaitu: Precision: tingkat ketepatan hasil klasifikasi terhadap suatu kejadian. Recall: tingkat keberhasilan mengenali suatu kejadian dari seluruh kejadian yang seharusnya dikenali. F-Measure adalah nilai yang didapatkan dari pengukuran precision dan recall antara class hasil cluster dengan class sebenarnya yang terdapat pada data masukan. Precision dan recall bisa didapatkan dengan rumus sebagai berikut : Gambar 2.7 : Rumus Precision dan Recall Sumber: (Wicaksana & Widiartha, 2012) Rumus untuk menghitung nilai F-Measure: Gambar 2.8: Rumus F-Measure Sumber: (Wicaksana & Widiartha, 2012) Keterangan nya adalah ni adalah jumlah data dari kelas i yang diharapkan sebagai hasil query, nj adalah jumlah data dari cluster j yang dihasilkan oleh query, dan nij adalah jumlah elemen dari kelas i yang masuk di cluster j. Untuk mendapatkan pembobotan yang seimbang antara precision dan recall, digunakan nilai b = 1. Untuk mendapatkan nilai F-Measure dari dataset dengan jumlah data n, maka rumus yang digunakan adalah sebagai berikut :

11 17 Gambar 2.9: Rumus F-Measure Dataset Sumber: (Wicaksana & Widiartha, 2012) Salah satu pengukur kinerja klasifikasi adalah tingkat akurasi. Sebuah sistem dalam melakukan klasifikasi diharapkan dapat mengklasifikasi semua set data dengan benar, tetapi tidak dipungkiri bahwa kinerja suatu sistem tidak bisa 100% akurat. (Prasetyo, 2012). Untuk menghitung akurasi digunakan formula : Gambar 2.10 : Rumus Akurasi Sumber: (Prasetyo,2012) Clustering Menurut Han dan Kamber (2011), Clustering adalah proses pengelompokkan kumpulan data menjadi beberapa kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan dan memiliki banyak perbedaan dengan objek dikelompok lain. Perbedaan dan persamaannya biasanya berdasarkan nilai atribut dari objek tersebut dan dapat juga berupa perhitungan jarak. Clustering sendiri juga disebut Unsupervised Classification, karena clustering lebih bersifat untuk dipelajari dan diperhatikan. Cluster analysis merupakan proses partisi satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian adalah cluster, sehingga objek yang di dalam cluster mirip satu sama dengan yang lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain. Partisi tidak dilakukan dengan manual tetapi dengan algoritma clustering. Oleh karena itu, Clustering sangat berguna dan bisa menemukan group yang tidak dikenal dalam data. Teknik clustering umumnya berguna untuk merepresentasikan data secara visual, karena data dikelompokkan berdasarkan kriteria-kriteria umum. Dari representasi target tersebut, dapat dilihat adanya kecenderungan lebih

12 18 tingginya jumlah lubang pada bagian-bagian atau kelompok-kelompok teretentu dari target tersebut Regresi Menurut Han dan Kamber (2011, p245), Regresi merupakan fungsi pembelajaran yang memetakan sebuh unsur data ke sebuah variabel prediksi bernilai nyata. 2.5 Metode Data Mining Menurut Han dan Kamber (2011, p327), metode data mining terdiri dari: Naïve Bayes Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes. Menurut Olson dan Delen (2008, p102) menjelaskan Naïve bayes untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan. Sedangkan menurut Han dan Kamber (2011, p351) Proses dari The Naïve Bayesian classifier, atau Simple Bayesian Classifier, sebagai berikut: 1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan kelas. Seperti biasa, setiap tuple diwakili oleh vektor atribut n- dimensi, X = (x1, x2,..., xn), ini menggambarkan pengukuran n dibuat pada tuple dari atribut n, masing-masing, A1, A2,..., An. 2. Misalkan ada kelas m, C1, C2,..., Cm. Diberi sebuah tuple, X, classifier akan memprediksi X yang masuk kelompok memiliki probabilitas posterior tertinggi, kondisi-disebutkan pada X. Artinya, classifier naive bayesian memprediksi bahwa X tuple milik kelas Ci jika dan hanya jika : Gambar 2.11 Rumus Classifier Naïve Bayesian (1) Sumber: Han dan Kamber (2011, p351)

13 19 Jadi memaksimalkan P (Ci X). Ci kelas yang P (Ci X) dimaksimalkan disebut hipotesis posteriori maksimal. Dengan teorema Bayes: Gambar 2.12: Rumus Classifier Naïve Bayesian (2) Sumber: Han dan Kamber (2011, p351) Keterangan : P(Ci X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X (Posterior probability) P(X Ci) = mencari nilai parameter yang memberi kemungkinan yang paling besar (likelihood) P(Ci) = Prior probability dari X (Prior probability) P(X) = Jumlah probability tuple yg muncul 1. Ketika P (X) adalah konstan untuk semua kelas, hanya P (X Ci) P (Ci) butuh dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui, maka umumnya diasumsikan ke dalam kelas yang sama, yaitu, P (C1) = P (C2) = = P (Cm), maka dari itu akan memaksimalkan P (X Ci). Jika tidak, maka akan memaksimalkan P (X Ci) P (Ci). Perhatikan bahwa probabilitas sebelum kelas dapat diperkirakan oleh P (Ci) = Ci, D / D, dimana Ci, D adalah jumlah tuple pelatihan kelas Ci di D. 2. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit dalam mengkomputasi untuk menghitung P(X Ci). Agar dapat mengurangi perhitungan dalam mengevaluasi P(X Ci), asumsi naïve independensi kelas bersyarat dibuat. Dianggap bahwa nilai-nilai dari atribut adalah kondisional independen satu sama lain, diberikan kelas label dari tuple (yaitu bahwa tidak ada hubungan ketergantungan diantara atribut ) dengan demikian :

14 20 Gambar 2.13 : Rumus Classifier Naïve Bayesian (3) Sumber: Han dan Kamber (2011, p351) Maka dapat dengan mudah memperkirakan probabilitas P (x1 Ci), P (x2 Ci),..., P (xn Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari apakah atribut tersebut kategorikal atau continuous-valued. Misalnya, untuk menghitung P (X Ci) mempertimbangkan hal-hal berikut: a. Jika Ak adalah kategorikal, maka P (Xk Ci) adalah jumlah tuple kelas Ci di D memiliki nilai Xk untuk atribut Ak, dibagi dengan Ci, D, jumlah tuple kelas Ci di D. b. Jika Ak continuous-valued, maka perlu melakukan sedikit lebih banyak pekerjaan, tapi perhitunganya cukup sederhana. Sebuah atribut continuous-valued biasanya diasumsikan memiliki distribusi Gaussian dengan rata-rata µ dan standar deviasi σ, didefinisikan oleh: Gambar 2.14 : Rumus Classifier Naïve Bayesian (4) Sumber: Han dan Kamber (2011, p351) sehingga : Gambar 2.15 : Rumus Classifier Naïve Bayesian (5) Sumber: Han dan Kamber (2011, p351) Setelah itu hitung µci dan σci, yang merupakan deviasi mean (rata-rata) dan standar masing-masing nilai atribut k untuk tuple pelatihan kelas Ci. Setelah itu gunakan kedua

15 21 kuantitas dalam Persamaan, bersama-sama dengan xk, untuk memperkirakan P (xk Ci). 3. Untuk memprediksi label kelas x, P(X Ci)P(Ci) dievaluasi untuk setiap kelas Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci, jika Gambar 2.16 : Rumus Classifier Naïve Bayesian (6) Sumber: Han dan Kamber (2011, p351) Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X Ci) P (Ci) adalah maksimal. Pengklasifikasi Bayesian memiliki tingkat kesalahan minimal dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk penggunaannya, seperti kondisi kelas independen, dan kurangnya data probabilitas yang tersedia. Pengklasifikasi Bayesian juga berguna dalam memberikan pembenaran teoritis untuk pengklasifikasi lain yang tidak secara eksplisit menggunakan teorema Bayes Decision Tree Menurut Han dan Kamber (2011, p332), Decision Tree adalah top-down pohon rekursif dari algoritma induksi, yang menggunakan ukuran seleksi atribut untuk memilih atribut yang diuji. Algoritma decision tree mencoba untuk meningkatkan akurasi dengan menghapus cabang-cabang pohon yang mencerminkan noise dalam data. Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai berakhir di leaf node (Yusuf, 2009). Decision Tree adalah sistem pendukung keputusan yang berupa pohon grafik keputusan. Decision Tree

16 22 digunakan untuk belajar classification function yang menyimpulkan nilai atribut dependen (variabel). (Girja, Bhargava & Mathuria, 2013) Entropy Entropy "digunakan dalam proses ini. Entropy adalah ukuran dari gangguan (disorder) data. Entropy diukur dalam bit. Ini juga disebut pengukuran ketidakpastian dalam setiap variabel acak. (Girja, Bhargava & Mathuria, 2013) Gambar 2.17 : Rumus Entropy Sumber: (Girja, Bhargava & Mathuria, 2013) Information Gain Informasi Gain adalah untuk mengukur input dan output diantara asosiasi. (Girja, Bhargava & Mathuria, 2013) Gambar 2.18 : Rumus Information Gain Sumber: (Girja, Bhargava & Mathuria, 2013) Confusion Matrix Confusion Matrix berisi informasi aktual dan klasifikasi prediksi dilakukan dengan sistem klasifikasi. Kinerja sistem nya menggunakan data dalam matriks. (Girja, Bhargava & Mathuria, 2013) Confidence Confidence adalah ukuran yang menilai tingkat kepastian asosiasi terdeteksi, ini diambil sebagai probabilitas bersyarat P (Y X), yaitu probabilitas bahwa transaksi yang mengandung X juga Berisi Y (Han dan Kamber,2011,p21). Support Support adalah ukuran yang mewakili persentase transaksi dari database transaksi yang diberikan aturan yang

17 23 memuaskan, ini diambil untuk menjadi P probabilitas (XUY), di mana XUY menunjukkan bahwa transaksi berisi baik X dan Y, yaitu sekumpulan itemset X dan Y. (Han dan Kamber,2011,p21) K-Means Menurut Aryan (2010) K-Means merupakan algoritma yang umum digunakan untuk clustering dokumen. Prinsip utama K-Means adalah menyusun k prototype atau pusat massa (centroid) dari sekumpulan data berdimensi n. Sebelum diterapkan proses algoritma K-means, dokumen akan di preprocessing terlebih dahulu. Kemudian dokumen direpresentasikan sebagai vektor yang memiliki term dengan nilai tertentu. Sedangkan menurut Chen yu (2010), K-Means merupakan algoritma untuk cluster n objek berdasarkan atribut menjadi k partisi, dimana k < n. Dari teori-teori yang dijabarkan oleh para ahli diatas, bahwa K-means merupakan salah satu metode data clustering non hirarki untuk clustering dokumen yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok berdasarkan atribut menjadi k partisi, dimana k < n. Algoritma K-means Menurut Widyawati, (2010), Algoritma k-means merupakan algoritma yang membutuhkan parameter input sebanyak k dan membagi sekumpulan n objek kedalam k cluster sehingga tingkat kemiripan antar anggota dalam satu cluster tinggi sedangkan tingkat kemiripan dengan anggota pada cluster lain sangat rendah. Kemiripan anggota terhadap cluster diukur dengan kedekatan objek terhadap nilai mean pada cluster atau dapat disebut sebagai centroid cluster atau pusat massa. Menurut Kantardzic (2009), teknik data mining yang paling umum, antara lain: Metode statistika klasik yaitu linier, quadratic dan logistic discriminate analyses.

18 24 Teknik statistika modern yaitu projection pursuit classification, density estimation, k-nearest neighbor, Bayesian networks. Artificial Neural Network (ANN), yaitu model matematis yang meniru atau mensimulasikan struktur dan aspek fungsi dari jaringan saraf biologis. Support Vector Machine (SVM), yaitu rangkaian metode supervised learning yang digunakan untuk klasifikasi dan regresi. Decision Trees (DT), yaitu tool pendukung suatu keputusan yang menggunakan grafik seperti pohon atau model keputusan yang terdiri dari konsekuensi-konsekuensi. Association Rules (AR), yaitu suatu metode riset untuk menemukan hubungan yang menarik antar variabel dalam suatu database yang besar. Case Based Reasoning (CBS), yaitu proses untuk memecahkan suatu masalah baru berdasarkan solusi dari masalah-masalah masa lalu yang mirip. Fuzzy Logic System (FLS), yaitu sebuah bentuk dari logika nilai ganda yang terkait dengan kesimpulan dari suatu alasan (reasoning) secara pendekatan. Logika fuzzy mempunyai nilai kebenaran diantara 0 dan 1. Genetic Algorithms (GA), yaitu algoritma pencarian heuristic yang meniru proses evolusi alam (genetika), untuk mendapatkan solusi yang optimum. Semakin meningkatnya kompleksitas dari sistem, maka beberapa teknik data mining digunakan secara bersama-sama dalam suatu penelitian. Menurut Paton & Amazouz (2009), beberapa peneliti menggunakan gabungan teknik data mining untuk mendapatkan kelebihan dari masingmasing teknik diantaranya : Hall Barbosa et al (2009) menggunakan Bayesian Neural Network untuk memprediksi kualitas dari produk destilasi untuk REPAR refinery di Brazil.

19 25 Zhou (2009) mengembangkan model NN untuk memonitor proses, deteksi kegagalan (fault) dan skema klasifikasi pada batch reaktor polimerisasi dalam proses produksi polymethylmethacrylate. Feedforward NN digunakan untuk memodelkan proses dan radial basis function (RBF) NN digunakan untuk klasifikasi. Zhou menggunakan regresi polynomial untuk mereduksi dimensi dari model NN. Zamprogna et al (2010) mengembangkan model berdasarkan PCA dan Partial Least Squares (PLS) untuk memonitor proses dan untuk mendeteksi ubnormality pada proses penuangan logam (steel casting). PCA/PLS digunakan untuk mengidentifikasi korelasi data dalam kondisi normal. Model memberikan pemahaman yang mendalam mengenai interaksi antar parameter proses sehingga dapat digunakan untuk mendeteksi kegagalan (ubnormality) di dalam proses. Ahvenlamp et al (2010) menggunakan kombinasi NN dan fuzzy logic untuk memprediksi nomor Kappa dan untuk memonitor perubahan di dalam variabel proses, untuk mendeteksi kegagalan dan untuk maksud klasifikasi. Dilaporkan bahwa kombinasi ini mempunyai performa prediksi yang baik dan dapat mendeteksi perilaku abnormal bahkan ketika deviasinya kecil. 2.6 Framework Data Mining Beberapa framework penerapan data mining telah dikembangkan berdasarkan proses bisnis industri dan bisnis. Framework tersebut dikembangkan karena kegiatan data mining semakin kompleks dengan melibatkan banyak data, kepakaran yang bervariasi ataupun lingkungan bisnis yang beragam. Karena itu, frameworks data mining diharapkan dapat dijadikan sebagai panduan untuk proses koleksi data, analisis, diseminasi hasil data mining dan pengembangan dari penerapan data mining tersebut. Beberapa framework yang berkembang saat ini adalah: 1. CRISP (Cross Industrial Standard Process for Data Mining). Framework ini diusulkan oleh konsorsium Uni Eropa. Secara umum CRISP terdiri dari tahapan pemahaman pada proses bisnis dan data, persiapan data, pemodelan, evaluasi dan penerapan. 2. DMAIC (Define-Measure-Analyze-Improve-Control). Framework ini berdasarkan pada metodologi Six-Sigma yang ditujukan untuk mengeliminasi cacat, pemborosan, berorientasi pada pengendalian

20 26 kualitas dalam kegiatan manufaktur, industri jasa, manajemen dan aktivitas lainnya. 3. SEMMA (Sample-Explore-Modify-Model-Assess). Framework ini dikembangkan oleh SAS (Statistical Analysis Sistem) Institute. Framework ini mempunyai tahapan yang mirip dengan Six-Sigma. 2.7 WEKA WEKA merupakan API Java yang menyediakan API untuk pengolahan dalam data mining yang berbasis open source (GPL) dan berengine JAVA. WEKA dikembagkan oleh Universitas Waikato di Selandia Baru dan juga merupakan perangkat lunak gratis yang tersedia dibawah GNU (General Public License). WEKA menyediakan penggunaan teknik klasifikasi menggunakan pohon keputusan dengan algoritma J48. Teknik yang digunakan WEKA adalah classifier. Menurut situs resmi WEKA (Waikato Environment for Knowledge Analysis), WEKA is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes. The Waikato Environment for Knowledge Analysis (Weka) adalah rangkaian lengkap perpustakaan kelas Java yang mengimplementasikan banyak state-of-the-art pembelajaran mesin dan algoritma data mining. Weka tersedia secara bebas di World Wide Web dan menyertai teks baru pada dokumen data mining dan sepenuhnya menjelaskan semua algoritma yang dikandungnya. Aplikasi yang ditulis menggunakan library class pada Weka yang dapat dijalankan pada komputer manapun dengan kemampuan browsing Web, ini memungkinkan pengguna untuk menerapkan teknik pembelajaran mesin untuk data mereka sendiri terlepas dari platform komputer. (Witten, Frank & Hall, 2011)

21 27 Gambar 2.19 : Tampilan Awal GUI WEKA Sumber: WEKA mulai dikembangkan sejak tahun 1994 dan telah menjadi software data mining open source yang paling popular. WEKA mempunyai kelebihan seperti mempunyai banyak algoritma data mining dan machine learning, kemudahan dalam penggunaannya, selalu up-to-date dengan algoritma-algoritma yang baru. Software WEKA tidak hanya digunakan untuk akademik saja namun cukup banyak dipakai oleh perusahaan untuk meramalkan bisnis dari suatu perusahaan. Ian H. Witten merupakan latar belakang dibalik kesuksesan WEKA. Beliau merupakan profesor di Universitas of Waikato, New Zealend, yang menekuni Digital Library, Text Mining, Machine Learning dan Information Retrieval. Pada Weka ada beberapa metode pemilihan variable dari suatu dataset, diantaranya BestFirst, ExhautiveSearch, FCBFSearch, GeneticSearch, GreedyStepwise, RaceSearch, RandomSearch, Rankerdan, RankerSearch. Metode atau Teknik yang digunakan Weka adalah Predictive dan Descriptive karena Weka mendukung teknik-teknik data preprocessing, clustering, classification, regression, visualization, dan feature Reduction. Semua teknik Weka adalah didasarkan pada asumsi bahwa data tersedia sebagai flat file tungggal atau hubungan, dimana setiap titik data digambarkan oleh sejumlah tetap atribut (biasanya, atribut numeric atau nominal, tetapi beberapa jenis atribut lain juga didukung) Format Input WEKA WEKA mendukung beberapa format file untuk inputnya, yaitu: Comma Separated Values (CSV): Merupakan file teks dengan pemisah tanda koma (,) yang cukup umum digunakan. File ini dapat dibuat dengan menggunakan Microsoft Excel atau membuat sendiri dengan menggunakan notepad.

22 28 Format C45: Merupakan format file yang dapat diakses dengan menggunakan aplikasi WEKA. Attribute-Relation File Format (ARFF): Merupakan tipe file teks yang berisi berbagai instance data yang berhubungan dengan suatu set atribut data yang dideskripsikan serta di dalam file tersebut. SQL Server/MySql Server: Dapat mengakses database dengan menggunakan SQL Server/MySql Server Algoritma J48 pada WEKA J48 merupakan implementasi C4.5 pada WEKA. J48 menangani himpunan data dalam format ARFF, tidak mengandung kode untuk mengkonstruksi pohon keputusan. Kelas ini mereferensi kelas-kelas lain, kebanyakan pada paket Weka. Classifiers J48, yang mengerjakan semua proses konstruksi pohon.adapun kelebihan C4.5 antara lain: C4.5 mampu menangani atribut dengan tipe diskrit atau kontinu C4.5 mampu menangani atribut yang kosong (Missing Value) C4.5 telah berkembang menjadi C5. C4.5 merupakan pengembangan dari ID3 (Iterative Dichotomiser 3). ID3 merupakan algoritma yang dipergunakan untuk membuat sebuah decision tree atau pohon keputusan. Algoritma ID3 ditemukan oleh J. Ross Quinlan, dengan memanfaatkan teori informasi milik Shanon. Idenya adalah membuat pohon dengan percabangan awal yang dapat membagi antara iya dan tidak. Pada WEKA ada pilihan untuk menggunakan ID3 dengan nama yang sama dan atributnya harus bertipe nominal dan tidak boleh terdapat atribut yang kosong Algoritma Naive Bayes pada WEKA Proses klasifikasi (classify) menggunakan metode Naïve Bayesian Classifier (dalam software Weka disebut sebagai metode NaïveBayes). WEKA dapat digunakan sebagai perangkat lunak pembelajaran mesin untuk menghasilkan dan model uji Naive Bayes secara otomatis. Kelas untuk Naive Bayes classifier menggunakan kelas estimator. Nilai estimator presisi Numeric dipilih berdasarkan analisis data training. Classifier ini akan menggunakan presisi default 0,1 untuk atribut numerik ketika buildclassifier

23 29 disebut dengan kasus tarining nol. Naive Bayes tidak memilih fitur penting. Hasil dari training Naive Bayes classifier adalah mean dan varians untuk setiap fitur. Klasifikasi sampel baru ke 'Ya' atau 'Tidak' didasarkan pada apakah nilai-nilai fitur dari sampel test terbaik dengan rata-rata dan varians dari fitur yang menjadi training baik untuk 'Ya' atau 'Tidak' Test Options WEKA WEKA memiliki empat jenis test option, yaitu: Use training set: Classifier ini dilakukan dengan menggunakan data training itu sendiri. Supplied test set: Classifier ini dievaluasi dengan memprediksi seberapa baik satu set class yang diambil dari sebuah file. Test option ini dilakukan dengan menggunakan data lain. Cara yang dilakukan adalah dengan mengklik set tombol yang menampilkan dialog yang memungkinkan untuk memilih file untuk menguji. Cross-validation: Classifier ini dievaluasi oleh cross-validation, menggunakan jumlah fold yang dimasukkan ke dalam kolom teks folds. Pada cross-validation akan ada pilihan berapa fold yang akan digunakan. Nilai default-nya adalah 10. Percentage split: Classifier ini dievaluasi dengan memprediksi seberapa baik persentase dari data yang digunakan selama pengujian. Jumlah data tersebut dibagi berdsarkan nilai yang dimasukkan ke dalam field%. 2.8 Structure Query Language (SQL) Menurut Connolly & Begg (2010, p221), Structure Query Language atau SQL adalah non producedural language terdiri dari kata english standar seperti SELECT, INSERT, dan DELETE yang digunakan oleh profesional dan nonprofesional. SQL menggunakan bahasa yang standar untuk mendefinisikan dan memanipulasi hubungan database. Sedangkan, menurut Hall (2011, p787), Structure Query Language adalah suatu alat pengolahan data untuk pengguna dan programmer profesional untuk mengakses data dalam basis data secara langsung tanpa membutuhkan program konvensional. Dari beberapa teori yang dijabarkan oleh para ahli diatas, bahwa Structure Query Language atau SQL adalah suatu alat pengolahan data untuk pengguna dan

24 30 programmer profesional untuk mengakses data non producedural language seperti SELECT, INSERT, dan DELETE. 2.9 Data Warehouse Menurut Turban (2011, p52), Data Warehouse adalah kumpulan data yang dibuat untuk mendukung pengambilan keputusan dan juga merupakan tempat penyimpanan data sekarang dan lampau. Data warehouse memiliki bentuk bentuk, yaitu: Functional Data Warehouse Functional Data Warehouse dibuat lebih dari satu dan dikelompokkan berdasarkan masing-masing fungsinya. Penerapan jenis pengumpulan data dengan tipe ini dapat beresiko kehilangan konsistensi data diluar lingkungan bisnis. Centralized Data Warehouse Centralized Data Warehouse terlihat seperti bentuk Functional Data Warehouse, namun seumber data terlebih dahulu dikumpulkan dan diintegrasikan secara terpusat pada suatu tempat, dan setelah itu, data dapat dibagi-bagi berdasarkan fungsi-fungsi yang dibutuhkan. Pada bentuk ini, pemakai hanya dapat mengambil data dari bagian pengumpulan saja, dan tidak secara langsung berhubungan dengan pemasok data. Distributed Data Warehouse Distributed Data Warehouse memungkinkan user untuk berhubungan secara langsung dengan sumber data dan pusat pengumpul data lain. Pada bentuk ini mengandalkan keunggulan dari teknologi client-server, untuk mengambil data dari berbagai sumber OLTP (Online Transaction Processing) Menurut Kimball (2010, p408), OLTP adalah gambaran pasti dari segala aktifitas dan asosiasi sistem dengan menginput data yang dapat dipercaya ke dalam database. OLTP menggambarkan sebuah kebutuhan sistem dalam ruang lingkup operasional dan merupakan proses yang dapat mendukung kegiatan bisnis sehari hari. Sedangkan, menurut Connolly dan Begg (2010, p1199), OLTP adalah sebuah sistem yang telah dirancang untuk menangani pemrosesan transaksi tingkat tinggi. Dari beberapa teori yang dijabarkan oleh para ahli diatas, dapat diambil kesimpulan bahwa OLTP (Online Transaction Processing), merupakan sebuah

25 31 sistem yang telah dirancang untuk menangani pemrosesan transaksi tingkat tinggi yang dapat mendukung kegiatan bisnis sehari hari ETL (Extraction Transformation Loading) Menurut Vercellis (2009, p53), ETL (Extraction Transformation Loading) mengacu pada alat piranti lunak yang didedikasikan untuk melakukan ekstraksi, transformasi, dan load data ke dalam data warehouse. Menurut Kimball dan Ross (2010, p8) Extract-transform-load (ETL) adalah kumpulan dari proses dimana sumber data operational disiapkan untuk dimasukan kedalam data warehouse. Proses ekstraksi (extracting) data operational dari sumber aplikasi, mengubah bentuknya (transform), mengeluarkan (loading) dan membuat index dari data itu, menjamin kualitas dari data tersebut, dan menerbitkan data tersebut. 1. Data Extraction Menurut Kimball dan Ross (2010, p8), extraction adalah langkah pertama dalam proses memasukkan data ke dalam lingkungan data warehouse. Extracting berarti membaca dan memahami sumber data dan menyalin data yang dibutuhkan untuk data warehouse ke dalam staging area untuk manipulasi lebih jauh. 2. Data Transforming Menurut Kimball dan Ross (2010, p8), setelah data di ekstrak ke staging area, ada banyak perubahan yang mungkin dilakukan, seperti cleansing data (memperbaiki kesalahan ejaan, mengatasi konflik domain, menangani bagian yang hilang, atau parsing ke dalam format standar), menggabungkan data dari berbagai sumber, menghilangkan data berulang, dan memberikan warehouse keys. 3. Data Loading Menurut Kimball dan Ross (2010, p8),setelah melakukan transformasi maka data dapat dimuat ke dalam data warehouse. Sedangkan, menurut Connolly dan Begg (2010, 1208), loading data ke dalam data warehouse dapat terjadi setelah semua transformasi telah terjadi atau sebagai bagian dari proses transformasi. Trigger yang akan aktif pada saat dilakukan loading data, juga berkontribusi pada kualitas seluruh kinerja data pada proses ETL. Dari beberapa teori yang dijabarkan oleh para ahli diatas, dapat diambil kesimpulan bahwa ETL (Extraction Transformation Loading) mengacu pada alat

26 32 piranti lunak dimana sumber data operational disiapkan untuk dimasukan kedalam data warehouse. Proses ekstraksi (extracting) data operational dari sumber aplikasi, mengubah bentuknya (transform), mengeluarkan (loading) dan membuat index dari data itu, menjamin kualitas dari data tersebut, dan menerbitkan data tersebut Star Schema Menurut Turban (2011, p75), Skema Bintang (Star Schema) adalah sebuah dimensional modeling yang menampilkan satu atau beberapa table fakta yang terhubung dengan beberapa table dimensi, dimana table fakta mengandung atribut deskriptif dan table dimensi menandung klasifikasi dan kumpulan informasi tentang nilai dari table fakta. Sedangkan, menurut Connolly dan Begg (2010, p1227), star schema adalah struktur logikal yang memiliki tabel fakta yang memuat data faktual di pusat dan dikelilingi oleh tabel dimensi yang memuat data referensi (yang dapat didenormalisasi). Fact table Menurut Connolly dan Begg (2010, p1227), tabel fakta merupakan tabel yang memiliki sebuah composite primary key dimana tabel tersebut akan membentuk sebuah model dimensional. Dimention Table Menurut Connolly dan Begg (2010, p1227), tabel dimensi merupakan sekumpulan dari tabel-tabel yang lebih kecil yang memiliki sebuah primary key sederhana yang merespon secara benar terhadap salah satu komponen dari composite key yang ada dari tabel fakta. Dari beberapa teori yang dijabarkan oleh para ahli diatas, dapat diambil kesimpulan bahwa Skema Bintang (Star Schema) adalah struktur logikal yang menampilkan satu atau beberapa table fakta yang terhubung dengan beberapa table dimensi Rumah Sakit Rumah sakit adalah suatu badan usaha yang menyediakan dan memberikan jasa pelayanan medis jangka pendek dan jangka panjang yang terdiri atas tindakan observasi, diagnostik, terapeutik dan rehabilitative untuk orang-orang yang menderita sakit, terluka dan untuk yang melahirkan (World Health Organization). Rumah sakit merupakan sarana upaya kesehatan serta dapat dimanfaatkan untuk pendidikan tenaga kesehetan dan penelitian (permenkes no.159b/1988)

27 33 UU NO.44 tahun 2009 tentang rumah sakit, rumah sakit adalah institusi pelayanan kesehatan yang menyelenggarakan pelayanan kesehatan perorangan secara paripurna yang menyediakan pelayanan rawat inap, rawat jalan dan gawat darurat. Pelayanan rumah sakit juga diatur dalam KODERSI/kode etik rumah sakit, dimana kewajiban rumah sakit terhadap karyawan, pasien dan masyarakat diatur. Berdasarkan Pasal 29 ayat (1) huruf f dalam UU No. 44 Tahun 2009 tentang Rumah Sakit. Rumah Sakit sebenarnya memiliki fungsi sosial yaitu antara lain dengan memberikan fasilitas pelayanan pasien tidak mampu/miskin, pelayanan gawat darurat tanpa uang muka, ambulans gratis, pelayanan korban bencana dan kejadian luar biasa, atau bakti sosial bagi misi kemanusiaan. Pelanggaran terhadap kewajiban tersebut bisa berakibat dijatuhkannya sanksi kepada Rumah Sakit tersebut, termasuk sanksi pencabutan izin Rekam Medik Menurut Edna K Huffman, Rekam medik adalah berkas yang menyatakan siapa, apa, mengapa, dimana, kapan, dan bagaimana pelayanan yang diperoleh seorang pasien selama dirawat atau menjalani pengobatan. Menurut Permenkes No. 79a/Menkes /Per/XII/1989, Rekam medik adalah berkas yang berisi catatan dan dokumen mengenai identitas pasien, hasil pemeriksaan, pengobatan, tindakan dan pelayanan lainnya yang diterima pasien pada sarana kesehatan, baik rawat jalan maupun rawat inap. Menurut Gemala Hatta, Rekam Medik merupakan kumpulan fakta tentang kehidupan seseorang dan riwayat penyakitnya, termasuk keadaan sakit, pengobatan saat ini, dan saat lampau yang ditulis oleh para praktisi kesehatan dalam upaya mereka membiarkan pelayanan kesehatan kepada pasien. Berdasarkan pengertian diatas rekam medik adalah suatu catatan dari setiap orang yang melakukan pengobatan, yang berisi tentang data riwayat penyakit saati ini dan masa lampau yang ditulis oleh praktisi kesehatan ICD-10 Menurut WHO (2004) ICD-10 merupakan klasifikasi statistik, yang terdiri dari sejumlah kode alfanumerik yang satu sama lain berbeda (mutually exclusive) menurut kategori, yang menggambarkan konsep seluruh penyakit. Menurut WHO (2004), ICD-10 terdiri dari 3 volume yaitu: 1. Volume 1 berisi klasifikasi utama.

28 34 Sebagian besar buku Volume 1 terdiri dari daftar kategori3 karakter dan daftar tabel inklusi dan subkategori 4 karakter. Inti klasifikasi adalah daftar kategori 3 karakter yang dianjurkan untuk pelaporan ke WHO mortality database dan perbandingan umum internasional. Daftar bab dan judul blok juga termasuk inti klasifikasi. Daftar tabular memberikan seluruh rincian level 4 karakter dan dibagi dalam 22 bab. 2. Volume 2 berisi petunjuk pemakaian ICD 3. Volume 3 berisi alfabet klasifikasi, dibagi dalam 3 bagian: Bagian 1, terdiri atas indeks tentang penyakit dan luka alami. Bagian 2, merupakan indeks penyebab luar morbiditas dan mortalitas, berisi seluruh term yang diklasifikasi. Bagian 3, berisi tabel obat dan bahan kimia. Kode utama untuk penyakit yang mendasari diberi tanda dagger ( ) dan kode tambahan untuk manifestasinya diberi tanda asterisk (*). Kode dagger adalah kode utama dan harus selalu digunakan. Dalam coding, kode asterisk tidak bisa digunakan sendiri

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah BAB III METODOLOGI Dalam penelitian ini metodologi memegang peranan penting guna mendapatkan data yang obyektik, valid dan selanjutnya digunakan untuk memecahkan permasalahan yang telah dirumuskan. Maka

Lebih terperinci

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh : ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI Oleh : Frista Yulianora 1401128832 Muchammad Hasbi Latif 1401136065 Rika Jubel Febriana

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

BAB 2. Landasan Teori

BAB 2. Landasan Teori BAB 2 Landasan Teori 2.1 Pengertian Data Mining Menurut Han dan Kamber (2011:6) menjelaskan bahwa Data Mining merupakan pemilihan atau menggali pengetahuan dari jumlah data yang banyak. Berbeda dengan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan BAB 1 PERSYARATAN PRODUK Bab ini membahas mengenai hal umum dari produk yang dibuat, meliputi tujuan, ruang lingkup proyek, perspektif produk, fungsi produk dan hal umum yang lainnya. 1.1 Pendahuluan Hal

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

BAB III LANDASAN TEORI

BAB III LANDASAN TEORI BAB III LANDASAN TEORI Dalam bab ini akan dijelaskan tentang beberapa konsep tentang supra desa, business intelligence, data warehouse, staging area, ETL, OLAP, ROLAP, Pentaho Data Integration, dan PHP.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining.

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining. Modul Praktikum WEKA Yudi Wibisono (e: yudi@upi.edu ); t: @yudiwbs Ilmu Komputer Universitas Pendidikan Indonesia (cs.upi.edu) Versi BETA : Oktober 2013 http://creativecommons.org/licenses/by-nc-sa/3.0/

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Emosi merupakan salah 7 satu aspek yang berperan penting dalam proses pembelajaran. Banyak parameter yang dapat menentukan kondisi emosi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data mining

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : Tabel 2.1 Penelitian sebelumnya Parameter Penulis Objek Metode Hasil

Lebih terperinci

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES Selvy Megira 1), Kusrini 2), Emha Taufiq Luthfi 3) 1), 2), 3) Teknik Universitas AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,

Lebih terperinci

jumlah keluarga, dan jumlah rumah. Data diambil dari hasil sensus potensi desa yang dilakukan BPS tahun 1996, 1999, 2003, dan 2006.

jumlah keluarga, dan jumlah rumah. Data diambil dari hasil sensus potensi desa yang dilakukan BPS tahun 1996, 1999, 2003, dan 2006. 1 Latar Belakang PENDAHULUAN Kemajuan teknologi komputer semakin memudahkan proses penyimpanan dan pengolahan data berukuran besar. Namun demikian, seringkali data yang sudah tersimpan belum dimanfaatkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Pendahuluan Didalam bab ini menceritakan semua teori-teori yang digunakan didalam proses algoritma decision tree, algoritma Random tree dan Random Florest serta teoriteori dan

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan

Lebih terperinci

Analisis Pola Pemilihan Konsentrasi Ilmu Jurusan Sistem Informasi Di STMIK TIME

Analisis Pola Pemilihan Konsentrasi Ilmu Jurusan Sistem Informasi Di STMIK TIME Volume VI No 2, Desember 2017 pissn : 2337 3601 eissn : 2549 015X Tersedia online di http://ejournal.stmik-time.ac.id Analisis Pola Pemilihan Konsentrasi Ilmu Jurusan Sistem Informasi Di STMIK TIME Herman

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Imam Sutoyo AMIK BSI JAKARTA e-mail: imam.ity@bsi.ac.id Abstrak - Klasifikasi peserta didik merupakan kegiatan yang sangat penting

Lebih terperinci

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN: KAJIAN KOMPARASI ALGORITMA C4.5, NAÏVE BAYES DAN NEURAL NETWORK DALAM PEMILIHAN PENERIMA BEASISWA (Studi Kasus pada SMA Muhammadiyah 4 Jakarta ) Ulfa Pauziah Program Studi Teknik Informatika, Universitas

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database

Lebih terperinci

ABSTRAK. Keywords : Data Mining, Filter, Data Pre-Processing, Association, Classification, Deskriptif, Prediktif, Data Mahasiswa.

ABSTRAK. Keywords : Data Mining, Filter, Data Pre-Processing, Association, Classification, Deskriptif, Prediktif, Data Mahasiswa. ABSTRAK Kemajuan teknologi membuat begitu mudahnya dalam pengolahan suatu informasi. Waktu tidak lagi menjadi hambatan dalam pengolahan data yang sangat banyak. Hal ini didukung pula dengan adanya perkembangan

Lebih terperinci

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel BAB III PEMBAHASAN A. Sumber Data Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel peminjam dengan jaminan sertifikat tanah, tunjuk, dan Buku Pemilik Kendaraan Bermotor (BPKB) serta

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

DATA WAREHOUSING AND ONLINE ANALYTICAL PROCESSING (OLAP)

DATA WAREHOUSING AND ONLINE ANALYTICAL PROCESSING (OLAP) DATA WAREHOUSING AND ONLINE ANALYTICAL PROCESSING (OLAP) Overview Data Warehouse dan OLAP merupakan elemen penting yang mendukung decision support. Terutama bagi perusahaan perusahaan besar dengan database

Lebih terperinci

Versi Online tersedia di : JURNAL TECH-E (Online)

Versi Online tersedia di :  JURNAL TECH-E (Online) JURNAL TECH-E - VOL. 1 NO. 1 (2017) Versi Online tersedia di : http://bsti.ubd.ac.id/e-jurnal JURNAL TECH-E 2581-116 (Online) Artikel Perancangan Aplikasi Prediksi Kelulusan Mahasiswa Tepat Waktu Pada

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pendidikan adalah salah satu aspek terpenting bagi kehidupan manusia, yang dapat mempengaruhi manusia itu sendiri, juga menjadi faktor pendukung dalam setiap sektor

Lebih terperinci

BAB II TINJAUAN PUSTAKA. yang akan dibuat adalah sebagai berikut : Sistem Monitoring Pertumbuhan Balita Berbasis Web. Wahyuningsih

BAB II TINJAUAN PUSTAKA. yang akan dibuat adalah sebagai berikut : Sistem Monitoring Pertumbuhan Balita Berbasis Web. Wahyuningsih BAB II TINJAUAN PUSTAKA A. Telaah Penelitian Penelitian sebelumnya yang berhubungan dengan sistem informasi yang akan dibuat adalah sebagai berikut : Wahyuningsih (2011) telah melakukan penelitian yang

Lebih terperinci

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2005 KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER Agustina Ratna Puspitasari¹,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI II-8 BAB II LANDASAN TEORI 2.1. Perencanaan Produksi Pengertian perencanaan produksi, menurut Martin K.Starr (1997) adalah sebagai berikut production planning is an old venerable term used by engineers,

Lebih terperinci

RENCANA PEMBELAJARAN SEMESTER

RENCANA PEMBELAJARAN SEMESTER RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Big Data and Data Analytics Semester Tujuh Kode SMXXXXXX Prodi MBTI Dosen Andry Alamsyah SKS 4 Capaian Pembelajaran 1. Memahami fenomena, framework, peluang dan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

BAB III LANDASAN TEORI

BAB III LANDASAN TEORI BAB III LANDASAN TEORI 3.1 Data, Informasi, Pengetahuan Data adalah bilangan, terkait dengan angka angka atau atribut atribut yang bersifat kuantitas, yang berasal dari hasil observasi, eksperimen, atau

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

DATA PREPROCESSING. Budi Susanto (versi 1.2)

DATA PREPROCESSING. Budi Susanto (versi 1.2) DATA PREPROCESSING Budi Susanto (versi 1.2) Kenali Data Anda Atribut Data Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang

Lebih terperinci

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU Aradea, Satriyo A., Ariyan Z., Yuliana A. Teknik Informatika Universitas Siliwangi Tasikmalaya Ilmu Komputer Universitas Diponegoro

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. BAB 2 LANDASAN TEORI Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. 2.1. Data Mining Data mining adalah suatu istilah yang digunakan

Lebih terperinci

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #4: Data Preprocessing (Bagian 2) Task III : Data Transformation (Transformasi Data) Mengubah / mentransformasikan data ke dalam

Lebih terperinci

CONTOH KASUS DATA MINING

CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING Sebuah rumah sakit ingin ingin menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Situs jejaring sosial merupakan gaya hidup sosial baru yang muncul seiring berkembangnya internet. Gaya hidup baru tersebut memiliki ruang lingkup yang lebih luas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini sering terjadi data explosion problem yaitu data data yang tersimpan dalam database berjumlah sangat besar namun dari data data tersebut belum banyak dimanfaatkan

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA 1 Latar Belakang PENDAHULUAN Teknologi basis data saat ini berkembang sangat pesat. Data disimpan dalam basis data, diolah kemudian disajikan sebagai informasi yang bernilai bagi pengguna. Penyimpanan

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini menjelaskan tentang analisa data, rancangan sistem, dan skenario pengujian. Bagian analisa data meliputi data penelitian, analisis data, data preprocessing.

Lebih terperinci

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK

Lebih terperinci

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien 1 Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien Ketut Wisnu Antara 1, Gede Thadeo Angga Kusuma 2 Jurusan Pendidikan Teknik Informatika Universitas Pendidikan Ganesha

Lebih terperinci

PERBANDINGAN DECISION TREE

PERBANDINGAN DECISION TREE 84 2015 Jurnal Krea-TIF Vol: 03 No: 02 PERBANDINGAN DECISION TREE PADA ALGORITMA C 4.5 DAN ID3 DALAM PENGKLASIFIKASIAN INDEKS PRESTASI MAHASISWA (Studi Kasus: Fasilkom Universitas Singaperbangsa Karawang)

Lebih terperinci

( ) ( ) (3) II-1 ( ) ( )

( ) ( ) (3) II-1 ( ) ( ) BAB II LANDASAN TEORI 2.1 Naïve Bayes Classifier 2.1.1 Teorema Bayes Bayes merupakan teknik prediksi berbasis probabilistik sederhana yang berdasar pada penerapan teorema Bayes (atau aturan Bayes) dengan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB 2 TELAAH PUSTAKA

BAB 2 TELAAH PUSTAKA BAB 2 TELAAH PUSTAKA Pada bab ini akan dipaparkan mengenai deskripsi data mining secara umum dan landasan teori dari algoritma data mining yang digunakan pada FIKUI Mining. Selain itu, juga akan dijelaskan

Lebih terperinci

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Moch. Ali Machmudi 1) 1) Stmik Bina Patria UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Salah satu pelayanan dalam dunia perbankan adalah pemberian pinjaman kredit kepada nasabah yang memenuhi syarat perbankan. kredit merupakan sumber utama penghasilan

Lebih terperinci

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK Dody Herdiana, S.T., M. Kom. Dosen PNS DPK pada Program Studi Teknik Informatika

Lebih terperinci

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering

Lebih terperinci

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. BAB II DASAR TEORI Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. 2.1. Microsoft Visual Studio Microsoft Visual Studio adalah sebuah software yang

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN BAB 3 METODE PENELITIAN Pada proses penelitian ini dilakukan beberapa tahapan mulai dari tahap awal yaitu tahap inisiasi, pengembangan model, dan tahap terakhir pengembangan prototipe. Dalam tahapan inisiasi

Lebih terperinci

http://www.brigidaarie.com Apa itu database? tempat penyimpanan data yang saling berhubungan secara logika Untuk apa database itu?? untuk mendapatkan suatu informasi yang diperlukan oleh suatu organisasi

Lebih terperinci

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #2 Gunawan Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya Tahapan Proses KDD (Peter Cabena) Penentuan Sasaran Bisnis (

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Penelitian ini menggunakan beberapa sumber pustaka yang berhubungan dengan kasus yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Di dalam landasan teori ini, akan dibahas tentang teori teori dan konsep dasar yang mendukung pembahasan dari sistem yang akan dibuat. 2.1 Basis Data (Database) Basis data diperlukan

Lebih terperinci

PERANCANGAN DATA WAREHOUSE CALON MAHASISWA BARU POLITEKNIK NEGERI LHOKSEUMAWE

PERANCANGAN DATA WAREHOUSE CALON MAHASISWA BARU POLITEKNIK NEGERI LHOKSEUMAWE PERANCANGAN DATA WAREHOUSE CALON MAHASISWA BARU POLITEKNIK NEGERI LHOKSEUMAWE Nanang Prihatin 1 1 Dosen Politeknik Negeri Lhokseumawe ABSTRAK Bagi sebuah perguruan tinggi, penerimaan calon mahasiswa merupakan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Data Mining Data mining adalah bagian dari knowledge discovery di database yang menganalisa database berukuran besar untuk menemukan pola yang berguna pada data (Silberschatz,

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Sebelum melakukan penelitian adapun penulis mencari penelitian penelitian yang memungkinkan terkait dengan penelitian antara lain : 1. Analisis Kinerja Data

Lebih terperinci

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa dengan Metode NAÏVE BAYES M. Ridwan Effendi Fakultas Komputer Jurusan Sistem Informasi Universitas Mohammad Husni Thamrin Jakarta Email :

Lebih terperinci

PE DAHULUA. Latar Belakang

PE DAHULUA. Latar Belakang Latar Belakang PE DAHULUA Pemilihan Kepala Daerah dan Wakil Kepala Daerah, atau seringkali disebut Pilkada, adalah pemilihan umum untuk memilih Kepala Daerah dan Wakil Kepala Daerah secara langsung di

Lebih terperinci

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket Bab1 Konsep Data Mining POKOK BAHASAN: Konsep dasar dan pengertian Data Mining Tahapan dalam Data Mining Model Data Mining Fungsi Data Mining TUJUAN BELAJAR: Setelah mempelajari materi dalam bab ini, mahasiswa

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan digunakan untuk mengklasifikasi

Lebih terperinci

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering. BAB I PENDAHULUAN 1.1. Latar Belakang Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang

Lebih terperinci

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING BAB IV GAMBARAN UMUM METODOLOGI DATA MINING A. Metodologi Data Mining Metodologi Data Mining Komponen data mining pada proses KDD seringkali merupakan aplikasi iteratif yang berulang dari metodologi data

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ yudi@upi.edu / Okt 2012 Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan

Lebih terperinci

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database 2. Tinjauan Pustaka 2.1 Data Mining Data mining merupakan ilmu yang mempelajari tentang proses ekstraksi informasi yang tersembunyi dari sekumpulan data yang berukuran sangat besar dengan menggunakan algoritma

Lebih terperinci

BAB I PENDAHULUAN. I.1 Pendahuluan

BAB I PENDAHULUAN. I.1 Pendahuluan BAB I PENDAHULUAN I.1 Pendahuluan Dalam kegiatan manusia sehari-hari, terutama dalam kegiatan transaksi, seperti transaksi perbankan, rekam medis, transaksi jual beli dan transaksi lainnya harus dicatat

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan Sistem Pendukung Keputusan (SPK) / Decision Support Sistem (DSS) adalah sistem komputer yang saling berhubungan dan menjadi alat bantu bagi seorang

Lebih terperinci

EDY KURNIAWAN DOSEN PEMBIMBING Dr. I Ketut Eddy Purnama, S.T., M.T Dr. Surya Sumpeno, S.T., MS.c

EDY KURNIAWAN DOSEN PEMBIMBING Dr. I Ketut Eddy Purnama, S.T., M.T Dr. Surya Sumpeno, S.T., MS.c EDY KURNIAWAN 2209205007 DOSEN PEMBIMBING Dr. I Ketut Eddy Purnama, S.T., M.T Dr. Surya Sumpeno, S.T., MS.c PROGRAM MAGISTER BIDANG KEAHLIAN JARINGAN CERDAS MULTIMEDIA (DATA MINING) JURUSAN TEKNIK ELEKTRO

Lebih terperinci

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap Data Mining Outline BAB I Pendahuluan BAB II Data BAB III Algoritma Klasifikasi BAB IV Algoritma Klastering BAB V Algoritma Asosiasi BAB VI Algoritma Estimasi BAB VII Deteksi Anomali Ricky Maulana Fajri

Lebih terperinci

BAB III ANALISIS DAN PENYELESAIAN MASALAH

BAB III ANALISIS DAN PENYELESAIAN MASALAH BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan

Lebih terperinci

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas 1. Memahami cakupan materi dan sistem perkuliahan Data Mining.

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi DATA MINING 3 SKS Semester 6 S1 Sistem Informasi Pertemuan 3 Nizar Rabbi Radliya nizar.radliya@yahoo.com Universitas Komputer Indonesia 2015 Definisi Set Data Set Data / Data Set / Himpunan Data Kumpulan

Lebih terperinci

PROSES EXTRACT, TRANSFORM DAN LOAD PADA DATA WAREHOUSE

PROSES EXTRACT, TRANSFORM DAN LOAD PADA DATA WAREHOUSE PROSES EXTRACT, TRANSFORM DAN LOAD PADA DATA WAREHOUSE Oktavian Abraham Lantang ABSTRAK Saat ini seiring dengan perkembangan teknologi informasi yang semakin pesat, ketergantungan proses bisnis suatu perusahaan

Lebih terperinci

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO Sendy Winanta Yetli Oslan, Gunawan Santoso Abstrak Penjurusan siswa kelas X SMA yang akan naik

Lebih terperinci

Data Warehouse, Data Mart, OLAP, dan Data Mining CHAPTER 6

Data Warehouse, Data Mart, OLAP, dan Data Mining CHAPTER 6 1 Data Warehouse, Data Mart, OLAP, dan Data Mining CHAPTER 6 Data Warehouse 2 Data warehouse adalah basis data yang menyimpan data sekarang dan data masa lalu yang berasal dari berbagai sistem operasional

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN III.1. Analisis Masalah Analisis masalah bertujuan untuk mengidentifikasi serta melakukan evaluasi terhadap Sistem Penunjang Keputusan Untuk Menentukan Kualitas Ekspor

Lebih terperinci