BAB 2 LANDASAN TEORI

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB 2 LANDASAN TEORI"

Transkripsi

1 BAB 2 LANDASAN TEORI 2.1 Teori Umum Pengertian Data dan informasi Data merupakan aliran fakta yang mewakili kejadian yang terjadi dalam organisasi atau dalam lingkungan fisik sebelum mereka diatur menjadi sebuah form yang dapat dimengerti dan digunakan oleh pengguna (Laudon,2000,p8). Informasi adalah data yang dikumpulkan dan dievaluasi untuk memecahkan suatu masalah atau membuat keputusan (Inmon,2002,p388). Informasi lebih berarti daripada data. informasi digunakan untuk membuat keputusan. Data digunakan sebagai masukkan (input) untuk pemprosesan dan informasi sebagai keluaran (output) dari pemprosesan tersebut Pengertian Metadata Metadata merupakan data dari sebuah data, atau biasa disebut juga deskripsi dari sebuah data yang dipergunakan untuk pengumpulan, penyimpanan, pembaharuan dan mendapat kembali data bisnis dan data teknikal yang berguna untuk organisasi ( sedangkan menurut Ramon dan Pauline (1999,p3) metadata adalah informasi mengenai database. Informasi ini biasanya disimpan dalam sebuah kamus data (data dictionary) atau catalog. Metadata berisi keterangan mengenai data data yang ada didalam database kita yang bertujuan untuk mempertahankan konsistensi penggunaan istilah dan lain lain. 7

2 Pengertian Database Menurut Connolly dan Begg (2005,15) Database is A shared collection of logically related data, and a description of this data, designed to meet the information needs of an organization yang dapat diartikan, Basis data (Database) adalah sebuah koleksi dari data yang secara logikal saling berelasi, dan deskripsi dari data tersebut, yang di desain untuk memenuhi kebutuhan informasi pada suatu organisasi. Menurut C. J Date (2000,p9) Database merupakan suatu kumpulan dari data yang bersifat tahan lama (persistent), yaitu data yang berbeda satu dengan yang lainnya, dan biasanya merupakan data yang bersifat sementara dimana kumpulan data tersebut dapat digunakan oleh sistem sistem aplikasi perusahaan. Sedangkan menurut Inmon (2002, p388), a database is a collection of interrelated data stored (often with controlled, limited redudancy ) according to a schema yang dapat diartikan suatu database adalah sebuah koleksi dari data yang saling berelasi yang disimpan (sering kali dengan kontrol, dan pembatasan terhadap redudansi) sesuai dengan skema. Berdasarkan beberapa pengertian diatas, Database adalah kumpulan dari data yang saling berhubungan dan terintegrasi yang mana dapat digunakan untuk memenuhi kebutuhan informasi suatu organisasi Pengertian Sistem Manajemen Database Menurut Connolly dan Begg (2005,p16), Database Manajemen System (DBMS) is a software system that enables users to define, create, maintain, and

3 9 control access to the database, yang dapat diartikan Sistem Manajemen Database adalah suatu sistem software yang memperbolehkan banyak pengguna untuk mendefinisikan, membuat, merawat, dan mengatur akses ke database Data warehouse Menurut Inmon (2002,p31), Data warehouse is a subject oriented, integrated, time variant and non volatile collection of data in support of management s decision making process, yang dapat diartikan Data warehouse adalah kumpulan data yang berorientasi subjek, terintegrasi, berdasarkan waktu dan tidak mengalami perubahan dalam mendukung proses pengambilan keputusan management. Data warehouse merupakan tempat penyimpanan untuk ringkasan dari data historis yang diambil dari database - database yang tersebar disuatu organisasi. Data warehouse mengumpulkan semua data perusahaan dalam satu tempat agar dapat diperoleh pandangan yang lebih baik dari suatu proses bisnis/kerja dan meningkatkan kinerja organisasi. Data warehouse mendukung proses pembuatan keputusan management. Tujuan utama dari pembuatan Data warehouse adalah untuk menyatukan data yang beragam ke dalam sebuah tempat penyimpanan dimana pengguna dapat dengan mudah menjalankan query (pencarian data), menghasilkan laporan, dan melakukan analisis.

4 10 Gambar 2.1 Proses Data Warehouse Menurut Inmon (2002, p31 p38) karakteristik data warehouse dapat di jabarkan sebagai berikut : 1. Subject Oriented atau berorientasi pada subjek. Suatu data warehouse harus berorientasi subject atau berorientasi pada subyeknya. Suatu data transaksi (OLTP) biasanya disusun berdasarkan jenis transaksi yang ditangani oleh aplikasi transaksi tertentu. Sebagai contoh transaksi penarikan dan penyimpanan dana. Pada setiap transaksi teller akan memasukkan data utama dan pendukungnya seperti nomor rekening, nilai transaksi dan tanggal. Subject oriented (lawan dari transaction oriented) menuntut agar data data transaksi ini disusun dengan menyusun subyek areanya. Misalnya dalam hal data perbankan, subjek areanya adalah nasabah, jenis transaksi, wilayah, kantor cabang. Menyusun data menjadi subject oriented artinya memastikan bahwa data tersebut akan dengan mudah disajikan berdasarkan subyek areanya.

5 11 2. Time variant, artinya memiliki dimensi waktu sebagai variablenya. Perubahan data ditelusuri dan dicatat sehingga laporan dapat dibuat dengan menunjukkan waktu perubahannya. Sebagai contoh, apa artinya mengatakan suatu kantor berhasil menjual 1500 items, tanpa dimensi waktu informasi tersebut menjadi tidak berarti. Aspek time variant dari suatu data warehouse memberikan kemampuan dalam bentuk trend analysis sehingga dapat melihat performance ataupun forecasting. Aspek time variant membuat suatu data warehouse menjadi sangat berarti untuk dianalisis. 3. Non Volatile berarti bahwa data yang telah disimpan tidak dapat berubah. Sekali committed, data tidak pernah ditimpa/dihapus. Data akan bersifat static, hanya dapat dibaca dan disimpan untuk kebutuhan pelaporan. 4. Integrated, artinya menggabungkan beberapa database yang mungkin berbeda baik dari segi teknologi maupun kodifikasi suatu tabel referensinya. Untuk menghasilkan subject oriented yang konsisten, data data dari berbagai sumber harus diintegrasikan yang berarti teknologi yang beragam dan kode kode referensi yang mungkin berbeda harus disatukan Data Mart Menurut Connolly dan Begg (2005, p1171), Data mart is a subset of a data warehouse that supports the requirement of a particular department or business function yang dapat diartikan Data mart adalah suatu subset atau bagian dari suatu data warehouse yang mendukung persyaratan atau ketentuan suatu departemen khusus atau fungsi bisnis. Ada beberapa karakteristik yang

6 12 membedakan data mart dengan data warehouse (Connolly dan Begg, 2005, p1171) : Data mart hanya berfokus pada kebutuhan pengguna yang berhubungan dengan satu departemen atau satu fungsi bisnis. Data mart biasanya tidak mengandung data operasional yang detail seperti data warehouse. Karena data mart mempunyai data yang lebih sedikit dibandingkan dengan data warehouse, data mart lebih mudah untuk dimengerti dan dijalankan. Terdapat beberapa alasan untuk membuat data mart (Connolly dan Begg, 2005, p1173) : Untuk memberikan akses ke data yang paling sering dianalisa oleh user. Menyediakan data dalam bentuk yang sesuai dengan kebutuhan sekelompok user dalam sebuah departemen atau fungsi bisnis. Meningkatkan waktu respon end-user karena pengurangan jumlah data yang akan diakses. Menyediakan data yang terstruktur sesuai seperti yang ada pada ketentuan dari alat akses end-user yang mungkin membutuhkan struktur basis data internal sendiri. Biaya implementasi data martbiasanya lebih murah dari biaya yang diperlukan untuk membangun data warehouse.

7 13 Gambar 2.2 Arsitektur data warehouse dan data mart (Connolly dan Begg,2005,p1172) Pengertian OLTP (OnLine Transaction Processing) OLTP adalah sistem operasional yang didasarkan pada proses dan fungsi, seperti entry pemesanan pelanggan, order pembelian, entry stok, dan lain-lain. Sistem operasional ini mengakses dan meng-update record dari suatu objek bisnis. Transaksi umumnya telah didefinisikan terlebih dahulu dan memerlukan database yang dapat diakses dengan cepat. Menurut Connolly dan Begg (2005, p1153) Sistem OLTP adalah sistem yang dioptimasikan untuk menangani jumlah transaksi yang besar dimana

8 14 transaksi bersifat predictable, berulang, dan update insentive. Data dalam OLTP diorganisasikan berdasarkan kebutuhan dari transaksi yang diasosiasikan dengan aplikasi bisnis dan mendukung keputusan sehari-hari dari banyak user secara bersamaan. Database operasional pada sistem OLTP biasanya menggunakan database yang memang khusus dirancang untuk mempercepat proses transaksi dan manipulasi data seperti inserting, deleting, dan updating data. Oleh karena itu model data OLTP biasanya menggunakan model relational Data mining Menurut Connolly dan Begg (2005,p1233) data mining adalah proses ekstraksi informasi yang valid, tidak diketahui sebelumnya, dapat dipahami, dan actionable dari database yang besar sehingga dapat digunakan untuk pengambilan keputusan yang krusial. Menurut Han dan Kamber (2006,p7) data mining adalah proses menemukan pengetahuan yang menarik dari sejumlah besar data yang tersimpan dalam database, data warehouse, atau respositori penyimpanan data dan informasi lainnya. Arsitektur data mining pada umumnya meliputi hal berikut (Han dan Kamber,2006,pp7-8): 1. Database, datawarehouse, data mart, World wide web, ataupun tempat penyimpanan lainnya: Ini merupakan sebuah atau kumpulan dari database, datawarehouse, spreadsheets, atau tempat penyimpanan lain yang digunakan

9 15 sebagai sumber data mentah untuk data mining. Teknik Data cleaning ataupun data integration mungkin diperlukan untuk mempersiapkan data. 2. Database atau data warehouse server: Database atau data warehouse server bertanggung jawab untuk mengambil (fetch) data yang relevan dari tempat data disimpan berdasarkan permintaan user. 3. Knowledge base: Ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi seberapa menarik hasil dari proses mining. Pengetahuan tersebut dapat meliputi konsep hirarki, yang digunakan untuk mengorganisasikan atribut atau nilai atribut ke dalam level abstraksi yang berbeda. Contoh pengetahuan lain seperti konstrain, threshold, ataupun metadata. 4. Data mining engine: Bagian ini merupakan bagian yang esensial bagi untuk sistem data mining dan idealnya terdiri dari sekumpulan modul fungsi untuk tugas-tugas data mining seperti karakterisasi, asosiasi dan korelasi, classification, prediction, clustering, outlier analysis, ataupun evolution anlysis. 5. Pattern evaluation module: Modul ini berinteraksi dengan modul data mining engine untuk memfokuskan pencarian terhadap pola yang menarik. Modul ini dapat menggunakan interestingness threshold untuk melakukan filter terhadap pola yang menarik. Alternatif lain pattern evaluation module dapat diintegrasikan dengan dengan modul data mining engine. 6. User interface: Modul ini mengkomunikasikan antara user dengan sistem data mining, mengijinkan user berinteraksi dengan sistem dengan menspesifikasikan query atau tugas. Komponen ini mengijinkan user untuk menjelajah database

10 16 dan datawarehouse atau struktur data, mengevaluasi pola yang telah di mining, dan memvisualisasikan pola dalam format yang diinginkan. Gambar 2.3Arsitektur Sistem Data mining Teknik Data mining Teknik data mining berhubungan dengan penemuan dan pembelajaran informasi dari database yang besar, pembelajaran tersebut dapat dibagi menjadi dua metode utama, yaitu supervised dan unsupervised (Berson dan Smith, 1997, p416): 1. Supervised Teknik ini melibatkan tahap pelatihan dimana data lama yang telah memiliki class label yang telah diketahui terlebih dahulu untuk diberikan

11 17 pada algoritma data mining. Proses ini melatih algrotima yang digunakan untuk mengenali variabel dan nilai-nilai kunci, yang kemudian menjadi dasar untuk membuat prediksi ketika membaca data baru. 2. Unsupervised Teknik ini tidak melibatkan tahap pelatihan, tetapi bergantung pada penggunaan algoritma yang mendeteksi semua bentuk asosiasi dan rangkaian yang terjadi berdasarkan kriteria yang spesifik dalam data masukkan. Pendekatan ini membawa ke generasi yang menghasilkan peraturan-peraturan dalam data yang menggolongkan penemuan asosiasi, cluster, dan segment. Peraturan ini kemudian akan melakukan penganalisaan untuk menentukan mana yang memiliki ketertarikan secara universal Fungsionalitas Data mining Fungsionalitas data mining digunakan untuk menspesifikasikan tipe pola (patterns) yang dapat ditemukan dalam tugas data mining. Secara umum, tugas data mining dapat diklasifikasikan menjadi 2(Han dan Kamber,2006,pp21): 1. Descriptive mining: mengkarakterisisasikan properti umum pada data dalam database. 2. Predictive mining: membuat kesimpulan pada data yang telah ada dengan tujuan untuk dapat membuat prediksi. Berikut fungsionalitas dan tipe pola yang dapat ditemukan dengan data mining (Han dan Kamber,2006,pp21-27)

12 18 1. Deskripsi konsep/kelas: Karakterisasi dan diskriminasi Data dapat diasosiasikan dengan suatu kelas atau konsep. Contoh: Sebuah toko elektronik dapat membuat kelas/jenis item seperti komputer, printer, dan konsep untuk konsumen seperti bigspenders dan budgetspenders. Merupakan hal yang bermanfaat untuk mendeskripsikan masing-masing kelas dan konsep dalam bentuk yang ringkas tapi tepat. Deskripsi dari kelas atau konsep tersebut disebut dengan deskripsi kelas/konsep. Deskripsi ini dapat didapatkan melalui karakterisasi data dengan meringkas data-data dari kelas (sering disebut target kelas) dalam pemebelajaran seacara umum, atau data discrimintation dengan membandingkan target kelas dengan satu atau lebih kelas lain. Contoh Data Characterization dalam data mining adalah sistem data mining dapat menghasilkan deskripsi yang meringkas karakteristik dari konsumen yang membelanjakan uangnya lebih dari $1000 setiap tahun. Hasilnya dapat berupa profil umum dari konsumen seperti, konsumen berumur tahun, memiliki pekerjaan, dan memiliki peringkat credit yang baik. 2. Mining frequent pattern, asosiasi dan korelasi Frequent Pattern sesuai namanya adalah pola yang sering muncul dalam data. Ada beberapa tipe dari frequent patterns, seperti itemsets, subsequences, dan substructures. Frequent itemset menunjukkan item yang sering muncul bersamaan dalam data set. Subsequence berarti suatu kejadian yang muncul berurutan. Contoh: konsumen cenderung membeli

13 19 PC terlebih dahulu diikuti digital camera, kemudian kartu memori. Mining frequent pattern dapat membawa pada penemuan asosiasi dan korelasi yang menarik dalam data. 3. Classification and Prediction Classification adalah proses menemukan model (atau fungsi) yang mendeskrpisikan dan membedakan kelas dari data, dengan tujuan untuk dapat menggunakan model untuk memprediksikan kelas dari data input yang mana label kelasnya tidak diketahui. Model yang didapat adalah berdasarkan analisis dari training data dimana pada training data label kelas telah diketahui. Dalam classification ada nilai atribut yang hendak diprediksi yaitu target atribut berupa class label. Target atribut ini merupakan atribut yang dependen terhadap attribute vector. Dalam beberapa literarur attribute vector disebut juga dengan feature, explanatory variables, atau atribut predictor.

14 20 Gambar 2.4 Representasi Model Classification Model yang didapat dapat direpresentasikan dalam berbagai bentuk seperti aturan klasifikasi (IF-THEN), decision tree, formula matematik, atau neural networks. Decision tree merupakan struktur yang menyerupai pohon, dimana setiap node menunjukkan suatu test tertentu pada nilai atribut, dan setiap percabangan merepresentasikan hasil dari tes, dan tree leaves (daun) merepresentasikan kelas atau distribusi kelas. Desicion tree dapat dengan mudah di ubah menjadi aturan klasifikasi (IF-THEN). Neural Network, ketika digunakan untuk klasifikasi, biasanya merupakan koleksi dari unit proses yang menyerupai neuron dengan nilai koneksi antar unit. Ada banyak algoritma yang dapat digunakan untuk mengkonstruksi model klasifikasi seperti Naïve Bayes, Support Vector Machine (SVM), Decision tree. Jika klasifiksasi memprediksikan nilai categorical (discrete, dan tidak terurut) label, maka Predictions memodelkan nilai continue. Predictions

15 21 digunakan untuk memperikirakan nilai suatu data numerik.regression merupakan metodologi statistikal yang sering digunakan untuk memperkirakan nilai numerik. Klasifikasi dan prediksi dapat didahului dengan relevance analysis. Relevance Analysis mengukur tingkat keterkaitan atribut-atribut yang digunakan terhadap label kelas yang hendak diprediksi. Hasil darirelevance Analysis dapat digunakan untuk mengurangi atribut input dalam proses data mining dengan menghilangkan atribut-atribut yang tidak relevan. 4. Clustering Clustering termasuk dalam kategori unsupervised mining. Berbeda dengan classifications dan prediction yang memerlukan pelatihan terlebih dahulu dengan menganalisa objek data yang telah memiliki label kelas, clustering menganalisa objek data tanpa mengetahui label kelas. Clustering merupakan proses grouping sebuah set objek fisik atau abstrak dalam kelaskelas. Algoritma yang sering digunakan untuk clustering adalah k-means dan k-medoids. Umumnya, label kelas tidak ada dalam data training karena memang tidak diketahui tetapi sebaliknya Clustering dapat digunakan untuk menghasilkan label. Objek di cluster dan di masukkan dalam grup berdasarkan prinsip maximizing the intraclass similarity and minimizing the interclass similarity. Yang berarti objek cluster dibentuk sehingga objek yang berada dalam cluster yang sama memiliki tingkat kesamaan

16 22 yang tinggi satu sama lain, tetapi sangat berbeda dengan objek di cluster lain. Clustering sering juga disebut segmentasi data karena clustering mempartisi data set yang besar ke dalam grup sesuai dengan kesamaannya. Clustering dapat digunakan untuk outlier detection, dimana outliers adalah suatu nilai yang jauh dari semua cluster lain. 5. Analisis Outlier Database dapat mengandung objek data yang tidak sesuai dengan sifat umum atau model data.objek data tersebut disebut sebagai outlier. Kebanyakan metode data mining menghapus outlier karena diaggap noise atau perkecualian.tetapi, beberapa aplikasi seperti fraud detection, kejadian seperti outlier tersebut dapat bermanfaat. Analisis data outlier disebut juga outlier mining. Outliers dapat dideteksi dengan menggunakan tes statistik yang mengasumsikan distribusi atau probabilitas model dari data, dengan menggunakan distance measures dimana objek yang memiliki jarak yang jauh dari cluster-cluster lainnya dianggap outlier atau anomali. 6. Analisis evolusi Data evolution analysis mendeskripsikan dan memodelkan tren untuk objek yang sifatnya berubah dari waktu ke waktu. Analisis evolusi dapat meliputi karakterisasi, dicriminasi, asosiasi dan korelasi, klasifikasi, prediksi, atau clustering data yang berhubungan dengan waktu.

17 Knowledge Discovery from Data (KDD) dan Data mining Gambar 2.5 Proses Knowledge Discovery from Data Banyak orang menganggap data mining merupakan sinonim untuk istilah Knowledge Discover from Data atau KDD. Beberapa ada yang menganggap data mining hanya merupakan salah satu langkah penting dari proses knowledge

18 24 discovery. Proses dari KDD ditunjukkan seperti pada gambar 2.5 dan terdiri dari proses iterative langkah-langkah berikut: 1. Data cleaning (untuk menghilangkan noise dan ketidak konsistenan dalam data) 2. Data integration (dimana beberapa sumber data dikombinasikan) 3. Data selection (ketika data yang relevan terhadap tugas diambil dari tempat penyimpanan data) 4. Data tranformation( data ditranformasikan dan dikonsolidasikan dalam bentuk yang sesuai untuk mining) 5. Data mining( merupakan proses utama dimana metode intelligent diaplikasikan untuk mengekstraksi pola data) 6. Pattern evaluation (untuk mengidentifikasi pola yang benar-benar menarik yang merepresentasikan pengetahuan berdasarkan interestingness measures) 7. Knowledge presentation (dimana visualisasi dan pengetahuan di representasikan kepada pengguna) Langkah 1-4 merupakan bentuk lain dari data preprocessing, dimana data dipersiapkan untuk mining. Langkah data mining dapat berinteraksi dengan pengguna atau knowledge base. Pola yang menarik kemudian ditampilkan pada pengguna dan dapat disimpan sebagai pengetahuan baru dalam knowledge base. Menurut sudut pandang ini, data mining hanyalah salah satu proses dari keseluruhan proses yang ada. Meskipun demikian saat ini istilah data mining lebih populer dibanding dengan KDD dan sering kali disamakan artinya dengan KDD. (Han dan Kamber,2006,p7).

19 Data Preprocessing Database sekarang ini sangat rentan terhadap noisy, missing dan data yang inkonsisten karena banyaknya dan beragamnya sumber data. Kualitas data yang buruk akan mengakibatkan hasil mining yang buruk. Untuk itu diperlukan suatu persiapan agar data dalam database dapat digunakan untuk proses data mining (Han dan Kamber,2006,pp47-97) Data Cleaning Data dalam kehidupan nyata sering kali tidak lengkap, noisy, dan inkonsisten. Data Cleaning berusaha untuk mengatasi masalah dalam data seperti missing values, memperhalus noise serta mengidentifikasi outliers, dan membenarkan data yang tidak konsisten. Ada beberapa cara untuk mengatasi masalah missing value dalam data: 1. Mengabaikan record: cara ini biasa dilakukan ketika class label missing (jika mining melibatkan classfication). Metode ini tidak efektif, kecuali record hanya mengandung beberapa atribut dengan missing value. Dengan cara ini reocord yang tidak memiliki missing values tidak disertakan dalam proses data mining 2. Mengisi missing value secara manual: Secara umum pendekatan ini memakan waktu dan sulit untuk dilakukan bila data set besar dan banyak missing values. 3. Menggunakan global konstan untuk mengisi missing value: Mengubah semua missing attribute value dengan konstan yang sama, seperti contohya label Unknown. Metode ini tidak bagus karena program mining dapat

20 26 salah mengartikan nilai dan dianggap membentuk konsep yang menarik, karena mereka semua memiliki nilai yang sama. Metode ini sederhana tetapi tidak aman. 4. Menggunakan atribut mean untuk mengisi missing value: contoh jika ratarata pendapatan konsumen adalah $ Maka nilai ini digunakan untuk menggantikan missing value untuk pendapatan. 5. Menggunakan atribut mean untuk semua sampel yang berada dalam kelas yang sama dengan record: Contoh jika mengklasifikasikan konsumen berdasarkan credit_risk dan atribut pendapatan mengandung missing value, ganti missing value dengan rata-rata pendapatan untuk konsumen yang berada dalam kategori credit_ risk yang sama. 6. Mengunakan teknik data mining untuk memprediksikan nilai yang paling mungkin untuk mengisi missing value: Hal ini dapat dilakukan dengan regresi, atau induksi Decision treeataupun metode data mining predictive lainnya. Contoh: Menggunakan atribut-atribut konsumen yang ada dalam data set, dikonstruksi sebuah model Decision treeuntuk memprediksikan missing value untuk atribut pendapatan. Metode 3 sampai 6 membuat prediksi terhadap data. Nilai yang diisikan belum tentu benar. Metode 6 merupakan cara yang lebih populer bila dibandingkan dengan metode lain, cara ini menggunakan banyak informasi yang merepresentasikan data untuk memprediksikan nilai yang hilang. Untuk beberapa kasus, missing value mungkin bukan menunjukkan kesalahan pada data. Contoh, ketika hendak membuat credit card, kandidat

21 27 dapat ditanyakan mengenai nomor izin mengemudi.kandidat yang tidak memiliki nomor izin mengemudi dapat secara natural membuat field tidak terisi. Selain missing value, data dapat mengandung noise. Noise adalah random error atau variance dalam variabel yang diukur. Metode yang dapat digunakan untuk mengatasi masalah ini adalah: 1. Binning Metode binning biasa digunakan untuk data numerik dengan mengurutkan nilai data dan melihat data yang berdekatan nilainya. Nilai yang diurutkan di distribusikan ke dalam beberapa buckets atau bin tergantung dari metode binning yang digunakan. 2. Regressi Nilai suatu data dapat diperhalus dengan memasukkan data ke dalam suatu fungsi seperti regresi. Linear regression melibatkan penemuan garis terbaik untuk mencocokkan dua atribut atau variabel, sehingga sebuah atribut dapat digunakan untuk memprediksikan atribut lainnya. Multiple linear regression merupakan ekstensi dari linear regression dimana dua atau lebih atribut terlibat. 3. Clustering Clustering dapat digunakan untuk mendeteksi outlier. Dengan clustering nilai atribut yang sama atau mirip diorganisasikan ke dalam grup atau cluster. Nilai yang berada di luar dari cluster dapat dianggap outliers.

22 28 Banyak metode untuk data smoothing juga digunakan untuk data reduction yang melibatkan discretization.contohnya teknik binning juga dapat digunakan untuk mengurangi distinct value untuk setiap atribut Integrasi dan Transformasi Data. Data mining sering kali membutuhkan integrasi data, menyatukan data dari berbagai data stores. Data mungkin juga perlu untuk di transformasikan ke dalam bentuk tertentu yang cocok untuk mining. Masalah dalam integrasi dapat meliputi entity indetification problem ataupun data redudansi. Dalam transformasi data. Data di ubah dan disatukan ke dalam bentuk yang sesuai untuk mining. Data transformation dapat meliputi: 1. Smoothing, berguna untuk menghilangkan noise dari data. Hal ini dapat dilakukan dengan binning, regression, ataupun clustering. 2. Aggregation, dimana ringkasan atau operasi agregasi dilakukan pada data. 3. Generalisasi data, dimana data primitif digantikan dengan konsep yang lebih tinggi dengan menggunakan konsep hirarki. Contoh: atribut categorical seperti jalan dapat di generalisasi ke dalam konsep yang lebih tinggi seperti kota atau negara. Hal ini juga dapat dilakukan pada atribut numerik, seperti umur, dapat di generalisasi menjadi youth, middle-age, senior. 4. Normaliasi, atribut data di skalakan sehingga masukan ke dalam range tertentu seperti -1.0 sampai 10.0, atau 0.0 sampai Attribute Construction, dimana atribut baru dikonstruksi dan ditambahkan untuk membantu proses mining.

23 Reduksi Data Analisis data dan mining pada data yang sangat besar dapat membutuhkan waktu yang sangat lama, membuat proses mining sulit dilakukan. Teknik data reduksi dapat diaplikasikan untuk mendapatkan representasi data set yang diperkecil dalam volume, tetapi tetap menjaga integritas dari data original. Mining pada data yang telah di reduksi lebih efisien tetapi tetap memproduksi hasil analisis yang sama atau mendekati. Strategi data reduksi dapat meliputi: 1. Agregasi data cube, dimana operasi agregasi diaplikasikan pada data dalam pengkonstruksian data cube 2. Seleksi subset atribut, dimana atribut atau dimensi yang tidak relevan, lemah, atau redundan dideteksi dan dibuang. 3. Numerosity reduction, dimana data di gantikan atau diestimasi dengan data representasi alternatif yang lebih kecil seperti parametrics model (yang hanya perlu menyimpan model parameter, bukan data aktual) atau metode nonparametric seperti clustering, sampling, dan menggunakan histogram 4. Discretization dan pembuatan konsep hirarki. Merupakan metode dimana nilai mentah dari atribut data digantikan oleh range atau level konsep yang lebih besar. Contoh teknik untuk discretization adalah binning. Dataset yang digunakan untuk analisis mungkin mengandung ratusan atribut, yang mana banyak diantaranya tidak relevan untuk tugas mining ataupun redundan. Contoh: Jika dalam kasus toko elektronik, persoalannya adalah mengklasifikasikan apakah konsumen akan membeli cd yang baru

24 30 dirilis, atribut seperti nomor telepon konsumen merupakan hal yang tidak relevan, tidak seperti atribut umur ataupun selera. Atribut subset selection mengurangi jumlah data set dengan membuang atribut yang tidak relevan atau redundan. Tujuan dari atribut susbet selection adalah menemukan jumlah atribut yang minimum dimana kemungkinan distribusi hasil dari kelas data sedekat mungkin dengan original distribution yang didapat dengan menggunakan seluruh atribut. Mining pada atribut yang telah direduksi dapat mempercepat proses mining dan mengurangi jumlah atribut yang muncul pada pola yang ditemukan sehingga lebih mudah dimengerti. Sampling data dapat digunakan sebagai teknik reduksi data karena sampling mengijinkan dataset yang besar untuk direpresentasikan dengan jumlah yang lebih kecil melalui subset dari keseluruhan data. Sebagai contoh misalnya ada sebuah dataset yang besar,d, memiliki N record. Cara yang dapat dilakukan untuk mereduksi D dengan sampling meliputi (Han, jiawei dan Kamber, 2006, pp84-86): 1. Simple Random Sample Without Replacement (SRSWOR) dengan ukuran s: Sampel ini dibuat dengan mengambil beberapa record s dari D (s < N), dimana kemungkinan mengambil record sembarang dalam D adalah 1/N, semua record memiliki peluang untuk di sampel yang sama. Data yang sudah disampel tidak dapat disampel kembali dalam proses yang sama. 2. Simple Random Sample With Replacement (SRSWR) dengan ukuran s: Sama dengan SRSWOR, tetapi setiap kali record diambil dari D, record

25 31 dicatat dan kemudian dikembalikan. Berarti setelah record diambil, record diletakkan kembali di pada dataset D sehingga dapat memiliki peluang diambil lagi. Gambar 2.6 Simple Random Sample With/Without Replacment 3. Cluster sample: jika record dalam D di grupkan ke dalam M cluster. Maka SRS untuk s cluster dapat diambil dimana s < M. Contoh: record pada databasebiasanyadi ambil per halaman setiap waktu, apabila setiap page dianggap sebagai cluster maka representasi data yang direduksi dapat didapat dengan misalnya menggunakan SRSWOR pada masing-masing page untuk menghasilkan sampel cluster sejumlah s. Gambar 2.7Cluster Sample

26 32 4. Stratified sample: jika D dibagi menjadi beberapa bagian yang disebut dengan strata atau stratum, stratified sampledari D didapat dengan menggunakan SRS untuk setiap stratum yang ada. Hal ini memastikan adanya sampel representatif untuk setiap stratum. Contoh: stratified sample dapat didapat dari data konsumen, dimana stratum dibuat untuk setiap umur konsumen. Dengan cara ini stratum umur yang paling kecil sekalipun jumlah anggotanya dapat dipastikan memiliki representasi dalam sampel. Gambar 2.8 Stratified Sample Binning merupakan top-down splitting technique yang didasarkan pada jumlah bin. Binning mengelompokkan nilai yang saling berelasi dalam sebuah bin, yang mana memperkecil jumlah nilai yang berbeda dari atributbeberapa metode yang dapat digunakan untuk mendapatkan batasan tiap bin (Oracle,2005,p2-5; Witten dan Frank,2005,p298). :

27 33 1. Equal-interval binning: Biasa digunakan untuk melakukan bin pada nilai numerik. Untuk atribut numerik dapat ditemukan nilai minimal dan maximum. Kemudian dari range minimal dan maximum tersebut dapat dibagi ke dalam N bin berukuran d, dimana d=(max-min)/n. Sehingga bin 1 adalah [min,min+d], bin 2 adalah [min+d,min+2d], dan bin ke N adalah [min+(n-1)*d,max], metode ini menggunakan interval yang sama untuk setiap bin. Equal-interval binning dapat mendistribusikan data secara tidak merata, beberapa bin dapat mengandung banyak data sedangkan bin lainnya kosong atau sedikit. equal-interval binningdapat menghasilkan bin yang kosong bila ada outlier. 2. Equal-frequencybinning: teknik binning ini dapat membuat bin dengan interval yang berbeda pada setiap bin sehingga mengijinkan jumlah record training yang sama pada masing-masing bin yang dihasilkan. 3. Top-N most frequent binning: Dapat digunakan pada data numerik ataupun categorical. Definisi bin dihitung dari frekuensi nilai yang mucul dalam data. Bila didefinisikan N bin, maka bin 1 adalah nilai yang paling sering muncul, bin 2 adalah nilai yang kedua paling sering muncul, dan Bin N adalah semua nilai sisanya. Contoh penggunaan Binning adalah Nilai atribut dapat di discretized dengan mengaplikasikan equal-interval ataupun metode binning lainnya, dan kemudian menggantikan nilai setiap bin dengan mean atau median. Binning tidak menggunakan informasi kelas dan karena itu termasuk dalam teknik

28 34 unsupervised dicretization. Bin juga sensitif terhadap jumlah bin yang dispesifikasikan oleh user serta keberadaan outliers Classification Classification merupakan bentuk dari analisis data yang digunakan untuk menghasilkan suatu model yang mendeskripsikan kelas data untuk memprediksi kelas untuk data baru. Classification memprediksi suatu nilai categorical yaitu nilai yang tidak memiliki urutan, dan discrete berdasarkan vector attribute. Algoritma yang dapat digunakan untuk classification antara lain adalah naïve bayes, decision tree, dan support vector machine.

29 35 Gambar 2.9 Contoh Classification Classification terdiri dari 2 proses (Han dan Kamber,2006,pp ) yaitu tahap pembelajaran (gambar 2.9a) dan classification (gambar 2.9b). Pada tahap pertama, classifier (model prediktif yang memprediksi nilai kelas categorical) dibuat untuk mendeskripsikan kelas data yang sebelumnya telah didefinisikan. Tahap pembelajaran ini adalah tahap dimana algoritma classification membuat

30 36 model prediktif dengan mempelajari training set yang terdiri dari record database dan label kelas. Sebuah record X, direpresentasikan dengan n-dimensi vector attribute, X=(,,, ) dimana, merupakan nilai dari atribut,,...,.setiap record, X, diasumsikan tergabung ke dalam sebuah kelas yang telah didefinisikan sebelumnya melalui atribut database lainnya yang disebut sebagai class label attribute. Class label attribute merupakan suatu nilai discrete dan tidak memiliki urutan. Nilai class label attribute adalah categorical dimana setiap nilai yang mungkin berfungsi sebagai kategori atau kelas. Karena setiap class label pada setiap record training telah diketahui, tahap ini disebut juga supervised learning. Maksudnya supervised adalah proses pemebalajaran dari classifier diawasi, dikontrol (supervised) dimana classifier diberitahu pada kelas mana sebuah record training tergabung. Hal ini berlawanan dengan unsupervised learning dimana class label tidak diketahui, dan jumlah class yang dipelajari tidak diketahui sebelumnya. Tahap pertama dari proses classification dapat disebut sebagai pembelajaran fungsi, y=f(x), yang dapat memprediksikan class label y jika diberikan record X. Classification berusaha mempelajari fungsi atau mapping yang memisahkan kelas data. Tahap kedua dari proses classification adalah mengetes model dimana model digunakan untuk classification. Tahap kedua ini bertujuan untuk mengukur keakuratan dari classifier.input data untuk tes ini sebaiknya tidak menggunakan data yang sama dengan training set. Hasil tes classifier dengan menggunakan data yang sama dengan data training bukan merupakan indikator yang baik terhadap

31 37 performa classifier. Hal ini dikarenakan classifier dibuat dengan data yang sama pada saat tes sehingga estimasi performa yang dihasilkan adalah optimistis. Hasil evaluasi error rate dari data training disebut juga resubstitution error. classifier cenderung untuk overfit data tersebut karena dalam tahap learning classifier mungkin memasukkan beberapa anomali dalam data training yang tidak ada pada data umum secara keseluruhan. Oleh karena itu, test set yang digunakan dibentuk dari record-record yang berbeda dari training set yang mana record tidak digunakan untuk memebentuk classifier. (Witten dan Frank, 2005, p145) Beberapa langkah preprocessing berikut mungkin perlu diaplikasikan pada data untuk membantu meningkatkan akurasi, efisiensi, dan skalabilitas dari proses classification (Han dan Kamber, 2006, pp ) : 1. Data Cleaning: Merujuk pada preprocessing data untuk membuang atau mengurangi noise dan missing values. Meskipun kebanyakan algoritma classification memiliki mekanisme untuk menangani data noise atau missing value, langkah ini dapat membantu mengurangi kebingungan selama learning. 2. Relevance Analysis: Banyak atribut pada data yang redundan. Correlation analysis dapat digunakan untuk mengidentifikasikan apakah atribut satu dengan lainnya berelasi. Contoh, korelasi yang sangat kuat antara dan dapat menunjukkan satu dari antara kedua atribut tersebut untuk di keluarkan. Database juga sering kali mengandung atribut yang tidak relevan terhadap kelas yang hendak diprediksi. Attribute subset selection dapat digunakan untuk menemukan set atribut yang telah direduksi tetapi hasil probabilitas distribusi kelas tetap sedekat mungkin dengan distribusi data asli yang menggunakan

32 38 seluruh atribut. Relevance analysis dalam bentuk correlation analysis dan attribute subset selection dapat digunakan untuk mendeteksi atribut yang tidak atau kurang berkontribusi pada proses classification. 3. Data transformation dan reduction: normalisasi bertujuan untuk menskalakan semua nilai untuk atribut tertentu sehingga jatuh ke dalam rentang yang kecil seperti -1.0 sampai 1.0 atau 0.0 sampai 1.0. Data juga dapat ditransformasikan dengan mengeneralisasikan ke dalam level konsep yang lebih tinggi. Hirarki konsep dapat digunakan untuk tujuan ini. Hal ini juga dapat berguna untuk atribut dengan nilai continue. Contoh, atribut numerik untuk pendapatan dapat digeneralisasikan kedalam nilai discrete seperti rendah, sendang, dan tinggi. Hal yang untuk atribut categorical seperti jalan dapat diganti dengan kota. Karena generalisasi mereduksi data training asli, operasi input/output selama proses learning semakin sedikit. Data juga dapat direduksi dengan berbagai metode lain seperti binning, atau clustering Classification dengan Decision treeinduction Decision tree induction merupakan pembelajaran Decision tree dari training set yang telah memiliki label kelas. Decision treeadalah suatu struktur pohon yang menyerupai flowchart, dimana setiap node internal (node yang bukan daun) menyatakan suatu tes terhadap sebuah atribut, setiap cabang merepresentasikan hasil dari test, dan setiap node daun (atau terminal node) menyimpan label kelas. Node paling atas pada tree adalah root node.

33 39 Gambar 2.10 Contoh Decision Tree Gambar 2.10 menunjukkan Decision tree untuk memprediksi apakah konsumen akan membeli komputer atau tidak berdasarkan vector attributeage, student, dan credit rating. Node internal dilambangkan dengan persegi, dan node daun dengan oval. Beberapa algoritma Decision tree hanya dapat menghasilkan pohon binary (setiap internal node hanya memiliki 2 cabang) sedangkan beberapa algoritma lainnya dapat memproduksi pohon nonbinary. Dengan decision tree, bila diberikan sebuah record X dimana class label belum diketahui, maka atribut dari record X dites terhadap decision tree. Tes dilakukan hingga berakhir pada node daun yang menyimpan nilai prediksi class untuk record X. Beberapa keunggulan dari Decision tree adalah: 1. Decision tree dapat menangani data dengan dimensi yang tinggi 2. Representasi dari pengetahuan yang didapat mudah untuk dipahami oleh manusia 3. Proses learning dan classification dari Decision tree sederhana dan cepat 4. Secara umum Decision tree classifier memilik akurasi yang baik.

34 40 Decision tree memiliki beberapa algoritma seperti ID3, C4.5, atau CART. Kebanyakan algoritma untuk Decision treeinduction menggunakan pendekatan top-down, dimana proses dimulai dari record pada training set dan kelas labelnya. Training set secara berulang akan dipartisi kedalam subset yang lebih kecil selama tree dibangun. Gambar 2.11 Dasar Algoritma Decision Tree Gambar 2.11 meringkas dasar dari algoritma decision tree. Proses pembuatan tree dilakukan sebagai berikut:

35 41 1. Algoritma dipanggil dengan 3 parameter: D, attribute_list, dan atrribute_selection_method. D merupakan partisi data. Awalanya D merupakan keseluruhan record pada training set beserta kelas labelnya.parameter attribute_list merupakan list atribut yang mendeskripsikan record. Attribute_selection_method menspesifikasikan prosedur heuristik yang digunakan untuk memilih attribut yang terbaik untuk mendiskriminasikan record berdasarkan kelas. Prosedur ini menggunakan attribute selection measure, seperti information gain,gini index, atau minimum descriptor length (MDL). Apakah tree harus binary atau tidak ditentukan oleh attribute selection measure. Beberapa attribute selection measure, seperti gini index, mengharuskan tree yang dihasilkan binary. 2. Tree dimulai dengan node tunggal, N, merepresentasikan record dalam training set D (langkah 1) 3. Jika record dalam D semua berada dalam class yang sama, maka node N menjadi daun dan diberi label dengan class tersebut (langkah 2 dan 3). Langkah 4 dan 5 merupakan terminating conditions. 4. Jika record dalam D tidak semua berada dalam 1 kelas yang sama. Aglortima memanggil attribute_selection_method untuk menentukan splitting criterion. Splitting criterion merupakan atribut yang digunakan untuk tes pada node N dengan menentukan cara terbaik untuk memisahkan atau mempartisi record dalam D ke kelas individual (langkah 6). Splitting criterion juga menentukan cabang mana yang harus dibuat dari node N sesuai dari hasil output dari tes. Splitting criterion ditentukan sehingga, idealnya, partisi yang dihasilkan

36 42 semurni mungkin. Partisi disebut murni bila semua record yang berada di dalamnya berada dalam class yang sama. 5. Node N diberi label dengan splitting criterion, yang berfungsi sebagai tes pada node tersebut (langkah 7). Cabang dibuat dari node N untuk setiap hasil dari splitting criterion dan record D dipartisi sesuai dengan splitting tersebut (langkah 10-11). Gambar 2.12 menunjukkan 3 skenario yang mungkin. Gambar 2.12 Skenario hasil splitting criterion Jika A merupakan spliiting attribute. A memiliki v nilai berbeda, {,,, }, berdasarkan training data: A merupakan nilai discrete (categorical): Dalam kasus ini, keluaran dari test pada node N adalah nilai yang diketahui artibute A. Setiap cabang dibuat untuk setiap nilai yang diketahui,, dari A dan diberi label dengan nilai tersebut (Gambar 2.12(a)). Partisi Dj adalah subset dari record yang

37 43 memiliki label class dalam D yang memiliki nilai dari A. Karena semua record dalam partisi yang dihasilkan memiliki nilai untuk A yang sama, maka A tidak akan digunakan untuk dalam partisi yang akan datang. Karena itu, atribut A dikeluarkan dari attribute_list (langkah 8 dan 9) A merupakan nilai continue: Dalam kasus ini, tes pada node N dapat memiliki 2 keluaran yang mungkin yaitu konsidi A split_point dan A split_point. Dimana split_point dikembalikan oleh attribute_selection_method sebagai bagian dari splitting criterion. Dua cabang dibuat dari N dan diberi label (gambar 2.12(b)). Record-record dipartisi sehingga split_point, sedangkan menampung subset dari record pada D dimana A menampung sisanya. A merupakan nilai discrete dan binary tree harus dibuat (gambar 2.12(c)): Test pada node N dalam bentuk A anggota?. merupakan splitting subset dari A, yang dikembalikan oleh attribute_selection_method sebagai bagian dari splitting criterion. merupakan subset dari nilai atribut A. 6. Algoritma menggunakan proses yang sama secara berulang untuk membentuk Decision treeuntuk record-record pada partisi yang dihasilkan,, dari D 7. Partisi berulang ini berhenti ketika memenuhi termintating condition: Semua record pada partisi D (direpresentasikan pada node N) tergabung dalam kelas yang sama (langkah 2 dan 3) Tidak ada atribut lagi dimana record-record dapat dipartisi lebih lanjut (langkah 4). Pada kasus seperti ini node N diubah menjadi daun dan diberi

38 44 label dengan nilai class yang paling banyak di D (langkah 5). Alternatif lain distribusi class pada record di node tersebut dapat disimpan. Tidak ada record pada cabang yaitu ketika partisi kosong (langkah 12). Pada kasus ini, daun dibuat dengan class yang paling banyak muncul di D (langkah 13) 8. Hasil dari Decision tree dikembalikan (langkah 15). (Han dan Kamber, 2006, pp ) Support Vector Machine (SVM) SVM dapat digunakan untuk classification baik data linear maupun nonlinear. SVM menggunakan nonlinear mapping untuk mentransformasikan data training ke dimensi yang lebih tinggi.dalam dimensi baru ini dicari hyperplane (bidang) optimal sebagai pemisah. Hyperplane ini merupakan batas yang memisahkan record dari satu kelas dengan kela lainnya. SVM menemukan hyperplane dengan menggunakan support vector dan margin (didefinisikan oleh support vector). Waktu training dari SVM lebih lambat dan memakan waktu bila dibandingkan dengan metode classification lainnya tetapi SVM memiliki tingkat akurasi yang tinggi dan tidak rentan terhadap overfitting. SVM dapat digunakan untuk memprediksi nilai categorical atau nilai continue. Jika diberikan suatu masalah apakah seorang pelanggan akan membeli komputer atau tidak, dengan label kelas yang memiliki 2 nilai dimana kelas merupakan linearly separable dengan data set D dalam bentuk (, ),(, ),,(, ), dimana adalah sekumpulan record data

39 45 training yang diasosiasikan dengan label kelas. Setiap dapat memiliki satu dari dua nilai yaitu +1 (buys_computer=yes) atau -1 (buy_computer=no). Setiap dijelaskan oleh dua atribut dan seperti ditunjukkan pada gambar 2.15 Gambar 2.13 Contoh hyperplane SVM Dari gambar 2.13 terlihat bahwa data 2-D tersebut linearly separable karena sebuah garis lurus dapat digambarkan untuk memisahkan semua record dari kelas +1 dengan record dari kelas -1. Jumlah garis pemisah yang ada adalah tak terbatas (infinite). Jika data adalah 1-D (1 atribut) yang dicari adalah titik pemisah, jika data 3-D (memiliki 3 atribut) maka yang dicari adalah bidang (plane). Digeneralisasikan menjadi n-dimensi maka pemisah tersebut disebut dengan hyperplane. SVM berusaha mencari hyperplane terbaik yang memiliki error classification terkecil.

40 46 Gambar 2.14 Contoh margin SVM SVM mencari hyperplane terbaik dengan mencari maximum marginal hyperplane (MMH). Gambar 2.14 menunjukkan contoh 2 hyperplane pemisah yang mungkin dilengkapi dengan margin masing-masing. Dari gambar 2.14 terlihat bahwa kedua hyperplane dapat dengan benar memisahkan semua record data yang diberikan. Akan tetapi, hyperplane yang memiliki margin terbesar lebih akurat dalam memprediksi kelas dari record data yang belum pernah dilihat

41 47 sebelumnya. Karena itu (selama fase learning atau training), SVM mencari hyperplane dengan margin terbesar yaitu MMH. Jarak terdekat dari hyperplane ke salah satu sisi margin sama dengan jarak terdekat dari hyperplane tersebut ke sisi margin lainnya. Jarak terdekat ini adalah jarak dari MMH ke record training terdekat dari masing-masing kelas. Record training yang berada pada sisi margin dari hyperplane disebut dengan support vector. Support vector adalah record yang paling sulit untuk diklasifikasikan dan memberikan informasi paling banyak mengenai classification. Jika semua record selain support vector di keluarkan dari training data dan training dilakukan ulang, maka akan tetap didapatkan hyperplane yang serupa. Komplekstitisitas dari classifier lebih ditentukan oleh banyaknya support vector dibanding dimensi data. SVM juga dapat digunakan untuk mencari non-linear decision boundary.non-linear decision boundary dicari apabila kelas pada data tidak dapat dipisahkan oleh liner hyperplane. (Han dan Kamber, 2006, pp ) Gambar 2.15 Data dengan kelas non-linearly separable

42 Bayesian Classification Bayesian classifier merupakan classifier statistik yang dapat memprediksikan probabilitas keanggotaan kelas, seperti probabilitas sebuah record tergabung ke dalam kelas tertentu. Bayesian Classification yang didasarkan pada teorema Bayes memilki tingkat akurasi yang tinggi dan dapat berjalan dengan cepat dalam database yang besar. Naïve bayesian Classifier mengasumsikan efek dari sebuah nilai atribut pada sebuah kelas, independen terhadap nilai dari atribut lainnya. Asumsi ini disebut juga class conditional independence. Asumsi ini dilakukan untuk menyederhanakan proses komputasi dan karena itu dianggap naïve. Jika X merupakan record data, dimana X terdiri dari n atribut. Dalam istilah bayesian, X disebut dengan fakta. Jika H merupakan hipotesis, seperti misalnya record X tergabung ke dalam kelas C. Untuk classification, yang ingin ditentukan adalah P(H X), probabilitas hipotesis H jika diberikan fakta atau record X. Dengan kata lain yang dicari adalah probabilitas record X tergabung ke dalam kelas C, jika diketahui deskripsi atribut dari X. P(H X) merupakan posterior probability, H dikondisikan pada X. Contoh, jika data pelanggan sebuah toko komputer dideskripsikan dengan atribut umur dan pendapatan. X adalah pelanggan berumur 35 tahun dengan pendapatan Rp ,00. Misalkan ingin diketahui apakah pelanggan X akan membeli komputer jika diketahui umur dan pendapatan pelanggan.

43 49 P(H) adalah prior probability. Dalam contoh diatas berarti adalah probabilitas pelanggan akan membeli komputer tanpa melihat umur dan pendapatan atapun informasi atribut lainnya. P(X H) adalah posterior probability dimana X dikondisikan pada H. Sesuai contoh berarti probabilitas pelanggan, X, berumur 35 tahun dengan pendapatan Rp ,00 jika diketahui pelanggan membeli komputer. P(X) merupakan prior probability dari X. Menggunakan contoh berarti probabilitas seseorang dari database pelanggan yang mana berumum 35 tahun dan memiliki pendapatan Rp ,00. P(H), P(X H), dan P(X) dapat dicari dari training set dimana train set telah memiliki label class. Teorema Bayes berguna untuk untuk menghitung posterior probability P(H X) dari P(H), P(X H), dan P(X) dengan rumusan sebagai berikut P(H X)= Proses kerja Bayesian Classifier adalah sebagai berikut: 1. Jika D adalah training set yang terdiri dari record dan label kelasnya masingmasing. Setiap record direpresentasikan dengan n-dimensi attribute vector, X=(,,, ). Dan memiliki n atribut,,,. 2. Jika terdapat m kelas,,,,. Apabila diberikan record, X, classifier akan memprediksikan X tergabung ke dalam kelas yang memiliki nilai posterior probability tertinggi, dikondisikan pada X. Naïve bayesclassifier memprediksikan record X tergabung dalam class jika dan hanya jika P( X)>P( X) untuk 1 j m, j i

44 50 Maka nilai P( X) merupakan nilai probabilitas tertinggi. Nilai kelas dimana P( X) dimaksimalkan disebut dengan maximum posteriori hypothesis. P( X)= 3. Karena nilai P(X) konstan untuk semua kelas, maka hanya yang perlu dimaksimalkan. Jika prior probability dari kelas tidak diketahui, maka biasanya diasumsikan bahwa setiap kelas adalah sama yang mana P( )= )= =, dan yang perlu dimaksimalkan hanya nilai. Selain itu, nilai harus dimaksimalkan. Nilai prior probabilitas kelas dapat diestimasikan dengan = / D, dimana adalah jumlah record dalam D yang memiliki label kelas. 4. Bila diberikan dataset dengan banyak atribut, maka akan sangat sulit dan mahal biaya untuk menghitung nilai dalam mengevaluasi. Untuk mengurangi proses komputasi, asumsi naïve class conditional independence dibuat. Asumsi tersebut menganggap nilai dari sebuah atribut independen terhadap satu sama lain. Maka = Probabilitas,,, dapat dicari dari data training. menunjukkan nilai dari atribut untuk record X. Untuk setiap atribut akan dilihat apakah atribut adalah categorical atau berupa nilai continue. Contoh, untuk menghitung P(X, lakukan hal berikut:

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD) Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika Knowledge Discovery in Databases (KDD) Knowledge Discovery in Databases (KDD) Definisi Knowledge Discovery

Lebih terperinci

PERTEMUAN 14 DATA WAREHOUSE

PERTEMUAN 14 DATA WAREHOUSE PERTEMUAN 14 DATA WAREHOUSE Data Warehouse Definisi : Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. BAB 2 LANDASAN TEORI Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun. 2.1. Data Mining Data mining adalah suatu istilah yang digunakan

Lebih terperinci

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan BAB 1 PERSYARATAN PRODUK Bab ini membahas mengenai hal umum dari produk yang dibuat, meliputi tujuan, ruang lingkup proyek, perspektif produk, fungsi produk dan hal umum yang lainnya. 1.1 Pendahuluan Hal

Lebih terperinci

DATA PREPROCESSING. Budi Susanto (versi 1.2)

DATA PREPROCESSING. Budi Susanto (versi 1.2) DATA PREPROCESSING Budi Susanto (versi 1.2) Kenali Data Anda Atribut Data Memahami tipe atribut Membantu membetulkan data saat integrasi data Deskripsi Statistik Data Memudahkan untuk mengisi nilai yang

Lebih terperinci

Tahapan Proses KDD (Peter Cabena)

Tahapan Proses KDD (Peter Cabena) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #2 Gunawan Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya Tahapan Proses KDD (Peter Cabena) Penentuan Sasaran Bisnis (Business

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database

Lebih terperinci

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #2 Gunawan Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya Tahapan Proses KDD (Peter Cabena) Penentuan Sasaran Bisnis (

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan 6 BAB II TINJAUAN PUSTAKA 2.1 Pengertian Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Penelitian ini menggunakan beberapa sumber pustaka yang berhubungan dengan kasus yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup

Lebih terperinci

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #4: Data Preprocessing (Bagian 2) Task III : Data Transformation (Transformasi Data) Mengubah / mentransformasikan data ke dalam

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data mining

Lebih terperinci

jumlah keluarga, dan jumlah rumah. Data diambil dari hasil sensus potensi desa yang dilakukan BPS tahun 1996, 1999, 2003, dan 2006.

jumlah keluarga, dan jumlah rumah. Data diambil dari hasil sensus potensi desa yang dilakukan BPS tahun 1996, 1999, 2003, dan 2006. 1 Latar Belakang PENDAHULUAN Kemajuan teknologi komputer semakin memudahkan proses penyimpanan dan pengolahan data berukuran besar. Namun demikian, seringkali data yang sudah tersimpan belum dimanfaatkan

Lebih terperinci

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database 2. Tinjauan Pustaka 2.1 Data Mining Data mining merupakan ilmu yang mempelajari tentang proses ekstraksi informasi yang tersembunyi dari sekumpulan data yang berukuran sangat besar dengan menggunakan algoritma

Lebih terperinci

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN BAB 3 METODE PENELITIAN Pada proses penelitian ini dilakukan beberapa tahapan mulai dari tahap awal yaitu tahap inisiasi, pengembangan model, dan tahap terakhir pengembangan prototipe. Dalam tahapan inisiasi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Salah satu pelayanan dalam dunia perbankan adalah pemberian pinjaman kredit kepada nasabah yang memenuhi syarat perbankan. kredit merupakan sumber utama penghasilan

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan digunakan untuk mengklasifikasi

Lebih terperinci

2.2 Data Mining. Universitas Sumatera Utara

2.2 Data Mining. Universitas Sumatera Utara Basis data adalah kumpulan terintegrasi dari occurences file/table yang merupakan representasi data dari suatu model enterprise. Sistem basisdata sebenarnya tidak lain adalah sistem penyimpanan-record

Lebih terperinci

Klasifikasi. Diadaptasi dari slide Jiawei Han

Klasifikasi. Diadaptasi dari slide Jiawei Han Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ yudi@upi.edu / Okt 2012 Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang) Hapsari Dita Anggraeni, Ragil Saputra, Beta Noranita APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang) Hapsari Dita

Lebih terperinci

Penggunaan Pohon Keputusan untuk Data Mining

Penggunaan Pohon Keputusan untuk Data Mining Penggunaan Pohon Keputusan untuk Data Mining Indah Kuntum Khairina NIM 13505088 Program Studi Teknik Teknik Informatika, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jalan Ganesha

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Database Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian kumpulan data yang berisi secara logika, dan keterangan dari masing-masing data yang didesain untuk mendapatkan

Lebih terperinci

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY DATA WAREHOUSE - PERTEMUAN 1 - KNOWLEGDE DISCOVERY in DATABASE (KDD) Penemuan Pengetahuan di Database Tujuan : Mahasiswa Dapat memahami konsep KDD yang merupakan tujuan akhir dari Data Warehouse dan Data

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan

Lebih terperinci

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009 Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES Bertalya Universitas Gunadarma 2009 Data Mining (DM) DM merupakan suatu proses penjelajahan otomatis untuk mendapatkan informasi berguna

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Pendahuluan Didalam bab ini menceritakan semua teori-teori yang digunakan didalam proses algoritma decision tree, algoritma Random tree dan Random Florest serta teoriteori dan

Lebih terperinci

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket Bab1 Konsep Data Mining POKOK BAHASAN: Konsep dasar dan pengertian Data Mining Tahapan dalam Data Mining Model Data Mining Fungsi Data Mining TUJUAN BELAJAR: Setelah mempelajari materi dalam bab ini, mahasiswa

Lebih terperinci

CONTOH KASUS DATA MINING

CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING CONTOH KASUS DATA MINING Sebuah rumah sakit ingin ingin menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES Selvy Megira 1), Kusrini 2), Emha Taufiq Luthfi 3) 1), 2), 3) Teknik Universitas AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 40 BAB III METODOLOGI PENELITIAN 3.1 DESAIN PENELITIAN Dalam melakukan penelitian, dibutuhkan desain penelitian agar penelitian yang dilakukan dapat berjalan dengan baik. Berikut ini merupakan desain penelitian

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

DATA WAREHOUSING AND ONLINE ANALYTICAL PROCESSING (OLAP)

DATA WAREHOUSING AND ONLINE ANALYTICAL PROCESSING (OLAP) DATA WAREHOUSING AND ONLINE ANALYTICAL PROCESSING (OLAP) Overview Data Warehouse dan OLAP merupakan elemen penting yang mendukung decision support. Terutama bagi perusahaan perusahaan besar dengan database

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

PE DAHULUA. Latar Belakang

PE DAHULUA. Latar Belakang Latar Belakang PE DAHULUA Pemilihan Kepala Daerah dan Wakil Kepala Daerah, atau seringkali disebut Pilkada, adalah pemilihan umum untuk memilih Kepala Daerah dan Wakil Kepala Daerah secara langsung di

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Situs jejaring sosial merupakan gaya hidup sosial baru yang muncul seiring berkembangnya internet. Gaya hidup baru tersebut memiliki ruang lingkup yang lebih luas

Lebih terperinci

II. TINJAUAN PUSTAKA

II. TINJAUAN PUSTAKA II. TINJAUAN PUSTAKA 2.1 Sistem Informasi Manajemen Mcleod R dan Schell G, (2004) membagi sumber daya menjadi dua bagian yaitu sumberdaya fisikal dan sumberdaya konseptual. Sumber daya fisikal terdiri

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pasar modal merupakan salah satu bagian dari pasar keuangan, di samping pasar uang, yang sangat penting peranannya bagi pembangunan nasional pada umumnya dan bagi

Lebih terperinci

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE Warih Maharani Fakultas

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

BAB I PENDAHULUAN. I.1 Pendahuluan

BAB I PENDAHULUAN. I.1 Pendahuluan BAB I PENDAHULUAN I.1 Pendahuluan Dalam kegiatan manusia sehari-hari, terutama dalam kegiatan transaksi, seperti transaksi perbankan, rekam medis, transaksi jual beli dan transaksi lainnya harus dicatat

Lebih terperinci

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa dengan Metode NAÏVE BAYES M. Ridwan Effendi Fakultas Komputer Jurusan Sistem Informasi Universitas Mohammad Husni Thamrin Jakarta Email :

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Data Mining Data mining adalah bagian dari knowledge discovery di database yang menganalisa database berukuran besar untuk menemukan pola yang berguna pada data (Silberschatz,

Lebih terperinci

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap Data Mining Outline BAB I Pendahuluan BAB II Data BAB III Algoritma Klasifikasi BAB IV Algoritma Klastering BAB V Algoritma Asosiasi BAB VI Algoritma Estimasi BAB VII Deteksi Anomali Ricky Maulana Fajri

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING BAB IV GAMBARAN UMUM METODOLOGI DATA MINING A. Metodologi Data Mining Metodologi Data Mining Komponen data mining pada proses KDD seringkali merupakan aplikasi iteratif yang berulang dari metodologi data

Lebih terperinci

[Data Warehouse] [6/C2 & 6/D2]

[Data Warehouse] [6/C2 & 6/D2] [Data Warehouse] [6/C2 & 6/D2] [ Chapter 2] Jenis dan Karakteristik Data Warehouse Dedy Alamsyah, S.Kom, M.Kom [NIDN : 0410047807] Jenis Data Warehouse 1. Functional Data Warehouse (Data Warehouse Fungsional)

Lebih terperinci

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU Aradea, Satriyo A., Ariyan Z., Yuliana A. Teknik Informatika Universitas Siliwangi Tasikmalaya Ilmu Komputer Universitas Diponegoro

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

BAB IV EKSPERIMEN. 4.1 Tujuan

BAB IV EKSPERIMEN. 4.1 Tujuan BAB IV EKSPERIMEN Pada bab ini dibahas mengenai eksperimen penggunaan SVM dalam pendeteksian intrusi pada jaringan. Pembahasan ini meliputi tujuan yang ingin dicapai melalui eksperimen ini, parameter evaluasi

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1. Data Mining Data mining adalah proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai untuk meningkatkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Faktor penentu bagi usaha atau bisnis apapun pada masa sekarang ini adalah kemampuan untuk menggunakan informasi seefektif mungkin. Penggunaan data secara tepat karena

Lebih terperinci

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas 1. Memahami cakupan materi dan sistem perkuliahan Data Mining.

Lebih terperinci

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE Castaka Agus Sugianto Program Studi Teknik lnformatika Politeknik TEDC Bandung

Lebih terperinci

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan PENERAPAN DATA MINING DENGAN METODE KLASIFIKASI NAÏVE BAYES UNTUK MEMPREDIKSI KELULUSAN MAHASISWA DALAM MENGIKUTI ENGLISH PROFICIENCY TEST (Studi Kasus : Universitas Potensi Utama) Alfa Saleh Teknik Informatika

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah Proses yang menggunakan

Lebih terperinci

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009 Konsep Data Mining Pendahuluan Bertalya Universitas Gunadarma 2009 Latar Belakang Data yg dikumpulkan semakin bertambah banyak Data web, e-commerce Data pembelian di toko2 / supermarket Transaksi Bank/Kartu

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini sering terjadi data explosion problem yaitu data data yang tersimpan dalam database berjumlah sangat besar namun dari data data tersebut belum banyak dimanfaatkan

Lebih terperinci

Data Preprocessing. oleh: Entin Martiana

Data Preprocessing. oleh: Entin Martiana Data Preprocessing oleh: Entin Martiana Data Data yang ada pada umumnya: Banyak noise Ukuran yang besar Dapat merupakan campuran dari berbagai sumber Memahami data sangat penting untuk preprocessing September

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI penelitian. Pada bab ini akan dibahas literatur dan landasan teori yang relevan dengan 2.1 Tinjauan Pustaka Kombinasi metode telah dilakukan oleh beberapa peneliti

Lebih terperinci

2. Data & Proses Datamining

2. Data & Proses Datamining 2. Data & Proses Datamining Data 1. Input (Dataset) 2. Pengolahan Data Awal 3. Metode Learning Tahapan Utama Proses Data Mining Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model/ Knowledge)

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Di dalam landasan teori ini, akan dibahas tentang teori teori dan konsep dasar yang mendukung pembahasan dari sistem yang akan dibuat. 2.1 Basis Data (Database) Basis data diperlukan

Lebih terperinci

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang Latar Belakang PENDAHULUAN Perkembangan teknologi informasi yang sangat pesat yang terjadi dewasa ini menuntut manusia untuk mampu beradaptasi dengan perkembangan tersebut. Upaya adaptasi yang dilakukan

Lebih terperinci

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO

PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO PENERAPAN ALGORITMA NAIVE BAYES UNTUK MEMPREDIKSI KEPUTUSAN NASABAH TELEMARKETING DALAM MENAWARKAN DEPOSITO Wahyu Nurjaya WK 1, Yusrina Adani 2 Program Studi Sistem Informasi, STMIK LPKIA Bandung Program

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1. Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di lakukan oleh Muhammad Toha dkk (2013), Sylvia Pretty Tulus (2014), Johan

Lebih terperinci

MODUL 12 Model Prediktif

MODUL 12 Model Prediktif MODUL 12 Model Prediktif Prediktif Analytics adalah teknologi yang menangkap proses data mining dalam rutinitas sederhana. Kadang-kadang disebut "one-click data mining," Model ini menyederhanakan dan mengotomatisasi

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Dalam mencapai tujuan pembangunan ekonomi diperlukan peran serta lembaga keuangan untuk membiayai pembangunan tersebut. Lembaga keuangan memegang peranan penting dalam

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pendidikan adalah salah satu aspek terpenting bagi kehidupan manusia, yang dapat mempengaruhi manusia itu sendiri, juga menjadi faktor pendukung dalam setiap sektor

Lebih terperinci

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK

Lebih terperinci

BAB 2. Landasan Teori

BAB 2. Landasan Teori BAB 2 Landasan Teori 2.1 Pengertian Data Mining Menurut Han dan Kamber (2011:6) menjelaskan bahwa Data Mining merupakan pemilihan atau menggali pengetahuan dari jumlah data yang banyak. Berbeda dengan

Lebih terperinci

Bab II Tinjauan Pustaka

Bab II Tinjauan Pustaka Bab II Tinjauan Pustaka II.1 II.1.1 Corporate Information Factory Ekosistem Informasi dan Corporate Information Factory Ekosistem informasi merupakan suatu sistem dengan komponenkomponen berbeda, yang

Lebih terperinci

http://www.brigidaarie.com proses menganalisa data untuk mencari polapola tersembunyi dengan menggunakan metodologi otomatis Istilah lain : Machine Learning Knowledge Discovery in Database (KDD) Predictive

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Instrumen Penelitian Pada penelitian ini bahan dan peralatan yang diperlukan sebagai berikut: 3.1.1 Bahan Dalam penelitian ini bahan yang dibutuhkan adalah data siswa kelas

Lebih terperinci

1. Pendahuluan. 1.1 Latar Belakang

1. Pendahuluan. 1.1 Latar Belakang 1. Pendahuluan 1.1 Latar Belakang Persaingan dalam dunia bisnis, terlebih lagi bagi perusahaan besar, tidak lepas dari adanya proses jual beli saham. Saham secara umum merupakan surat berharga yang dapat

Lebih terperinci

PERTEMUAN 13 ARSITEKTUR & MODEL DATA MINING

PERTEMUAN 13 ARSITEKTUR & MODEL DATA MINING PERTEMUAN 13 ARSITEKTUR & MODEL DATA MINING bagan lanjut Keterangan : 1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise) 2. Data integration : penggabungan data dari

Lebih terperinci

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4

Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Model. Pengklasifikasian: Definisi. Catatan Kuliah untuk Bab 4 Data Mining Pengklasifikasian: Konsep Dasar, Pohon Keputusan, and Evaluasi Catatan Kuliah untuk Bab 4 Pengantar Data Mining oleh Tan, Steinbach, Kumar dialihbahasakan oleh Tim Pengajar Konsep Data Mining

Lebih terperinci

Keoptimalan Naïve Bayes Dalam Klasifikasi

Keoptimalan Naïve Bayes Dalam Klasifikasi Keoptimalan Naïve Bayes Dalam Klasifikasi M. Ammar Shadiq Program Ilmu Komputer FPMIPA Universitas Pendidikan Indonesia ammar.shadiq@gmail.com Abstrak Naïve Bayes adalah salah satu algoritma pembelajaran

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Beberapa penelitian terdahulu telah banyak yang menerapkan data mining, yang bertujuan dalam menyelesaikan beberapa permasalahan seputar dunia pendidikan. Khususnya

Lebih terperinci

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk BAB II LANDASAN TEORI 2.1 Sistem Menurut Gondodiyoto (2007), sistem adalah merupakan suatu kesatuan yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk mencapai suatu tujuan tertentu.

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan Sistem Pendukung Keputusan (SPK) / Decision Support Sistem (DSS) adalah sistem komputer yang saling berhubungan dan menjadi alat bantu bagi seorang

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA

APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA Yuli Asriningtias, Rodhyah Mardhiyah Program Studi Teknik Informatika Fakultas Bisnis & Teknologi Informasi, Universitas Teknologi

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA 1 Latar Belakang PENDAHULUAN Teknologi basis data saat ini berkembang sangat pesat. Data disimpan dalam basis data, diolah kemudian disajikan sebagai informasi yang bernilai bagi pengguna. Penyimpanan

Lebih terperinci

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering Analisis Cluster Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan

Lebih terperinci

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Moch. Ali Machmudi 1) 1) Stmik Bina Patria UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama

Lebih terperinci