BAB 2 LANDASAN TEORI. 2.1 Data Mining BAB 2 - LANDASAN TEORI. Aplikasi dan analisis..., Andina Budiarti, FASILKOM UI, 2006

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB 2 LANDASAN TEORI. 2.1 Data Mining BAB 2 - LANDASAN TEORI. Aplikasi dan analisis..., Andina Budiarti, FASILKOM UI, 2006"

Transkripsi

1 BAB 2 LANDASAN TEORI Data mining sebagai salah satu proses eksplorasi dan analisis data memiliki banyak metode dengan kegunaannya masing-masing. Clustering dan association rules merupakan dua di antara metode-metode tersebut. Selain aplikasi metode atau algoritma terhadap data, data mining sebagai suatu proses juga memiliki tahapan-tahapan lain yang juga akan dibahas berikut ini. 2.1 Data Mining Data mining merupakan gabungan dari berbagai bidang ilmu, antara lain basis data, information retrieval, statistika, algoritma dan machine learning. Bidang ini telah berkembang sejak lama namun makin terasa pentingnya sekarang ini di mana muncul keperluan untuk mendapatkan informasi yang lebih dari data transaksi maupun fakta yang terkumpul selama bertahun-tahun. Data mining adalah cara menemukan informasi tersembunyi dalam sebuah basis data dan merupakan bagian dari proses Knowledge Discovery in Databases (KDD) untuk menemukan informasi dan pola yang berguna dalam data [DUN03]. Kegiatan data mining biasanya dilakukan pada sebuah data warehouse yang menampung data dalam jumlah besar dari suatu organisasi. Proses data mining mencari informasi baru, berharga dan berguna di dalam sekumpulan data bervolume besar dengan melibatkan komputer dan manusia serta bersifat iteratif baik melalui proses otomatis ataupun manual [KAN03]. Secara umum, data mining terbagi dalam 2 sifat: a. Predictive: menghasilkan model berdasarkan sekumpulan data yang dapat digunakan untuk memperkirakan nilai data yang lain. Metode-metode yang termasuk Predictive Data Mining adalah: Klasifikasi: pembagian data ke dalam beberapa kelompok yang telah ditentukan sebelumnya Regresi: memetakan data ke suatu prediction variable Time series Analysis: pengamatan perubahan nilai atribut dari waktu ke waktu. Halaman 4 dari 124

2 b. Descriptive: mengidentifikasi pola atau hubungan dalam data untuk menghasilkan informasi baru. Metode yang termasuk dalam Descriptive Data Mining adalah: Clustering: identifikasi kategori untuk mendeskripsikan data Association Rules: identifikasi hubungan antara data yang satu dengan lainnya. Summarization: pemetaan data ke dalam subset dengan deskripsi sederhana Sequence Discovery: identifikasi pola sekuensial dalam data Sekarang ini, aplikasi data mining sudah meluas di berbagai bidang. Di bidang bisnis, aplikasi tersebut antara lain [OY + 07]: Tabel 1: Aplikasi Data [OY + 07, hal. 8] Bidang Aplikasi Keterangan Affinity positioning Memposisikan produk dengan efektif Retail Menemukan lebih banyak produk Cross selling untuk dijual Perbankan Mengidentifikasi pelanggan yang Customer relationship paling menguntungkan serta caracara untuk management mengoptimalkannya Manajemen kartu kredit Asuransi Telekomunikasi Telemarketing Manajemen sumber daya manusia Lift Churn Deteksi penipuan Churn Informasi online Churn Mengidentifikasi segmen pasar yang efektif Mengidentifikasi kemungkinan pindahnya pelanggan Mengidentifikasi penipuan claim asuransi Mengidentifikasi kemungkinan pindahnya pelanggan Membantu telemarketers dengan akses data yang mudah Mengidentifikasi kemungkinan pindahnya pegawai Di luar dunia bisnis, aplikasi data mining antara lain membantu penelitian di bidang genetika [SAH], pemrosesan citra geografis [ZRL + 96], pengelompokkan dokumen [NOB], manajemen jaringan dan deteksi intrusion [BLO + ], taksonomi tumbuhan dan binatang [WIS99] serta personalisasi dalam e-learning [MM + 04]. 2.2 Clustering Clustering juga dikenal sebagai unsupervised learning yang membagi data menjadi kelompok-kelompok atau clusters berdasarkan suatu kemiripan atribut-atribut di antara data tersebut [DUN03]. Karakteristik tiap cluster tidak ditentukan sebelumnya, melainkan tercermin dari kemiripan data yang terkelompok di dalamnya. Oleh sebab itu, hasil clustering seringkali perlu diinterpretasikan oleh pihak yang benar-benar mengerti mengenai karakter domain data tersebut. Selain digunakan sebagai metode yang independen dalam data mining, clustering Halaman 5 dari 124

3 juga digunakan dalam pra-pemrosesan data sebelum data diolah dengan metode data mining lain untuk meningkatkan pemahaman terhadap domain data [OY + 07] Similarity Measure dan Distance Measure Karakter terpenting dari hasil clustering yang baik adalah suatu instance data di dalam suatu cluster lebih mirip dengan instance lain di dalam cluster tersebut daripada dengan instance di luar cluster itu [KAN03]. Ukuran kemiripan (similarity measure) tersebut bisa bermacam-macam dan mempengaruhi perhitungan dalam menentukan anggota suatu cluster. Jadi tipe data yang akan di-cluster (kuantitatif atau kualitatif) juga menentukan ukuran apa yang tepat digunakan dalam suatu algoritma. Selain kemiripan antardata dalam suatu cluster, clustering juga dapat dilakukan berdasarkan jarak antara data atau cluster yang satu dengan yang lainnya [DUN03]. Ukuran jarak (distance atau dissimilarity measure) yang merupakan kebalikan dari ukuran kemiripan ini juga banyak ragamnya dan penggunaannya juga tergantung dari tipe data yang akan di-cluster. Kedua ukuran ini bersifat simetris, di mana jika A dikatakan mirip dengan B maka dapat disimpulkan B mirip dengan A. Tipe data kuantitatif dapat dibagi ke dalam nilai kontinu (e.g. bilangan real), diskret (e.g. integer) atau interval sedangkan tipe kualitatif dapat dibagi ke dalam nominal atau unordered (e.g. biru, merah ) dan ordinal (e.g. jabatan militer: jendral, kolonel ) [KAN03]. Berbagai macam rumus yang digunakan untuk masing-masing tipe data serta perhitungan jarak antar-cluster akan dibahas pada bagian berikut ini Ukuran untuk Tipe Data Numerik Untuk sebuah set X beranggotakan x i X, i = 1,, n, tiap item direpresentasikan sebagai vektor x i = {x i1, x i2,, x im } dengan m sebagai jumlah dimensi dari item, rumus-rumus yang biasa digunakan sebagai ukuran jarak antara x i dan x j untuk data numerik antara lain: a. Euclidean Distance m ( x ik x ij ) k = 1 Ukuran ini sering digunakan dalam clustering karena sederhana walaupun sangat sensitif terhadap pencilan. Ukuran ini memiliki masalah jika skala nilai atribut yang satu sangat besar dibandingkan nilai atribut lainnya. Oleh sebab itu, nilai-nilai atribut seringkali dinormalisasi sehingga berada dalam kisaran 0 dan 1. b. L 1 Metric atau city block distance atau Manhattan distance m k = 1 2 x ik x jk 1/ 2 Halaman 6 dari 124

4 Jika tiap item digambarkan sebagai titik dalam sebuah grid, ukuran jarak ini merupakan banyak sisi yang harus dilewati suatu titik untuk mencapai titik yang lain seperti halnya dalam sebuah peta jalan. c. Minkwoski Metric m ( x ik x ij ) k = 1 Ukuran ini merupakan bentuk umum dari 2 rumus sebelumnya. Euclidean distance adalah kasus di mana nilai p = 2 sedangkan Manhattan distance merupakan bentuk Minkowski dengan p = 1. Dengan demikian, lebih banyak nilai numerik yang dapat ditempatkan pada jarak terjauh di antara 2 vektor. Seperti pada Euclidean distance dan juga Manhattan distance, ukuran ini memiliki masalah jika salah satu atribut dalam vektor memiliki p 1/ p rentang yang lebih lebar dibandingkan atribut-atribut lainnya. d. Cosine-correlation (ukuran kemiripan dari model Euclidean n-dimensi) m ( xik x jk ) k= 1 m 2 xik k= 1 Ukuran ini bagus digunakan pada data dengan tingkat kemiripan tinggi walaupun sering pula digunakan bersama pendekatan lain untuk membatasi dimensi dari permasalahan. x 2 jk Ukuran untuk Tipe Data Nominal Untuk menemukan jarak antara 2 items dengan data biner, diperlukan sebuah contingency table sebagai panduan seperti berikut ini: X i Tabel 2: Contingency Table 2x2 [KAN03, hal. 123] X j a b 0 c d Untuk nilai k mulai dari 1 hingga jumlah items pada set data, a adalah banyak atribut biner dari items x i dan x j sehingga x ik = x jk = 1 b adalah banyak atribut biner dari items x i dan x j sehingga x ik = 1 dan x jk = 0 c adalah banyak atribut biner dari items x i dan x j sehingga x ik = 0 dan x jk = 1 d adalah banyak atribut biner dari items x i dan x j sehingga x ik = x jk = 0. Halaman 7 dari 124

5 Berdasarkan tabel di atas, rumus-rumus yang biasa digunakan sebagai ukuran kemiripan antara x i dan x j untuk data biner antara lain: a. Simple Matching Coefficient (a + d) / (a + b + c + d) Ukuran ini digunakan jika atribut binernya bersifat simetris di mana kedua nilai baik positif maupun negatif memberikan informasi yang sama. Contohnya atribut Jenis kelamin bersifat simetris karena jumlah Pria ataupun Wanita memberikan informasi yang sama. b. Jaccard Coefficient a / (a + b + c) Berbeda dengan ukuran sebelumnya, ukuran ini digunakan jika atribut binernya bersifat asimetris. c. Rao s Coefficient a / (a + b + c + d) Ukuran ini juga dikenal sebagai positive match coefficient. Nilainya berkisar antara 0 sampai 1. d. Mutual Neighbor Distance (MND) Untuk NN(xi,xj) didefinisikan sebagai nomor neighbor dari xj terhadap xi. Jika xi adalah item terdekat pertama dari xj, maka NN(xi,xj) = 1, dan seterusnya, maka MND(x i,x j ) = NN(x i,x j ) + NN(x j,x i ) Jarak Antar-Cluster Dalam mendefinisikan ukuran jarak antar-cluster yang digunakan beberapa algoritma untuk menentukan clusters mana yang berdekatan, sebelumnya perlu dijelaskan mengenai atribut-atribut yang menjadi referensi dari suatu cluster [ZRL + 96]. Untuk suatu cluster K m berisi N items {x m1, x m2,, x mn }: Centroid: suatu besaran yang dihitung dari rata-rata nilai tiap items dari suatu cluster menurut rumus berikut. C N i= m = 1 Medoid: item yang letaknya paling tengah x N mi Metode-metode untuk mencari jarak antar-cluster: Single link: jarak terkecil antara satu elemen dalam suatu cluster dengan elemen lain di cluster yang berbeda. Complete link: jarak terbesar antara satu elemen dalam suatu cluster dengan elemen lain di cluster yang berbeda Halaman 8 dari 124

6 Average: jarak rata-rata antara satu elemen dalam suatu cluster dengan elemen lain di cluster yang berbeda Centroid: jarak antara centroid dari tiap cluster dengan centroid cluster lainnya Medoid: jarak antara medoid dari tiap cluster dengan medoid cluster lainnya Algoritma Clustering Secara umum, pembagian kategori algoritma clustering dapat digambarkan sebagai berikut [KAN03]: Clustering Hierarchical Partitional Clustering Large Data Agglomerative Divisive Gambar 1: Kategori Algoritma Clustering Hierarchical clustering menentukan sendiri jumlah cluster yang dihasilkan. Hasil dari metode ini adalah suatu struktur data berbentuk pohon yang disebut dendogram di mana data dikelompokkan secara bertingkat dari yang paling bawah di mana tiap instance data merupakan satu cluster sendiri, hingga tingkat paling atas di mana keseluruhan data membentuk satu cluster besar berisi cluster-cluster seperti di gambar berikut: A B C D E Gambar 2: Dendogram [DUN03, hal. 135] Halaman 9 dari 124

7 Divisive hierarchical clustering mengelompokkan data dari kelompok yang terbesar hingga ke kelompok yang terkecil, yaitu masing-masing instance dari kelompok data tersebut. Sebaliknya, agglomerative hierarchical clustering mulai mengelompokkan data dari kelompok yang terkecil hingga ke kelompok yang paling besar [KAN03]. Kategori yang kedua adalah partitional clustering yang mengelompokkan data ke dalam k cluster di mana k adalah banyak cluster dari input user. Kategori ini biasanya memerlukan pengetahuan yang cukup mendalam tentang data dan proses bisnis yang memanfaatkannya untuk mendapatkan kisaran nilai input yang sesuai. Kategori terakhir, clustering large data dibutuhkan untuk melakukan clustering pada data yang volumenya sangat besar sehingga tidak cukup ditampung dalam memory komputer pada suatu waktu. Biasanya, untuk mengatasi besarnya volume data dicari teknik-teknik untuk meminimalkan berapa kali algoritma harus membaca seluruh data. Sebagian algoritma-algoritma yang banyak dipakai dan termasuk pada masingmasing kategori akan dibahas pada sub bab berikut ini Hierarchical Clustering Hierarchical clustering memiliki beberapa keuntungan [BER02], antara lain: Fleksibel terhadap tingkat granularity. Hasil clustering dapat dipotong pada level dendogram tertentu sesuai kebutuhan. Mudah mengadaptasi berbagai ukuran kemiripan atau jarak dan dengan begitu dapat diaplikasikan ke barbagai tipe atribut. Namun, metode ini juga memiliki beberapa kelemahan, yaitu ketidakjelasan kondisi penghentian dan juga kebanyakan algoritma dalam kategori ini tidak meninjau ulang cluster yang sudah terbentuk untuk memperbaiki kualitasnya. Beberapa algoritma yang menggunakan metode ini adalah: a. ROCK [GRS + 99] RObust Clustering using links (ROCK) dapat memproses data bersifat boolean maupun categorical. Kemiripan diukur berdasarkan jumlah link di antara items di mana sepasang items yang memiliki kemiripan di atas suatu batas tertentu disebut neighbors. Jarak dihitung dengan Jaccard s coefficient. Algoritma ini terbagi ke dalam 3 bagian: 1. Mengambil random sample dari data 2. Melakukan clustering terhadap data dengan pendekatan link agglomerative di mana item di-merge berdasarkan suatu ukuran yang telah didefinisikan 3. Membagi sisa data menggunakan clusters hasil langkah sebelumnya. ROCK menerima input k banyak cluster yang akan dihasilkan dan memiliki kompleksitas waktu O(n 2 + nm m m a +n 2 log n) di mana m m adalah jumlah maksimal Halaman 10 dari 124

8 neighbors, m a adalah rata-rata jumlah neighbors dan n adalah jumlah item. Kompleksitas ruang dari ROCK adalah O(min{n 2,nm m m a }). Kualitas cluster yang dihasilkan ROCK lebih baik jika dibandingkan dengan algoritma centroid-based hierarchical clustering tradisional dan ROCK juga memiliki skalabilitas yang bagus. b. CHAMELEON [KHK + 99] Clustering using Dynamic Modeling, CHAMELEON, berusaha mengatasi keterbatasan algoritma-algoritma agglomerative hierarchical sebelumnya yang bisa jadi menggabungkan clusters yang tidak semestinya digabung karena data tidak sesuai dengan suatu model yang diasumsikan oleh user atau jika banyak terdapat noise. CHAMELEON dapat diaplikasikan ke semua tipe data selama suatu matriks ukuran kemiripan (similarity matrix) dapat dibangun. CHAMELEON juga scalable karena menggunakan graf k-nearest neighbor sebagai representasi set datanya. Secara umum, cara kerja dan langkah-langkah CHAMELEON dapat digambarkan sebagai berikut: Gambar 3: Kerangka Kerja CHAMELEON [KHK + 99, hal. 7] CHAMELEON bekerja dalam 2 fase dengan menggunakan algoritma partisi graf, misalnya yang diimplementasi dalam library hmetis [KK + 98], untuk membagi data menjadi sub-clusters pada fase pertama dan kemudian melakukan merging pada subclusters tersebut menggunakan suatu dynamic framework. Kompleksitas keseluruhan dari CHAMELEON adalah O(nm + n log n + m 2 log m) dengan n adalah banyak items dan m adalah banyak sub-cluster yang dihasilkan pada fase pertama. c. COBWEB [FIS87] COBWEB adalah suatu sistem incremental untuk hierarchical conceptual clustering yang melakukan hill-climbing search berdasarkan ukuran kemiripan antar-items dan melakukan clustering dengan mengorganisir data ke dalam suatu pohon klasifikasi. Tipe data yang dapat ditangani COBWEB hanya tipe nominal. Secara umum, prosedur yang dijalani adalah sebagai berikut. Untuk tiap item dari set data dan sebuah pohon klasifikasi: jika root adalah leaf, maka masukkan item ke dalam leaf baru Halaman 11 dari 124

9 jika root bukan leaf, maka cari anak dari root yang paling cocok untuk menampung item tersebut dan kemudian lakukan salah satu dari langkahlangkat berikut ini: menciptakan class baru merging node lalu secara rekursif lakukan prosedur ini dengan node yang di-merge sebagai root splitting node lalu lakukan lagi prosedur ini jika tidak ada satu pun langkah di atas dipilih, lakukan prosedur ini lagi dengan anak yang terbaik dari root sebagai root. Keputusan langkah mana yang akan dipilih ditentukan dari perhitungan 2 ukuran berikut ini: partitional utility categorical utility Tiap node yang dibentuk merepresentasikan suatu cluster. COBWEB yang bekerja secara incremental bekerja relatif cepat dengan kompleksitas linear namun kemungkinan menghasilkan pohon yang tidak seimbang. d. SNN [ESK + 03] Algoritma Shared Nearest Neighbor (SNN) yang merupakan ekstensi dari DBSCAN [EKSX + 96] menggunakan pendekatan density-based untuk menemukan clusters dalam bentuk, kemampatan, dan ukuran yang berbeda-beda pada data berdimensi tinggi yang memiliki banyak outliers. SNN melakukannya dengan cara mencari nearest neighbors dari tiap item lalu menghitung kemiripan antara pasangan-pasangan items berdasarkan banyak nearest neighbors yang dimiliki keduanya sehingga dapat diidentifikasi core points yang menjadi pusat pembentukan clusters. SNN menerima 3 jenis parameter input, yaitu k (ukuran neighborhood list) yang menentukan granularitas clusters, MinPts (banyak items dalam suatu cluster) dan Eps (nilai threshold untuk jarak antar-items). Langkah-langkah algoritma SNN adalah sebagai berikut: 1. hitung similarity matrix sebagai dasar pembentukan similarity graph 2. renggangkan graf yang dihasilkan dengan hanya menyimpan k neighbors yang paling mirip 3. bangun graf SNN dari graf yang telah direnggangkan 4. cari SNN density dari tiap item menggunakan parament Eps Halaman 12 dari 124

10 5. cari core point berdasarkan parameter MinPts 6. bentuk clusters berdasarkan core points tersebut 7. buang semua outliers 8. assign semua items yang bukan outliers maupun core ke clusters yang telah terbentuk. Langkah 4 8 di atas diadaptasi dari algoritma DBSCAN yang akan dibahas pada bagian Kompleksitas waktu dari algoritma SNN ini adalah O(n 2 ) sementara kompleksitas ruangnya adalah O(kn) Partitional Clustering Beberapa algoritma yang termasuk dalam kategori ini antara lain: a. K-Means [HAR75] Metode clustering ini adalah yang paling populer dalam aplikasi data mining meskipun hanya bekerja pada data numerik. K-Means adalah algoritma clustering yang secara iteratif memindahkan items di antara k buah cluster, dengan nilai k sebagai input, berdasarkan suatu nilai rata-rata (mean) dari tiap cluster sampai hasil clustering yang optimal didapatkan. Algoritma ini berhenti saat tidak ada atau sangat sedikit perpindahan item di antara cluster atau hingga jumlah iterasi tertentu. Langkah-langkah algoritma ini secara umum adalah: 1. assign item ke k cluster 2. hitung ulang nilai mean dari tiap cluster 3. ulangi langkah 1-2 hingga dicapai kondisi terminasi. Algoritma ini memiliki beberapa varian dalam mencari nilai representasi suatu cluster, misalnya nilai modus dipakai untuk menggantikan mean dalam K-modes yang dapat menangani categorical data atau medoid dalam K-medoids untuk mengatasi outliers (dikenal juga dengan nama PAM, Partitioning Around Medoid [KR + 90]). Kompleksitas waktu untuk K-means adalah O(tkn) untuk jumlah iterasi t, jumlah cluster k dan jumlah item n. Beberapa kelemahan algoritma ini antara lain [BER02] [DUN03]: hasilnya sangat bergantung pada tebakan awal jumlah cluster yang tidak mudah untuk ditentukan kebanyakan algoritma ini hanya mendapatkan local optimum sangat sensitif terhadap outliers kurang scalable hasil cluster bisa jadi sangat tidak seimbang b. CLARA [KR + 90] dan CLARANS [NH + 94] Clustering LArge Applications (CLARA) memperbaiki kinerja PAM dengan menggunakan sample dari data set. Akurasinya juga ditingkatkan dengan cara Halaman 13 dari 124

11 mengambil beberapa sample untuk mendapatkan medoids yang terbaik dan kemudian membagi sisa data berdasarkan medoids tersebut. Untuk basis data yang besar, CLARA lebih efisien daripada PAM tapi kemungkinan lebih tidak efektif, tergantung dari ukuran sample-nya. Langkah-langkah algoritma CLARA: 1. ambil sample dengan 40+2k items secara acak dan aplikasikan algoritma PAM pada sample untuk menemukan medoid dari tiap k cluster 2. untuk tiap item dalam data set, tentukan medoid mana yang paling mirip dengannya 3. hitung perbedaan rata-rata dengan hasil clustering yang diperoleh dalam iterasi sebelumnya. Jika nilainya lebih kecil dari nilai minimal sementara, ganti nilai minimal dengan hasil perhitungan dan simpan medoids yang ditemukan di langkah 2 sebagai yang terbaik sejauh ini 4. ulangi langkah 1 3 sejumlah nilai iterasi tertentu. Clustering Large Applications based upon Randomized Search (CLARANS) memperbaiki kinerja CLARA dengan menggunakan beberapa sample yang berbeda. Sementara CLARA mengambil sample nodes di awal pencarian, CLARANS mengambil sample neighbors di setiap tahap pencarian medoid. Untuk itu, CLARANS memerlukan 2 input tambahan, yaitu maxneighbor (jumlah neighbors yang bisa dibandingkan terhadap suatu suatu node) dan numlocal (jumlah sample yang diambil, banyak clustering). Semakin besar nilai maxneighbor, CLARANS akan semakin mirip dengan PAM. Nilai terbaik untuk kedua input tambahan tersebut biasanya ditentukan dengan eksperimen. Langkah-langkah algoritma CLARANS dalam mencari medoid: Untuk setiap node, 1. set j = 1 2. bandingkan cost dari node yang sekarang (current) dengan 1 node lain 3. jika node yang baru memiliki cost yang lebih rendah, tukar node yang sekarang dengan node baru dan ulangi proses dari awal jika tidak, tambahkan nilai 1 ke j lalu periksa kondisi berikut: jika j <= maxneighbor, ulangi langkah 2 jika j > maxneighbor, bandingkan cost dari current dengan nilai mincost. o Jika current < mincost, ganti nilai mincost dengan nilai current dan simpan current sebagai bestnode o Jika current >= mincost, ulangi proses dari awal. Kompleksitas CLARA adalah O(k 3 + nk) yang lebih efisien jika dibandingkan dengan PAM, sedangkan CLARANS memiliki kompleksitas yang linear dengan banyak items. Halaman 14 dari 124

12 c. EM [MIT97] Expectation-Maximation (EM) termasuk algoritma partitional yang berbasiskan model yang menggunakan perhitungan probabilitas, bukan jarak seperti umumnya algoritma clustering yang lain. Langkah-langkah algoritma EM adalah sebagai berikut: 1. Inisialisasi cluster centers sebanyak suatu nilai k Nilai k bisa merupakan input dari user atau merupakan nilai yang didapatkan dengan memanfaatkan penggunaan algoritma lain, misalnya K-Means, sebagai dasar penentuan nilai awal k yang terbaik. Penentuan ini dapat dilandaskan pada nilai k mana yang menghasilkan clusters dengan rata-rata jarak antar items di dalamnya paling kecil. 2. Iterasikan 2 langkah yang menjadi dasar penamaan algoritma berikut sampai mencapai suatu titik konvergensi yang telah ditentukan sebelumnya: Langkah Expectation: Memasukkan items ke clusters berdasarkan Langkah Maximation: Perkirakan parameter untuk model berdasarkan Sebagai algoritma yang berdasarkan pada probabilitas, EM memiliki beberapa karakteristik penting seperti berikut ini [BER02]: menghasilkan sistem cluster yang relatif mudah diinterpretasikan dapat diberhentikan dan dimulai kembali dengan kelompok data berturutan karena clusters memiliki representasi yang berbeda dengan items di dalamnya Eksekusi EM dapat diakselerasi dengan penggunaan indeks data spatial, misalnya KD-tree. Algoritma ini memiliki kelemahan, yaitu kemungkinan tidak dapat mencapai titik optimum global. Namun dalam praktiknya, titik konvergensi relatif cepat dicapai dan dapat dijamin dengan menambahkan suatu fungsi optimasi. Kompleksitasnya adalah O(kndl) untuk k clusters, l iterasi, n items dan d dimensi. d. Bond Energy [ÖV + 99] Bond Energy Algorithm (BEA) menentukan bagaimana mengelompokkan data dan menempatkannya secara fisik ke disk. Affinity atau bond di antara atribut-atribut basis data didasarkan pada kesamaan penggunaan (common usage) dan digunakan dalam clustering sebagai ukuran kemiripan. Oleh sebab itu, queries yang sering dilakukan terhadap basis data tersebut harus diketahui terlebih dahulu. Hasil clustering dengan Halaman 15 dari 124

13 BEA dikenal dalam basis data sebagai vertical fragment yang masing-masing bagiannya dapat disimpan di lokasi yang berbeda. Langkah-langkah dasar BEA adalah: 1. bentuk matriks yang menyatakan frekuensi penggunaan bersama antara atribut yang satu dengan yang lain 2. ubah matriks dari langkah sebelumnya menjadi Matriks Bond yang tiap nilai di dalamnya menyatakan probabilitas atribut-atribut diakses bersamaan, kemudian baris dan kolom dalam matriks ini diatur ulang sehingga atributatribut yang mirip terletak berdekatan di dalamnya 3. tandai dan pisahkan area-area dalam matriks yang memiliki kemiripan tinggi. e. Algoritma Genetika Salah satu representasi cluster yang mungkin diterapkan untuk clustering menggunakan algoritma genetika adalah bit-map untuk tiap cluster yang mungkin [DUN03]. Misalkan untuk basis data dengan 4 items {A, B, C, D}, salah satu solusi yang mungkin adalah 2 cluster yang direpresentasikan dengan 1001 dan Solusi yang baru dibentuk dari solusi sebelumnya dengan operasi crossover atau mutasi. f. Jaringan Syaraf Tiruan dan Self Organizing Map Sifat jaringan syaraf tiruan yang menggunakan unsupervised learning untuk mengelompokkan data-data yang mirip dapat dimanfaatkan untuk clustering. Terdapat 2 tipe dasar dari unsupervised learning, yaitu: noncompetitive dan competitive [DUN03]. Dalam Hebbian atau noncompetitive learning, bobot di antara 2 nodes diubah secara proporsional terhadap kedua nilai keluaran, sementara dalam competitive learning yang biasanya menggunakan 2 lapisan, nodes boleh berkompetisi dan pemenangnya yang menentukan nilai keluaran. Sebuah self organizing feature map (SOFM) atau self organizing map (SOM) menggunakan competitive unsupervised learning dengan bobot awal diberikan secara acak dan disesuaikan selama proses pembelajaran. Nodes akan mengelompok ke dalam clusters berdasarkan kemiripan di antaranya. Contoh yang paling umum dari SOM adalah Kohonen self-organizing map dengan 1 lapisan input dan 1 lapisan khusus yang menghasilkan nilai-nilai keluaran yang saling berkompetisi. Nodes pada lapisan khusus ini dipandang sebagai grid 2 dimensi berisi nodes dengan fungsi aktivasinya yang masing-masing terhubung dengan tiap input node oleh suatu arc yang memiliki suatu nilai bobot. Data dapat dimasukkan ke dalam banyak competitive nodes secara paralel. Halaman 16 dari 124

14 Clustering Large Data Dalam melakukan clustering pada data set yang sangat besar sehingga tidak mungkin memproses data sekaligus dalam memory yang tersedia, diperlukan teknikteknik khusus untuk melakukan clustering secara efisien dan juga berkualitas. Berikut adalah beberapa metode clustering yang dapat melakukannya. a. BIRCH [ZRL + 96] Balanced Iterative Reducing and Clustering using Hierarchies (BIRCH) yang bekerja hanya terhadap data numerik hanya memerlukan 1 kali scan terhadap keseluruhan basis data untuk menghemat cost I/O. BIRCH bersifat incremental dan hierarchical serta memiliki teknik-teknik untuk menangani outliers. BIRCH menggunakan clustering feature (CF) untuk merepresentasikan tiap cluster. CF merupakan sebuah triple yang terdiri dari banyak item dalam cluster, jumlah items dalam cluster dan jumlah dari kuadrat tiap item dalam cluster. b. DBSCAN [EKSX + 96] Pendekatan Density-based Spatial Clustering of Application with Noise (DBSCAN) adalah dengan membentuk cluster dengan ukuran dan density yang minimal. Density didefinisikan sebagai minimal banyak items dalam suatu jarak tertentu dari items lainnya. Dengan pendekatan ini, outliers akan tereliminasi karena tidak memiliki density yang cukup untuk membentuk cluster. Cluster dengan bentuk yang tidak bulat juga dapat ditemukan dengan algoritma ini. DBSCAN menentukan sendiri jumlah cluster yang akan dihasilkan, tapi memerlukan 2 input lain, yaitu: MinPts: minimal banyak items dalam suatu cluster Eps: nilai threshold untuk jarak antar-items yang menjadi dasar pembentukan nighborhood dari suatu titik item. Menurut definisi, ada 2 jenis titik (points) dalam suatu cluster: di dalam cluster (core points) dan di tepian cluster (border points) di mana neighborhood dari border points berisi jauh lebih sedikit items daripada neighborhood dari core points. Suatu border point bisa jadi termasuk ke dalam lebih dari 1 cluster. Sebuah titik item dikatakan directly density-reachable dari titik lainnya jika jarak di antara mereka tidak lebih dari nilai Eps dan banyak titik dalam neighborhood-nya memenuhi nilai MinPts. Sebuah titik item dikatakan density-reachable dari titik item yang lain jika ada suatu rantai yang menghubungkan keduanya yang berisi hanya titik-titik yang directly density-reachable dari titik-titik sebelumnya. Algoritma DBSCAN bekerja dalam 2 langkah: 1. Pilih items dari set data yang memenuhi syarat core point sebagai seed Halaman 17 dari 124

15 2. Ambil semua items yang density-reachable dari seed untuk menghasilkan clusters. Tidak mudah untuk menebak nilai MinPts dan Eps yang tepat, tapi ada heuristik yang dianjurkan, yaitu dengan menggunakan sorted k-dist graph dan juga memanfaatkan perkiraan persentase noise pada data. Implementasi DBSCAN dapat memanfaatkan R*-tree untuk meningkatkan efisiensi. Kompleksitas waktu rata-rata dari DBSCAN adalah O(n log n). c. CACTUS [GGR + 99] Clustering Categorical Data Using Summaries (CACTUS) melakukan generalization pada definisi cluster dan jarak karena bekerja pada categorical data. Kemiripan dilihat dari suatu nilai support dari 2 nilai atribut dalam suatu basis data. Algoritma CACTUS tidak memerlukan jumlah cluster sebagai input. CACTUS mempunyai 2 karakter penting, yaitu: Hanya memerlukan 2 kali pembacaan set data keseluruhan sehingga cepat dan memiliki skalabilitas tinggi Dapat melakukan subspace clustering (menemukan clusters berdasarkan sebagian dari seluruh atribut data) CACTUS bekerja dalam 3 fase: 1. summarization: menghitung inter-attribute summaries dan intra-attribute summaries dari data sehingga dapat diproses dalam memory. 2. clustering: menggunakan informasi summary untuk menemukan candidate clusters. 3. validation: menentukan clusters yang sebenarnya Algoritma Lain Beberapa algoritma clustering memanfaatkan kombinasi metode hierarchical dan partitional maupun teknik-teknik lain sebagai optimalisasi untuk suatu permasalahan tertentu. Berikut adalah sebagian di antara algoritma-algoritma tersebut. a. CURE [GRS + 98] Clustering Using REpresentatives (CURE) merupakan metode campuran hierarchical dan pertitional yang memiliki kekuatan dalam mengatasi outliers dan dapat mengidentifikasi cluster yang memiliki bentuk yang tidak bulat (non-spherical) dan memiliki variasi ukuran yang besar dengan cara merepresentasikan tiap cluster dengan sejumlah titik yang dibentuk dengan memiilih titik-titik yang lumayan tersebar dari tiap cluster dan memampatkannya ke tengah cluster berdasarkan suatu perbandingan tertentu. Langkah-langkah dari algoritma CURE adalah: Halaman 18 dari 124

16 1. Mengambil sample dari data 2. Partisi data ke dalam p bagian, masing-masing beranggotakan n/p untuk mempercepat jalannya algoritma. 3. Cluster masing-masing partisi secara parsial dengan algoritma hierarchical. 4. Eliminasi outliers 5. Cluster keseluruhan sample menggunakan representasi dari masing-masing cluster hasil dari langkah ke Cluster keseluruhan data menggunakan c titik untuk merepresentasikan tiap cluster. CURE memiliki kompleksitas waktu O(n 2 log n) dan kompleksitas ruang O(n) yang mungkin dicapai dengan penggunaan struktur data heap dan k-d tree. CURE juga memiliki skalabilitas yang baik untuk menangani basis data yang besar. b. OPTICS [ABKS + 99] Ordering Points to Identify the Clustering Structure (OPTICS) tidak menghasilkan clusters secara eksplisit melainkan membuat dan menggambarkan suatu ordering yang lebih jelas dari suatu basis data yang merepresentasikan struktur density-based clustering-nya untuk kebutuhan anlisis clustering yang otomatis dan interaktif. Definisi cluster dalam algoritma ini mirip dengan yang digunakan oleh DBSCAN. Kompleksitas waktu OPTICS adalah O(n 2 ) atau bisa dikurangi menjadi O(n log n) jika menggunakan tree-based spatial index, seperti R*-tree, X-tree atau M-tree, bahkan jika items diorganisasi dalam bentuk grid, kompleksitas waktu dapat ditekan menjadi O(n) Rangkuman Perbandingan Algoritma Sebagai rangkuman dari penjelasan sebelumnya, berikut tabel perbandingan algoritma-algoritma clustering dilihat dari sisi karakter, tipe data yang dapat diolah, kompleksitas, kelebihan dan kekurangan masing-masing. Halaman 19 dari 124

17 a) Algoritma hierarchical Algoritma Atribut Tipe Data Kompleksitas Waktu Kompleksitas Space/IO boolean / nominal ROCK CHAMELEON COBWEB SNN semua tipe data selama dapat dibangun similarity matrix nominal O(n 2 + nm m m a +n 2 log n) O(nm + n log n + m 2 log m) linear O(n 2 ) O(min{n 2,nm m m a }) O(kn) semua tipe data selama dapat dibangun similarity matrix Karakter khusus Neighbor links, Jaccard's coefficient graf k-nearest neighbor incremental, menggunakan ukuran partitional utility dan categorical utility nearest naighbors Kelebihan skalabilitas cepat penanganan outliers, dimensi tinggi dan bentuk cluster alamiah Kekurangan kemungkinan tree tidak seimbang Halaman 20 dari 124

18 b) Algoritma partitional Algoritma Atribut Tipe Data Kompleksitas Waktu Kompleksitas Space/IO Karakter khusus numerik Kelebihan sederhana K-Means CLARA CLARANS EM Bond Energy semua tipe data O(tkn) O(k 3 + nk) linear menggunakan nilai ratarata items dalam cluster, dapat dimodifikasi untuk menggunakan ukuran lain sampling untuk mencari medoids semua tipe data semua tipe data semua tipe data memanfaatkan parameter maxneighbor O(kndl) untuk k clusters, l iterasi, n items dan d dimensi menggunakan perhitungan probabilitas digunakan untuk perancangan distributed database Algoritma Genetika semua tipe data menggunakan crossover dan mutasi SOM semua tipe data melakukan pembelajaran dengan adaptasi bobot Kekurangan sangat bergantung pada tebakan k, sering terjebak di local optimum, sensitif terhadap outliers, kurang scalable, hasil bisa jadi tidak seimbang mungkin terjebak dalam local optimum Halaman 21 dari 124

19 c) Algoritma untuk data besar Algoritma Atribut BIRCH DBSCAN CACTUS Tipe Data semua tipe data semua tipe data nominal Kompleksitas Waktu O(n log n) Kompleksitas Space/IO Karakter khusus bersifat incremental hierarchical, memanfaatkan clustering features (CF) menggunakan parameter MinPts dan Eps dapat melakukan subspace clustering Kelebihan penanganan outliers, hanya perlu 1 kali scan data dapat menemukan cluster yang tidak bulat skalabilitas (hanya memerlukan 2 kali scan data) Kekurangan d) Algoritma lain Algoritma Atribut CURE OPTICS Tipe Data semua tipe data semua tipe data Kompleksitas Waktu O(n 2 log n) O(n) sampai O(n 2 ) Kompleksitas Space/IO O(n) Karakter menghasilkan struktur densitybased sampling khusus clustering Kelebihan skalabilitas, penanganan outliers dan cluster yang tidak bulat Halaman 22 dari 124

20 2.3 Association Rules Association rules adalah metode untuk menemukan hubungan di antara data [DUN03]. Meskipun tidak semua rule yang dihasilkan mencerminkan hubungan yang sebenarnya di dunia nyata, metode ini dapat membantu mengenali pola-pola tertentu di dalam kumpulan data yang besar, misalnya mengetahui pola pembelian barang di suatu supermarket di mana suatu barang dibeli setiap kali suatu barang yang lain juga dibeli. Dalam penelitian ini, metode association rules digunakan sebagai alat bantu untuk mengenali karakteristik tiap cluster yang dihasilkan karena tanpanya, hasil clustering tidak mudah untuk diinterpretasikan. Ada beberapa algoritma yang dapat digunakan untuk menemukan association rules, akan tetapi karena tugas akhir ini tidak terfokus pada metode tersebut, maka akan digunakan satu algoritma yang biasa dipakai, yaitu Apriori. Sebelum masuk ke penjelasan algoritma tersebut, akan dijelaskan dulu beberapa konsep dasar dalam association rules Konsep Dasar Data yang akan diolah dengan metode association rules dipandang sebagai sekelompok tuple di mana masing-masing tuple terdiri dari sekelompok item. Contoh tuple: {Selai, Roti, Keju}. Beberapa definisi yang berkaitan dengan konsep association rules adalah: a. Association Rule Untuk suatu set items I = {I 1, I 2,, I m } dan suatu basis data berisi tuples D = {t 1, t 2,, t n } di mana t i = { I i1, I i2,, I km } dan I ij I, suatu association rule adalah sebuah implikasi dalam bentuk X Y di mana X, Y I adalah set-set item yang disebut itemsets dan X Y =. b. Support (s) Support adalah persentase munculnya item(s). Support untuk suatu association rule X Y adalah persentase dari tuples dalam basis data yang berisi X Y. c. Confidence atau strength (α) Confidence untuk suatu association rule X Y adalah rasio dari jumlah tuples yang mengandung X Y terhadap jumlah tuples yang mengandung X. d. Large (frequent) Itemset Suatu itemset yang jumlah kejadiannya di atas suatu batas s Apriori Algoritma Apriori bekerja iteratif di mana iterasi ke-i mencari semua frequent i- itemset (itemset dengan i elemen). Dalam tiap iterasi terdapat 2 tahap [KAN03]: candidate generation Pada tahap ini, algoritma mencari semua i-itemset yang memenuhi batas nilai s. Halaman 23 dari 124

21 candidate counting Tahap ini menemukan rule berdasarkan: {x 1, x 2, x 3 } x 4 adalah rule jika kedua itemset {x 1, x 2, x 3, x 4 } dan {x 1, x 2, x 3 } frequent. 2.4 Langkah-langkah Data Mining Dalam melakukan data mining, terdapat sebuah panduan yang banyak dipakai dalam dunia industri, yaitu Cross-Industry Standard Process for Data Mining (CRISP-DM) [OY + 07], yang merupakan suatu siklus yang terdiri dari 6 fase, yaitu: 1. Business Understanding: menentukan objektif bisnis, menelaah situasi sekarang, menentukan tujuan data mining dan membangung sebuah rencana proyek untuk kegiatan data mining tersebut. 2. Data Understanding: tahap ini mencakup pengumpulan, pendekripsian dan eksplorasi data serta verifikasi terhadap kualitas data. Eksplorasi data dapat menggunakan metode statistika atau pun analisis cluster. 3. Data Preparation: pada tahap yang paling banyak memakan waktu ini dilakukan pemilihan, pemurnian dan pengubahan format data sesuai dengan kebutuhan. 4. Modeling: berbagai perangkat lunak untuk data mining dapat digunakan dalam tahap ini untuk memfasilitasi visualisasi, analisis cluster yang lebih mendalam, pembangunan association rules awaldan juga pembagian data ke dalam kelompok pelatihan dan pengujian jika dibutuhkan. 5. Evaluation: pada tahap ini dilakukan evaluasi terhadap semua yang sudah dihasilkan pada tahap-tahap sebelumnya untuk mengidentifikasi kebutuhan-kebutuhan baru yang perlu difasilitasi oleh proses data mining ini. 6. Deployment: pada tahap ini metode dan aplikasi yang telah disusun selama tahaptahap sebelumnya digunakan untuk kebutuhan operasional bisnis seiring juga kegiatan pengawasan terhadap kondisi-kondisi operasional dan lingkungan bisnis yang bisa menjadi dasar untu evaluasi ulang terhadap keseluruhan proses data mining. Gambaran kaitan antara tahap yang satu dengan lainnya dalam CRISP-DM dapat dilihat dalam gambar berikut ini: Halaman 24 dari 124

22 Business understanding Data understanding Data preparation Modeling Evaluation Deployment Gambar 4: CRISP-DM [OY + 07, hal. 21] Dalam proses data mining dalam penelitian ini, akan mengikuti tahapan dari business understanding hingga evaluation khususnya untuk domain data MTI. Tahap deployment tidak termasuk karena mencakup pengembangan perangkat dan infrastruktur untuk fasilitas data mining yang di luar lingkup pengerjaan tugas akhir ini. Halaman 25 dari 124

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Konsep Clustering dalam Data Mining Konsep dasar data mining adalah menemukan informasi tersembunyi dalam sebuah basis data dan merupakan bagian dari Knowledge Discovery in

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering Analisis Cluster Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Data Mining adalah proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling

Lebih terperinci

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means, K- Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan

Lebih terperinci

BAB 6 ANALISIS CLUSTER

BAB 6 ANALISIS CLUSTER BAB 6 ANALISIS CLUSTER Pendahuluan Analisis cluster membagi data ke dalam grup (cluster) yang bermakna, berguna, atau keduanya. Jika tujuannya mencari grup yang memiliki makna, maka cluster seharusnya

Lebih terperinci

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering

Lebih terperinci

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING Yoga Bhagawad Gita 1, Ahmad Saikhu 2 1,2 Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember

Lebih terperinci

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam BAB I PENDAHULUAN 1.1 LATAR BELAKANG Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam manajemen informasi karena jumlah informasi yang semakin besar jumlahnya. Data mining sendiri

Lebih terperinci

BAB II KAJIAN PUSTAKA

BAB II KAJIAN PUSTAKA BAB II KAJIAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah alat dan teknik perangkat lunak yang bisa memberikan saransaran untuk item yang sekiranya bermanfaat bagi pengguna (Ricci, et al.,

Lebih terperinci

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk BAB II LANDASAN TEORI 2.1 Sistem Menurut Gondodiyoto (2007), sistem adalah merupakan suatu kesatuan yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk mencapai suatu tujuan tertentu.

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Sponge atau poriferans berasal dari bahasa Latin yaitu porus yang artinya pori dan ferre yang artinya memiliki. Sponge adalah hewan berpori, pada umumnya terdapat di lautan,

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Beberapa penelitian terdahulu telah banyak yang menerapkan data mining, yang bertujuan dalam menyelesaikan beberapa permasalahan seputar dunia pendidikan. Khususnya

Lebih terperinci

Clustering. Virginia Postrel

Clustering. Virginia Postrel 8 Clustering Most of us cluster somewhere in the middle of most statistical distributions. But there are lots of bell curves, and pretty much everyone is on a tail of at least one of them. We may collect

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA A. Knowledge Discovery in Database (KDD) dan Data Mining Banyak orang menggunakan istilah data mining dan knowledge discovery in databases (KDD) secara bergantian untuk menjelaskan

Lebih terperinci

BAB II 2. DASAR TEORI

BAB II 2. DASAR TEORI BAB II 2. DASAR TEORI Pada bab ini akan dijelaskan mengenai definisi data mining beserta teknikteknik dalam data mining yang dipakai di dalam thesis ini. 2. Data mining Seiring dengan berjalannya waktu,

Lebih terperinci

BAB 2 TELAAH PUSTAKA

BAB 2 TELAAH PUSTAKA BAB 2 TELAAH PUSTAKA Pada bab ini akan dipaparkan mengenai deskripsi data mining secara umum dan landasan teori dari algoritma data mining yang digunakan pada FIKUI Mining. Selain itu, juga akan dijelaskan

Lebih terperinci

DATA MINING DAN WAREHOUSE A N D R I

DATA MINING DAN WAREHOUSE A N D R I DATA MINING DAN WAREHOUSE A N D R I CLUSTERING Secara umum cluster didefinisikan sebagai sejumlah objek yang mirip yang dikelompokan secara bersama, Namun definisi dari cluster bisa beragam tergantung

Lebih terperinci

2.1 Penelitian Terkait

2.1 Penelitian Terkait BAB II TINJAUAN PUSTAKA 2.1 Penelitian Terkait Penelitian yang dilakukan oleh Dinda Setiawati Devi dengan menggunakan metode Apriori untuk analisa keranjang pasar untuk 100 data transaksi dan 55 jenis

Lebih terperinci

Link Analysis (Superset) 3 Kategori Link Analysis (#1) 3 Kategori Link Analysis (#2) Association Rule Mining. 3 Kategori Link Analysis (#3)

Link Analysis (Superset) 3 Kategori Link Analysis (#1) 3 Kategori Link Analysis (#2) Association Rule Mining. 3 Kategori Link Analysis (#3) Knowledge Discovery in Databases (IS704) dan Data Mining (CS704) Kuliah #7: Association Rules Mining (Bagian 1) Gunawan Jurusan Teknik Informatika Link Analysis (Superset) Tujuan: Mencari hubungan antara

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Faktor penentu bagi usaha atau bisnis apapun pada masa sekarang ini adalah kemampuan untuk menggunakan informasi seefektif mungkin. Penggunaan data secara tepat karena

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Data Mining Data mining adalah bagian dari knowledge discovery di database yang menganalisa database berukuran besar untuk menemukan pola yang berguna pada data (Silberschatz,

Lebih terperinci

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning CLUSTERING DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk yang paling umum digunakan adalah unsupervised learning # Unsupervised learning

Lebih terperinci

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami METODE CLUSTERING DENGAN ALGORITMA K-MEANS Oleh : Nengah Widya Utami 1629101002 PROGRAM STUDI S2 ILMU KOMPUTER PROGRAM PASCASARJANA UNIVERSITAS PENDIDIKAN GANESHA SINGARAJA 2017 1. Definisi Clustering

Lebih terperinci

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul II CLUSTERING TUJUA PRAKTIKUM 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam

Lebih terperinci

BAB 1 PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Analisis cluster merupakan salah satu alat yang penting dalam pengolahan data statistik untuk melakukan analisis data. Analisis cluster merupakan seperangkat metodologi

Lebih terperinci

Student Clustering Based on Academic Using K-Means Algoritms

Student Clustering Based on Academic Using K-Means Algoritms Student Clustering Based on Academic Using K-Means Algoritms Hironimus Leong, Shinta Estri Wahyuningrum Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata marlon.leong@gmail.com

Lebih terperinci

dengan Algoritma K Means

dengan Algoritma K Means K Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M

(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M (M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M 1Toza Sathia Utiayarsih, 2 Yadi Suprijadi, 3 Bernik Maskun 1Mahasiswa Magister Statistika

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #9 Text Clustering (Ch.16 & 17) Clustering Pengelompokan, penggerombolan Proses pengelompokan sekumpulan obyek ke dalam kelas-kelas obyek yang memiliki sifat sama.

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perpustakaan merupakan tempat dimana seseorang mendapatkan pengetahuan, informasi atau hiburan dengan jumlah kategori yang bervarian seperti ilmiah, non fiksi, komedi,

Lebih terperinci

II. TINJAUAN PUSTAKA

II. TINJAUAN PUSTAKA II. TINJAUAN PUSTAKA 2.1 Sistem Informasi Manajemen Mcleod R dan Schell G, (2004) membagi sumber daya menjadi dua bagian yaitu sumberdaya fisikal dan sumberdaya konseptual. Sumber daya fisikal terdiri

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN

K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN 1 K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN Rani Nooraeni*, Dr. Jadi Supriadi, DEA, Zulhanif, S.Si,M.Sc Jurusan statistika terapan, Fakultas MIPA UNPAD rnooraeni@gmail.com* Abstrak.Membagi suatu data

Lebih terperinci

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS WULAN ANGGRAENI wulangussetiyo@gmail.com Program Studi Pendidikan Matematika Universitas Indraprasta PGRI Abstract. The purpose of this study was to

Lebih terperinci

http://www.brigidaarie.com proses menganalisa data untuk mencari polapola tersembunyi dengan menggunakan metodologi otomatis Istilah lain : Machine Learning Knowledge Discovery in Database (KDD) Predictive

Lebih terperinci

P PENENTUAN JURUSAN SEKOLAH MENENGAH ATAS DENGAN ALGORITMA FUZZY C-MEANS. Oleh : BAHAR. Tesis diajukan sebagai salah satu syarat

P PENENTUAN JURUSAN SEKOLAH MENENGAH ATAS DENGAN ALGORITMA FUZZY C-MEANS. Oleh : BAHAR. Tesis diajukan sebagai salah satu syarat PENENTUAN JURUSAN SEKOLAH MENENGAH ATAS DENGAN ALGORITMA FUZZY C-MEANS Oleh : BAHAR P31.2008.00539 Tesis diajukan sebagai salah satu syarat untuk memperoleh gelar Magister Komputer PROGRAM PASCA SARJANA

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Data menjadi sesuatu yang sangat berharga saat ini. Tidak hanya badan pemerintah saja, perusahaan-perusahaan saat ini pun sangat membutuhkan informasi dari data yang

Lebih terperinci

Pengenalan Pola. Klasterisasi Data

Pengenalan Pola. Klasterisasi Data Pengenalan Pola Klasterisasi Data PTIIK - 2014 Course Contents 1 Konsep Dasar 2 Tahapan Proses Klasterisasi 3 Ukuran Kemiripan Data 4 Algoritma Klasterisasi Konsep Dasar Klusterisasi Data, atau Data Clustering

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket Bab1 Konsep Data Mining POKOK BAHASAN: Konsep dasar dan pengertian Data Mining Tahapan dalam Data Mining Model Data Mining Fungsi Data Mining TUJUAN BELAJAR: Setelah mempelajari materi dalam bab ini, mahasiswa

Lebih terperinci

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan 6 BAB II TINJAUAN PUSTAKA 2.1 Pengertian Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang 1 BAB I PENDAHULUAN 1.1. Latar Belakang Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering

Lebih terperinci

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan BAB 1 PERSYARATAN PRODUK Bab ini membahas mengenai hal umum dari produk yang dibuat, meliputi tujuan, ruang lingkup proyek, perspektif produk, fungsi produk dan hal umum yang lainnya. 1.1 Pendahuluan Hal

Lebih terperinci

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) Nur Wakhidah Fakultas Teknologi Informasi dan Komunikasi Universitas Semarang Abstract Classification is the process of organizing

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Penelitian Terkait Pada penelitian ini, peneliti melakukan penelitian yang didasarkan pada penelitian terdahulu yang terkait dengan penelitian yang akan dilakukan peneliti.

Lebih terperinci

PE DAHULUA. Latar Belakang

PE DAHULUA. Latar Belakang Latar Belakang PE DAHULUA Pemilihan Kepala Daerah dan Wakil Kepala Daerah, atau seringkali disebut Pilkada, adalah pemilihan umum untuk memilih Kepala Daerah dan Wakil Kepala Daerah secara langsung di

Lebih terperinci

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

DATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi DATA MINING 3 SKS Semester 6 S1 Sistem Informasi Pertemuan 3 Nizar Rabbi Radliya nizar.radliya@yahoo.com Universitas Komputer Indonesia 2015 Definisi Set Data Set Data / Data Set / Himpunan Data Kumpulan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Penelitian ini menggunakan beberapa sumber pustaka yang berhubungan dengan kasus yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

Bab 2 Tinjauan Pustaka

Bab 2 Tinjauan Pustaka Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu Adapun penelitian terdahulu yang berkaitan dalam penelitian ini berjudul Penentuan Wilayah Usaha Pertambangan Menggunakan Metode Fuzzy K-Mean Clustering

Lebih terperinci

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN Fauziah Nur1, Prof. M. Zarlis2, Dr. Benny Benyamin Nasution3 Program Studi Magister Teknik Informatika, Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek)

ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek) ANALISIS SEGMENTASI NASABAH MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING (Studi Kasus di PT. Buana Sejahtera Multidana Cabang Cikampek) Meriska Defriani 1, Noviyanti 2 1 STT Wastukancana 2 Teknik Informatika,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI 4 BAB II LANDASAN TEORI 2.1 Tinjauan Studi Banyak penelitian dilakukan dalam menganalisis keranjang pasar untuk rekomendasi produk. Hal ini dapat dilihat dari banyaknya buku-buku, jurnal ilmiah dan conference

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Pendahuluan Didalam bab ini menceritakan semua teori-teori yang digunakan didalam proses algoritma decision tree, algoritma Random tree dan Random Florest serta teoriteori dan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Sistem Pendukung Keputusan II.1.1 Definisi Sistem Pendukung Keputusan Berdasarkan Efraim Turban dkk, Sistem Pendukung Keputusan (SPK) / Decision Support System (DSS) adalah sebuah

Lebih terperinci

Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan

Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan Ni Made Anindya Santika Devi, I Ketut Gede Darma Putra, I Made Sukarsa Jurusan Teknologi Informasi, Universitas Udayana Bukit Jimbaran,

Lebih terperinci

PENENTUAN JURUSAN SISWA SEKOLAH MENENGAH ATAS DISESUAIKAN DENGAN MINAT SISWA MENGGUNAKAN ALGORITMA FUZZY C-MEANS

PENENTUAN JURUSAN SISWA SEKOLAH MENENGAH ATAS DISESUAIKAN DENGAN MINAT SISWA MENGGUNAKAN ALGORITMA FUZZY C-MEANS PENENTUAN JURUSAN SISWA SEKOLAH MENENGAH ATAS DISESUAIKAN DENGAN MINAT SISWA MENGGUNAKAN ALGORITMA FUZZY C-MEANS Altanova Reza¹, Abdul Syukur², M. Arief Soeleman³ 123 Pascasarjana Teknik Informatika Universitas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berbagai penemuan terbaru di dalam pengumpulan dan penyimpanan data telah memungkinkan berbagai organisasi untuk mengumpulkan berbagai data (data pembelian, data nasabah,

Lebih terperinci

3 METODOLOGI PENELITIAN

3 METODOLOGI PENELITIAN 19 3 METODOLOGI PENELITIAN 3.1. Kerangka Berpikir Kebakaran hutan yang sering terjadi di Indonesia berkaitan erat dengan dua faktor utama yaitu faktor alam dan faktor manusia. Kemungkinan terdapat karakteristik

Lebih terperinci

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI Gunawan 1, Fandi Halim 2, Tony Saputra Debataraja 3, Julianus Efrata Peranginangin 4

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Traveling Salesmen Problem (TSP) Travelling Salesman Problem (TSP) merupakan sebuah permasalahan optimasi yang dapat diterapkan pada berbagai kegiatan seperti routing. Masalah

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1. Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di lakukan oleh Muhammad Toha dkk (2013), Sylvia Pretty Tulus (2014), Johan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI 2.1 Sistem Pendukung Keputusan Sistem Pendukung Keputusan (SPK) / Decision Support Sistem (DSS) adalah sistem komputer yang saling berhubungan dan menjadi alat bantu bagi seorang

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini berisi penjelasan mengenai image clustering, pengukuran kemiripan dan pengukuran jarak, representasi citra, ruang warna, algoritma clustering, dan penelitian yang berhubungan.

Lebih terperinci

Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas Memahami definisi, proses serta teknik data mining. Pengenalan

Lebih terperinci

UKDW BAB I PENDAHULUAN

UKDW BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang Dalam dunia bisnis pada jaman sekarang, para pelaku bisnis senantiasa selalu berusaha mengembangkan cara-cara untuk dapat mengembangkan usaha mereka dan memperhatikan

Lebih terperinci

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode BAB III K-MEANS CLUSTERING 3.1 Analisis Klaster Analisis klaster merupakan salah satu teknik multivariat metode interdependensi (saling ketergantungan). Oleh karena itu, dalam analisis klaster tidak ada

Lebih terperinci

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015 1 MODEL DATA MINING N. Tri Suswanto Saptadi CAPAIAN PEMBELAJARAN Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 1 3 Definisi Mining : proses atau usaha untuk mendapatkan sedikit barang

Lebih terperinci

Aplikasi Data Mining untuk Mengukur Tingkat Kelulusan Mahasiswa dengan Metode Apriori

Aplikasi Data Mining untuk Mengukur Tingkat Kelulusan Mahasiswa dengan Metode Apriori Aplikasi Data Mining untuk Mengukur Tingkat Kelulusan Mahasiswa dengan Metode Apriori dan k-mean Clustering (Studi Kasus: Jurusan Teknik Informatika Universitas Trunojoyo Madura) Mohammad Syarief Prodi

Lebih terperinci

Pertemuan 8, 9, 10. Teknik-teknik Data Mining

Pertemuan 8, 9, 10. Teknik-teknik Data Mining Pertemuan 8, 9, 10 Teknik-teknik Data Mining Outline Teknik-teknik data mining terdiri dari : Analisis cluster Induksi (pohon keputusan dan aturan induksi) Jaringan syaraf buatan (Neural Network) Online

Lebih terperinci

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak DATA MINING MELIHAT POLA HUBUNGAN NILAI TES MASUK MAHASISWA TERHADAP DATA KELULUSAN MAHASISWA UNTUK MEMBANTU PERGURUAN TINGGI DALAM MENGAMBIL KEBIJAKAN DALAM RANGKA PENINGKATAN MUTU PERGURUAN TINGGI Timor

Lebih terperinci

CLUSTER DATABASE. Clustering

CLUSTER DATABASE. Clustering CLUSTER DATABASE Clustering Clustering adalah proses mengelompokkan atau penggolongan objek berdasarkan informasi yang diperoleh dari data yang menjelaskan hubungan antar objek dengan prinsip untuk memaksimalkan

Lebih terperinci

BAB III ANALISIS DAN PENYELESAIAN MASALAH

BAB III ANALISIS DAN PENYELESAIAN MASALAH BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan

Lebih terperinci

Lingkungan Implementasi Clustering Menggunakan SOM HASIL DAN PEMBAHASAN Pengumpulan Data Perkembangan Anak Validasi Cluster Menggunakan

Lingkungan Implementasi Clustering Menggunakan SOM HASIL DAN PEMBAHASAN Pengumpulan Data Perkembangan Anak Validasi Cluster Menggunakan sehingga dapat diproses dengan SOM. Pada tahap seleksi data, dipilih data perkembangan anak berdasarkan kategori dan rentang usianya. Kategori perkembangan tersebut merupakan perkembangan kognitif, motorik

Lebih terperinci

Journal of Informatics and Telecommunication Engineering. Analisa Algoritma Data Mining Eclat Dan Hui Miner

Journal of Informatics and Telecommunication Engineering. Analisa Algoritma Data Mining Eclat Dan Hui Miner JITE, Vol. 1(1) Juli (2017) p-issn : 2549-6247 e-issn : 2549-6255 Journal of Informatics and Telecommunication Engineering Available online http://ojs.uma.ac.id/index.php/jite Analisa Algoritma Data Mining

Lebih terperinci

2.2 Data Mining. Universitas Sumatera Utara

2.2 Data Mining. Universitas Sumatera Utara Basis data adalah kumpulan terintegrasi dari occurences file/table yang merupakan representasi data dari suatu model enterprise. Sistem basisdata sebenarnya tidak lain adalah sistem penyimpanan-record

Lebih terperinci

Perbandingan Algoritma K-Means dan EM untuk Clusterisasi Nilai Mahasiswa Berdasarkan Asal Sekolah

Perbandingan Algoritma K-Means dan EM untuk Clusterisasi Nilai Mahasiswa Berdasarkan Asal Sekolah 316 ISSN: 2354-5771 Perbandingan Algoritma K-Means dan EM untuk Clusterisasi Nilai Mahasiswa Berdasarkan Asal Sekolah Mardiani Sistem Informasi STMIK GI MDP E-mail: mardiani@mdp.ac.id Abstrak Dari beberapa

Lebih terperinci

Partitional clustering KLASTERING DENGAN METODE K-MEANS

Partitional clustering KLASTERING DENGAN METODE K-MEANS Partitional clustering KLASTERING DENGAN METODE K-MEANS PENDAHULUAN K-mean merupakan teknik klastering yang paling umum dan sederhana. Tujuan klastering ini adalah mengelompokkan obyek ke dalam k klaster/kelompok.

Lebih terperinci

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining.

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining. Modul Praktikum WEKA Yudi Wibisono (e: yudi@upi.edu ); t: @yudiwbs Ilmu Komputer Universitas Pendidikan Indonesia (cs.upi.edu) Versi BETA : Oktober 2013 http://creativecommons.org/licenses/by-nc-sa/3.0/

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 7 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan penerapan algoritma hierarchical clustering dan k-means untuk pengelompokan desa tertinggal.

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDHULUN Listrik merupakan sumber daya yang sangat dibutuhkan saat ini. Penggunaan listrik setiap tahun, bahkan setiap bulan terus meningkat. Hal ini dibuktikan dengan selalu bertambahnya

Lebih terperinci

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014 2014 Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014 Bab 1. Data Mining 1.1 Pengertian Data Mining Data Mining adalah kegiatan yang meliputi pengumpulan dan penggunaan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN Latar Belakang Kredit merupakan salah satu usaha sekunder yang dapat dilakukan untuk pemenuhan kebutuhan sehari-hari. Pada umumnya, proses kredit dapat dilayani melalui lembaga keuangan

Lebih terperinci

SEGMENTASI CITRA. thresholding

SEGMENTASI CITRA. thresholding SEGMENTASI CITRA Dalam visi komputer, Segmentasi adalah proses mempartisi citra digital menjadi beberapa segmen (set piksel, juga dikenal sebagai superpixels). Tujuan dari segmentasi adalah untuk menyederhanakan

Lebih terperinci

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM Achmad Maududie 1 Wahyu Catur Wibowo 2 1 Program Studi Sistem Informasi, Universitas Jember 2 Fakultas Ilmu Komputer, Universitas Indonesia,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Bab ini berisi landasan teori dalam penelitian mengenai aplikasi algoritma spasial clustering pada data mahasiswa baru. Pembahasan diawali dengan penjelasan secara umum mengenai data

Lebih terperinci

Lili Tanti. STMIK Potensi Utama, Jl. K.L. Yos Sudarso Km. 6,5 No. 3A Tj. Mulia Medan ABSTRACT

Lili Tanti.   STMIK Potensi Utama, Jl. K.L. Yos Sudarso Km. 6,5 No. 3A Tj. Mulia Medan ABSTRACT Lili, Penerapan Data Mining Untuk 35 PENERAPAN DATA MINING UNTUK MENENTUKAN JUMLAH MAHASISWA PADA SATU DAERAH DENGAN MENGGUNAKAN METODE ALGORITMA APRIORI Lili Tanti Email : lili@potensi-utama.ac.id STMIK

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah Proses yang menggunakan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Di dalam landasan teori ini, akan dibahas tentang teori teori dan konsep dasar yang mendukung pembahasan dari sistem yang akan dibuat. 2.1 Basis Data (Database) Basis data diperlukan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Hal-hal yang dipaparkan pada Bab Tinjauan Pustaka adalah penelaahan kepustakaan yang mendasari proses perancangan dan pembuatan aplikasi meliputi data mining, Customer Relationship

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BABI PENDAHULUAN. 1.1 Latar Belakang

BABI PENDAHULUAN. 1.1 Latar Belakang BABI PENDAHULUAN 1.1 Latar Belakang Setiap perusahaan dituntut untuk siap menghadapi persaingan yang semakin ketat dengan perusahaan lain. Makin intensifnya persaingan yang dihadapi, telah menyebabkan

Lebih terperinci