BAB 6 ANALISIS CLUSTER

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB 6 ANALISIS CLUSTER"

Transkripsi

1 BAB 6 ANALISIS CLUSTER Pendahuluan Analisis cluster membagi data ke dalam grup (cluster) yang bermakna, berguna, atau keduanya. Jika tujuannya mencari grup yang memiliki makna, maka cluster seharusnya menangkap struktur alami dari data, disebut juga clustering for understanding. Dalam beberapa kasus, analisis cluster hanya berguna sebagai titik awal bagi penggunaan yang lain - seperti peringkasan data (data summarization), disebut juga clustering for utility. Apakah untuk mencari grup yang bermakna atau sebagai perangkat awal bagi penggunaan yang lain, analisis cluster telah lama memainkan peran penting dalam berbagai bidang seperti: psikologi dan ilmu sosial lainnya, biologi, statistika, pengenalan pola, temu kembali informasi, machine learning, dan data mining. Analisis cluster telah diterapkan dalam banyak masalah praktis, seperti Clustering for Understanding. Kelas, atau kelompok obyek yang memiliki makna secara konsep dengan karakteristik umum yang sama, memainkan peran penting dalam bagaimana orang menganalisis dan menjelaskan fenomena di alam. Sebenarnya, manusia memiliki keterampilan untuk membagi obyek-obyek ke dalam grup (clustering) dan memberikan obyek tertentu dalam grup-grup tersebut (classification). Sebagai contoh, bahkan anak kecil dapat dengan cepat memberikan label obyek-obyek dalam foto sebagai bangunan, kendaraan, manusia, binatang, tumbuhan, dan sebagainya. Dalam konteks pemahaman data, cluster merupakan kelas-kelas yang potensial dan analisis cluster merupakan kajian tentang teknik menemukan kelas-kelas tersebut secara otomatis. Berikut adalah contoh clustering for understanding di berbagai bidang : Biologi. Ahli biologi telah lama menciptakan taksonomi (klasifikasi secara hirarki) bagi seluruh makhluk hidup : kingdom, phylum, kelas, ordo, famili, genus dan spesies. Sehingga tidak mengherankan jika pada awalnnya banyak pekerjaan analisis cluster yang bertujuan menciptakan taksonomi matematis yang dapat menemukan struktur klasifikasi secara otomatis. Saat ini, ahli biologi menerapkan clustering dalam analisis informasi genetik yang sangat besar. Sebagai contoh, clustering digunakan untuk mencari kelompokkelompok gen yang memiliki fungsi sama. Temu-Kembali Informasi. World Wide Web mengandung jutaan halaman web, dan hasil query kepada mesin pencari dapat menghasilkan ribuan halaman. Clustering dapat digunakan untuk mengelompokkan hasil pencarian ini ke dalam sejumlah kecil cluster, masing-masing cluster menangkap aspek tertentu dari query. Sebagai contoh, query movie mungkin akan menghasilkan halaman web yang dikelompokkan dalam beberapa kategori, seperti review, trailer, bintang dan teater. Setiap kategori (cluster) dapat dipecah ke dalam sub-kategoru (sub-claster), menghasilkan struktur hirarki yang membantu pengguna untuk melakukan eksplorasi hasil query. Modul Kuliah Data Mining 101

2 Iklim. Agar dapat memahami iklim bumi, perlu mencari pola atmosfer dan lautan. Untuk itu, analsis cluster telah digunakan untuk mencari pola tekanan atmosfer di daerah kutub dan wilayah lautan yang memiliki dampak berarti bagi iklim di daratan. Psikologi dan Pengobatan. Kondisi kesehatan seseorang seringkali bervariasi, dan analisis cluster dapat digunakan untuk melakukan identifikasi sub-kategori kondisi kesehatan. Sebagai contoh, clustering telah digunakan untk melakukan identifikasi berbagai jenis depresi. Analisis cluster juga dapat digunakan untuk mendeteksi pola penyebaran penyakit secara spasial maupun temporal. Bisnis. Bisnis mengumpulkan sejumlah besar informasi tentang pelanggan saat ini serta orang yang potensial menjadi pelanggan. Clustering dapat digunakan untuk membagi pelanggan ke dalam sejumlah kecil kelompok untuk analisis dan kegiatan pemasaran. Clustering for Utility. Analisis cluster menyediakan abstraksi dari obyek data individu kepada cluster dimana obyek tersebut berada. Sebagai tambahan, beberapa teknik clustering dapat menentukan karakteristik cluster dalam bentuk cluster prototype, yaitu obyek data yang mewakili obyek-obyek lainnya di dalam cluster. Cluster prototype ini dapat digunakan sebagai dasar bagi sejumlah teknik analisis data dan pengolahan data. Dengan demikian, dalam konteks penggunaan (utility), analisis cluster adalah kajian tentang teknik untuk mencari cluster prototype yang paling mewakili. Summarization. Banyak teknik analisis data, seperti regresi atau PCA, memiliki kompleksitas O(m 2 ) atau lebih tinggi (dimana m adalah jumlah obyek), sehingga tidak praktis untuk dataset yang besar. Namun, daripada menerapkan algoritma ke seluruh dataset, algoritma tersebut dapat diterapkan ke dataset yang telah dikurangi, mengandung hanya cluster prototype. Tergantung dari tipe analisis, jumlah prototipe, dan tingkat akurasi prorotipe dalam mewakili data, hasil algoritma dapat dibandingkan dengan jika menggunakan seluruh data. Compression. Cluster prototype dapat juga digunakan untuk kompresi data. Secara umum, dibuat sebuah tabel yang berisi prototipe dari setiap cluster, misal masing-masing prototipe diberikan nilai integer berupa indeks dari prototipe yang terasosiasi dengan cluster-nya. Tipe kompresi ini dikenal sebagai vector quantization dan sering diterapkan pada data citra, suara dan video, dimana (1) banyak obyek data yang sangat mirip satu dengan lainnya, (2) kehilangan informasi sampai tingkat tertentu masih dapat ditolerir, dan (3) diinginkan tingkat pengurangan ukuran data yang nyata. Efficiently Finding Nearest Neighbors. Mencari nearest neighbors memerlukan perhitungan jarak antar pasangan obyek, untuk semua titik. Seringkali cluster dan cluster prototype dapat ditemukan dengan jauh lebih efisien. Modul Kuliah Data Mining 102

3 6.1. Gambaran Umum Apakah Analisis Cluster? Analisis cluster akan mengelompokkan obyek-obyek data hanya berdasarkan pada informasi yang terdapat pada data, yang menjelaskan obyek dan relasinya. Tujuan analisis cluster adalah agar obyek-obyek di dalam grup adalah mirip (atau berhubungan) satu dengan lainnya, dan berbeda (atau tidak berhubungan) dengan obyek dalam grup lainnya. Semakin besar tingkat kemiripan/similarity (atau homogenitas) di dalam satu grup dan semakin besar tingkat perbedaan diantara grup, maka semakin baik (atau lebih berbeda) clustering tersebut. Gambar 6.1 merupakan ilustrasi prinsip clustering. Gambar 6.1. Prinsip Clustering Gambar 6.2 memperlihatkan dua puluh titik dan tiga cari membagi titik-titik tersebut dalam cluster. Gambar 6.2 merupakan ilustrasi bagaimana definisi cluster tidak presisi dan definisi terbaik tergantung dari kondisi data serta hasil yang diinginkan. Gambar 6.2. Beberapa cara menentukan cluster bagi dataset yang sama Tipe Clustering. Ada beberapa tipe clustering jika dilihat dari beberapa sudut pandang, yaitu: Hierarchical versus Partitional. Partitional Clustering adalah membagi himpunan obyek data ke dalam sub-himpunan (cluster) yang tidak overlap, sehingga setiap obyek data berada dalam tepat satu cluster. Dilihat secara individual, setiap koleksi cluster dalam Gambar 1(b-d) adalah partitional clustering. Modul Kuliah Data Mining 103

4 Jika kita mengizinkan cluster untuk memiliki subcluster, maka akan terbentuk Hierarchical Clustering, yang merupakan himpunan nested cluster yang diatur dalam bentuk tree. Gambar 6.3 memperlihatkan empat obyek data sebagai dendogram dan nested cluster. Gambar 6.3. Dendogram dan Nested Cluster. Exclusive versus Overlapping versus Fuzzy Clustering pada Gambar 6.2 semuanya bersifat exclusive, karena masingmasing obyek ditempatkan dalam satu cluster. Dalam banyak situasi dimana satu titik masuk akal ditempatkan dalam lebih satu cluster maka situasi ini menimbulkan overlapping clustering atau non-exclusive clusering. Misalnya, seseorang dalam universitas bisa menjadi mahasiswa sekaligus karyawan universitas tersebut. Dalam fuzzy clustering, setiap obyek menjadi milik setiap cluster dengan nilai keanggotaan diantara 0 (multak bukan anggota cluster) dan 1 (mutlak anggota cluster). Dengan kata lain, cluster diperlakukan sebagai himpunan fuzzy. Complete versus Partial Complete clustering akan menetapak setiap obyek ke dalam cluster, sedangkan partial clustering tidak. Alasan partial clustering adalah karena beberapa obyek dalam dataset mungkin bukan anggota kelompok yang telah didefinisikan dengan baik. Banyak obyek dalam dataset mungkin mewakili noise, outlier atau uninteresting background. Sebagai contoh, beberapa artikel surat kabar mungkin berbagai tema yang sama, seperti pemanasan global, sedangkan artikel lainnya lebih umum atau one-of-a-kind. Sehingga, untuk mencari topik yang penting dalam artikel bulan lalu, kita hanya ingin mencari cluster dokumen yang terkait erat dengan tema umum. Dalam kasus lain, mungkin yang diperlukan adalah complete clustering. Misal, aplikasi yang menggunakan clustering untuk mengatur dokumen untuk browsing yang perlu menjamin semua dokumen dapat di-browse. Telah banyak algoritma clustering yang dikembangkan, Gambar 6.4 menyajikan beberapa algoritma clustering dan hubungan diantara algoritma-algoritma tersebut. Sedangkan yang akan dibahas pada modul ini hanya algoritma K-mean, Agglomerative Hierarchical dan DBSCAN. Modul Kuliah Data Mining 104

5 Gambar 6.4. Algoritma Clustering Tipe Cluster Clustering bertujuan mencari kelompok obyek (cluster) yang bermanfaat, sedangkan tingkat manfaat ditentukan oleh tujuan analisis data yang ditetapkan. Oleh karena itu, terdapat beberapa jenis cluster, yaitu: Well-Separated. Cluster merupakan himpunan titik sehingga sembarang titik dalam cluster lebih dekat (atau lebih mirip) dengan setiap titik dalam cluster dibandingkan dengan sembarang titik yang tidak di dalam cluster. Gambar 6.5 merupakan ilustrasi Well-Separated Cluster. Gambar 6.5 Tiga Well-Separated Cluster Prototype-Based/Center-Based. Cluster merupakan himpunan obyek, sehingga sebuah obyek dalam cluster lebih dekat (lebih mirip) dengan pusat cluster, daripada dengan pusat cluster lainnya. Yang sering dijadikan pusat cluster adalah centroid dan medoid. Centroid adalah rataan semua titik dalam cluster, sedangkan medoid adalah titik yang paling mewakili cluster. Center-based cluster di-ilustrasikan pada Gambar 6. Gambar 6.6. Empat Center-Based Cluster Graph-Based. Jika data direpresentasikan sebagai graph, dimana obyek menjadi node dan link menyatakan koneksi diantara obyek, maka cluster dapat didefinisikan sebagai connected component; yaitu grup obyek yang terkoneksi satu sama lain, tetapi tidak memiliki koneksi dengan obyek di luar grup. Contoh penting dari graph-based cluster adalah contiguitybased cluster, dimana dua obyek terkoneksi hanya jika keduanya berada Modul Kuliah Data Mining 105

6 dalam jarak tertentu satu sama lain. Contoh contiguity-based cluster dapat dilihat pada Gambar 6.7 Gambar 6.7 Contiguity-based cluster Density-Based. Sebuah cluster adalah wilayah yang padat obyek dikelilingi oleh wilayah dengan kepadatan rendah. Cluster tipe ini berguna untuk membentuk cluster dengan bentuk tak-teratur (irregular) atau terpilin (intertwined), dan juga jika terdapat noise dan outlier. Gambar 6.8 merupakan contoh Density-Based Clustering Gambar 6.8 Density-Based Clustering. Shared-Property (Conceptual Cluster). Mencari cluster dengan beberapa sifat yang sama, atau menyatakan konsep tertentu. Gambar 6.9 merupakan cluster yang mempunyai sifat lingkaran Gambar 6.9 Dua Overlapping Circles 6.2. K-mean Algoritma k-means mengambil parameter input k,dan membagi sebuah himpunan dari objek kedalam k cluster,sehingga menghasilkan similaritas intracluster adalah tinggi tetapi similaritas intercluster adalah rendah. similaritas cluster diukur dari banyaknya nilai m obyek yang ada pada sebuah cluster,sehingga dapat dilihat sebagai cluster s centre gravity. Bagaimana algoritma k-means bekerja? proses algoritma k-means sebagai berikut. Pertama menentukan secara random k obyek, masing masing obyek tersebut pada awalnya menggambarkan sebuah cluster mean atau cluster center. Untuk tiap-tiap obyek yang tersisa dimasukkan ke dalam cluster yang mempunyai kesamaan yang lebih, didasarkan pada jarak antara obyek dengan sebuah cluster mean. Kemudian hitung nilai mean yang baru untuk masing masing cluster.proses ini berulang sampai fungsi kriteria di temukan. Algoritma ini mencoba untuk menentukan k partisi yang memiliki fungsi squared error minimal. Metode ini relatif lebih scalable dan effisien untuk pemrosesan data dengan jumlah yang besar karena perhitungan kompleksitas dari algoritma Modul Kuliah Data Mining 106

7 tersebut adalah O(nkt) dimana n adalah jumlah total obyek sedangkan k adalah jumlah cluster dan t adalah banyaknya iterasi. Pada umumnya, k<<n dan t<<n. metoda ini sering menghasilkan optimal lokal. Metode k-mean, bagaimanapun juga dapat diaplikasikan hanya jika mean dari sebuah cluster didefinisikan. Ini mungkin tidak bisa sebagai pilihan di beberapa aplikasi, seperti halnya untuk data dengan atribut kategorik. Perlunya seorang user menentukan nilai k sebagai jumlah final cluster dilihat dari segi kecepatan mungkin merupakan suatu kerugian. Metode k-mean tidak cocok digunakan untuk menemukan cluster dengan bentuk nonconvex atau cluster dengan ukuran yang sangat berbeda selain itu metode ini sangat sensitif terhadap noise dan outlier. Algoritma Input Output : k-means, algoritma untuk partitioning yang di dasarkan pada nilai mean dari obyek-obyek di dalam sebuah cluster. : sejumlah cluster k,dan sebuah database dengan n obyek. : sebuah himpunan k cluster dengan squared error criterion minimum. Metode : 1. tentukan k object sebagai cluster center awal; 2. ulangi 3. tandai masing masing obyek untuk sebuah cluster, dimana obyek tersebut lebih similar, didasarkan pada nilai mean obyek tersebut dalam sebuah cluster; 4. hitung nilai cluster mean untuk masing masing cluster; 5. sampai tidak ada perubahan. Ada beberapa varian dari metode k-means, ini dapat berbeda pada pemilihan dari nilai awal k-means, perhitungan dissimilarity, dan strategi untuk menghitung nilai cluster means. Sebuah strategi yang menarik dan sering menghasilkan hasil yang bagus untuk awalnya lakukan sebuah algoritma hirarchical agglomeration yang digunakan untuk menentukan jumlah cluster dan untuk menemukan sebuah initial clustering, dan kemudian menggunakan proses iterasi relokasi untuk meningkatkan clustering tersebut. Varian yang lain untuk k-means adalah metode k-modes, dengan memperluas paradigma k-means untuk mengelompokkan data kategorik dengan menggantikan mean cluster dengan modes (modus), menggunakan ukuran dissimiliritas baru untuk hubungan dengan obyek kategorik, dan dengan menggunakan sebuah metode yang didasarkan pada frequency atau keseringan untuk mengupdate modes dari cluster. Metode K-mean dan K-modes dapat digabungkan untuk mengelompokkan data dengan mixed numeric dan nilai kategori yang di hasilkan dengan metode k-prototype. Algoritma EM (Expact on Maximization) adalah algoritma dengan mengembangkan paradigma algoritma k-mean dengan sebuah cara yang lain. Untuk menandakan tiap tiap obyek ke dalam sebuah calon atau dedicated cluster, untuk menandakan masing masing obyek ke dalam sebuah cluster diperhitungkan menurut lebar yang mewakili kemungkinan keanggotaan. Dengan kata lain,tidak ada batasan yang tegas antar cluster. Oleh karena itu nilai mean yang baru dihitung berdasarkan ukuran lebar yang ditentukan. Modul Kuliah Data Mining 107

8 Properties algoritma k-means : Selalu ada K cluster. Minimal ada satu item data pada masing masing cluster. Cluster adalah metode non-hierarchical dan cluster tersebut tidak overlap. Setiap anggota sebuah cluster merupakan closest untuk cluster tersebut dari cluster lain karena kedekatan tidak selalu melibatkan center dari cluster Contoh Kasus : Kita mencoba menerapkan algoritma clustering k-means dengan final cluster sejumlah empat cluster dari data yang terdapat pada Tabel 6.1 Tabel 6.1 Dataset Food Food item # Protein content, P Fat content, F Food item # Food item # Food item # Food item # Food item # Food item # Food item # Untuk lebih memahami permasalahan ini kita gambar data tersebut ke dalam diagram, dari gambar tersebut kita dapat menentukan empat point dengan jarak terjauh (Gambar 6.10): Gambar Plot data Fat Content vs Protein Content Dari Gambar 8 di atas dapat kita ketahui bahwa jarak antara point 1 dan point 2, 1 dan 3, 1 dan 4, 1 dan 5, 2 dan 3, 2 dan 4, 3 dan 4 adalah maksimum. Modul Kuliah Data Mining 108

9 Sehingga, ke-empat cluster tersebut yang terpilih adalah : Cluster number Protein content, P Fat content, F C C C C Dan juga kita dapat mengamati bahwa point 1 merupakan close untuk point 6 sehingga kita dapat mengelompokkan kedua point tersebut ke dalam satu cluster, misalnya kita sebut kluster ini kita sebut dengan nama cluster C16. Kemudian kita hitung nilai centroidnya, nilai P untuk centroid C16 adalah ( )/2=1.55 dan nilai F untuk centroid C16 adalah (60+55)/2= Kemudian kita hitung titik-titik yang lain, point 2 dapat kita gabungkan dengan point 5 menjadi satu closer,kita namakan cluster ini kita sebut dengan nama cluster C25,nilai P untuk centroidnya C25 adalah ( )/2=7.9 dan nilai F untuk centroidnya C25 adalah (20+15)/2= Point 4 tidak termasuk close pada cluster manapun,sehingga kita dapat masukkan point ini kedalam cluster yang ke empat, kita namakan cluster ini dengan nama cluster C4 dengan nilai P untuk centroidnya C4 adalah 1.5 dan nilai F untuk centroidnya C4 adalah 21. Akhirnya,kita dapatkan nilai akhir untuk masing masing centroid : Cluster number Protein content, P Fat content, F C C C C Pada contoh diatas merupakan langkah yang mudah untuk menentukan jarak antar point.pada kasus yang lain tidak jarang dijumpai bahwa sulit untuk menentukan jarak, salah satu cara yang bisa digunakan adalah dengan menggunakan euclidean metric untuk mengukur jarak antara dua point dan memasukkan point tersebut ke dalam sebuah cluster Agglomerative dan Divisive Hierarchical Clustering Agglomeretive Hierarchical Clustering : Strategi bottom-up ini dimulai dengan menempatkan setiap obyek pada clusternya masing-masing dan menggabungkan cluster-cluster atomik ini menjadi cluster-cluster yang lebih besar, terus sampai semua obyek berada pada 1 cluster atau sampai kondisi berhenti tercapai. Kebanyakan metode clustering hirarkis menggunakan metode Modul Kuliah Data Mining 109

10 yang masuk ke kategori ini. Perbedaannya hanya pada definisi similarity intercluster. Divise Hierarchical Clustering : Strategi top-down ini merupakan kebalikan dari Agglomeretive Hierarchical Clustering. Dimulai dengan menempatkan seluruh obyek pada satu cluster. Kemudian dibagi-bagi terus sampai menjadi bagian yang lebih kecil sampai tiap obyek memiliki cluster sendiri atau kriteria berhenti tercapai. Pendekatan agglomerative dan divise di-ilustrasikan pada Gambar 6.11 Step 0 Step 1 Step 2 Step 3 Step 4 a a b b a b c d e c c d e d d e e Step 4 Step 3 Step 2 Step 1 Step 0 agglomerative (AGNES) divisive (DIANA) Gambar Agglomerative dan Divisive Hierarchical Clustering Untuk meningkatkan kualitas clustering salah satu cara yang dapat dilakukan adalah dengan mengintegrasikan hierachical clustering dengan teknik clustering lainnya membentuk multiple phase clustering. Beberapa metode telah ditemukan antara lain BIRCH. BIRCH dimulai dengan mempartisi obyek secara hirarkis dengan struktur tree, dan kemudian mengaplikasikan algoritma clustering lainnya untuk menemukan cluster. BIRCH: Balanced Iterative Reducing and Clustering Using Hierarchies BIRCH memperkenalkan dua konsep yaitu clustering feature dan clustering feature tree (CF-tree). CF adalah informasi tentang sub-cluster dari obyek Modul Kuliah Data Mining 110

11 CF tree adalah height-balanced tree yang menyimpan CF untuk hierarchical clustering BIRCH bekerja dalam dua fase : 1. Scan database untuk inisialisasi in-memori CF tree (kompresi multi level data yang mencoba menyimpan struktur clustering yang melekat pada data). Fase scan disajikan dalam Gambar Gambar Fase Scan Database 2. Gunakan algoritma clustering yang diinginkan untuk mencari cluster pada leaf node pada CF tree. Fase ini digambarkan pada Gambar 6.13 Gambar 6.13 Fase Pencarian Cluster Modul Kuliah Data Mining 111

12 6.4. DBSCAN DBSCAN adalah salah satu algoritma clustering density-based. Algoritma memperluas wilayah dengan kepadatan yang tinggi ke dalam cluster dan menempatkan cluster irregular pada database spasial dengan noise. Metode ini mendefiniskan cluster sebagai maximal set dari titik-titik yang density-connected. DBSCAN memiliki 2 parameter yaitu Eps (radius maksimum dari neighborhood) dan MinPts (jumlah minimum titik dalam Eps-neighborhood dari suatu titik). Ide dasar dari density-based clustering berkaitan dengan beberapa definisi baru 1. Neighborhood dengan radius Eps dari suatu obyek disebut Epsneighborhood dari suatu obyek tersebut 2. Jika Eps-neighborhood dari suatu obyek mengandung titik sekurangkurangnya jumlah minimum, MinPts, maka suatu obyek tersebut dinamakan core object 3. Diberikan set obyek D, obyek p dikatakan directly density-reachable dari obyek q jika p termasuk dalam Eps-neighborhood dari q dan q adalah core objek. Gambar 6.14 memberikan ilustrasi Eps-neighborhood Gambar 6.14 Eps-neighborhood 4. Sebuah obyek p adalah density-reachable dari obyek q dengan memperhatikan Eps dan MinPts dalam suatu set objek,d, jika terdapat serangkaian obyek p 1,,p n, p 1 =q dan p n =p dimana p i+1 adalah directly density-reachable dari p i dengan memperhatikan Eps dan MinPts, untuk 1 <= i <= n, p i elemen D. Konsep density-reachable di-ilustrasikan pada Gambar Gambar Density-reachable 5. Sebuah obyek p adalah density-connected terhadap obyek q dengan memperhatikan Eps dan MinPts dalam set obyek D, jika ada sebuah obyek o elemen D sehingga p dan q keduanya density-reachable dari o dengan Modul Kuliah Data Mining 112

13 memperhatikan Eps dan MinPts. Gambar 6.16 merupakan ilustrasi dari konsep density-connected. Gambar 6.16 Density-connected Sifat density-reach ability adalah transitive closure dari direct density reachable dan relasi ini simetris. Sedangkan density connectivity adalah relasi simetris. Algoritma DBSCAN Arbitrary select a point p Retrieve all points density-reachable from p wrt Eps and MinPts. If p is a core point, a cluster is formed. If p is a border point, no points are density-reachable from p and DBSCAN visits the next point of the database. Continue the process until all of the points have been processed Contoh : Contoh Studi kasus dengan data base yang diujikan : Pemakaian DBSCAN: Diketahui MinPts= 3 dan ε = 1 cm a. Modul Kuliah Data Mining 113

14 Misalkan dalam iterasi terpilih node C1. Maka dicari node-node ε- neighborhood dari C1. Sesuai dengan ketentuan bahwa ε yaitu 1 cm maka diperoleh ε-neighborhood dari C1 yaitu 1,2,3,4, dan 5. Karena ketentuan bahwa MinPts yang ada adalah 3 node, maka node C1 dengan ε- neighborhood sebanyak 5 node (lebih banyak dari pada MinPts) menjadi Core Object. b. Iterasi dilanjutkan dengan node lain dalam database. Diperoleh titik C2. Didapat ε-neighborhood dari C2 yaitu 1,2,4,6 dan 7. Karena ε-neighborhood berjumlah 5 dan itu lebih besar dari MinPts-nya maka C2 merupakan Object core. c. Dipilih titik C3 didapat ε-neighborhood nya yaitu node 4,5, dan 6. Sesuai dengan ketentuan bahwa ε-neighborhood dari suatu titik jika dia lebih banyak atau sama dengan MinPts maka node tersebut merupakan core object. C1, C2 dan C3 adalah density-reachable. Hal ini terjadi karena C1 directdensity-reachable dari C2 maupun C3 dan node 4 sendiri merupakan core object maka semua merupakan Core object maka mereka saling densityconnected. Iterasi terus dilakukan terhadap node yang belum pernah menjadi coreobject masuk Modul Kuliah Data Mining 114

15 Dari iterasi tersebut didapat 4, 7, C1, C2, C3, C4, C5, dan C6 sebagai core, mereka density-reachable dan saling density-connected. Iterasi dilanjutkan untuk semua node/ object pada database. Ci dan Cn direct density reachable dan sudah tentu mereka density-connected. Iterasi yang terus dilakukan saat berada di node n. Maka akan dicari ε-neighborhood dari n didapat node h dan i, karena jumlah ε-neighborhood tidak mencapai MinPts maka n bukan merupakan core object dan karena n,h,i tidak termasuk ε-neighborhood dari core object yang ada maka mereka dianggap sebagai noise. Sehingga didapatkan cluster sebanyak dua kelompok dengan beberapa noise Modul Kuliah Data Mining 115

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning CLUSTERING DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk yang paling umum digunakan adalah unsupervised learning # Unsupervised learning

Lebih terperinci

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering Analisis Cluster Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan

Lebih terperinci

Clustering. Virginia Postrel

Clustering. Virginia Postrel 8 Clustering Most of us cluster somewhere in the middle of most statistical distributions. But there are lots of bell curves, and pretty much everyone is on a tail of at least one of them. We may collect

Lebih terperinci

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING Yoga Bhagawad Gita 1, Ahmad Saikhu 2 1,2 Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember

Lebih terperinci

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means, K- Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA 4 BAB 2 TINJAUAN PUSTAKA Pada bab ini membahas tentang sistem pendataan di segala sistem dan data data yang digunakan dalam teknik data mining dan aplikasinya. Tesis ini fokus pada pengelompokan data multidimensi

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Data Mining adalah proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling

Lebih terperinci

DATA MINING DAN WAREHOUSE A N D R I

DATA MINING DAN WAREHOUSE A N D R I DATA MINING DAN WAREHOUSE A N D R I CLUSTERING Secara umum cluster didefinisikan sebagai sejumlah objek yang mirip yang dikelompokan secara bersama, Namun definisi dari cluster bisa beragam tergantung

Lebih terperinci

Pendekatan Algoritma Divide and Conquer pada Hierarchical Clustering

Pendekatan Algoritma Divide and Conquer pada Hierarchical Clustering Pendekatan Algoritma Divide and Conquer pada Hierarchical Clustering Agnes Theresia Damanik / 13510100 1 Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung,

Lebih terperinci

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) Nur Wakhidah Fakultas Teknologi Informasi dan Komunikasi Universitas Semarang Abstract Classification is the process of organizing

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Hal-hal yang dipaparkan pada Bab Tinjauan Pustaka adalah penelaahan kepustakaan yang mendasari proses perancangan dan pembuatan aplikasi meliputi data mining, Customer Relationship

Lebih terperinci

dengan Algoritma K Means

dengan Algoritma K Means K Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan

Lebih terperinci

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk BAB II LANDASAN TEORI 2.1 Sistem Menurut Gondodiyoto (2007), sistem adalah merupakan suatu kesatuan yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk mencapai suatu tujuan tertentu.

Lebih terperinci

2 TINJAUAN PUSTAKA. Ruang Lingkup Penelitian

2 TINJAUAN PUSTAKA. Ruang Lingkup Penelitian 3 Ruang Lingkup Penelitian 1. Teknik yang digunakan dalam membentuk clustering titik panas adalah DBSCAN. 2. Data yang digunakan pada penelitian ini adalah data titik panas kebakaran hutan di Indonesia

Lebih terperinci

Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan

Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan Ni Made Anindya Santika Devi, I Ketut Gede Darma Putra, I Made Sukarsa Jurusan Teknologi Informasi, Universitas Udayana Bukit Jimbaran,

Lebih terperinci

BAB 3 ANALISA SISTEM

BAB 3 ANALISA SISTEM BAB 3 ANALISA SISTEM Pada perancangan suatu sistem diperlakukan analisa yang tepat, sehingga proses pembuatan sistem dapat berjalan dengan lancar dan sesuai seperti yang diinginkan. Setelah dilakukan analisis

Lebih terperinci

BAB 2 PENELITIAN TERKAIT DAN LANDASAN TEORI

BAB 2 PENELITIAN TERKAIT DAN LANDASAN TEORI BAB 2 PENELITIAN TERKAIT DAN LANDASAN TEORI 2.1 Penelitian Terkait Ada beberapa penelitian terkait dengan penggunaan Data Mining metode cluster dengan menggunakan Algoritma Fuzzy C-Means untuk dapat mengelompokkan

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #9 Text Clustering (Ch.16 & 17) Clustering Pengelompokan, penggerombolan Proses pengelompokan sekumpulan obyek ke dalam kelas-kelas obyek yang memiliki sifat sama.

Lebih terperinci

BAB II KAJIAN PUSTAKA

BAB II KAJIAN PUSTAKA BAB II KAJIAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah alat dan teknik perangkat lunak yang bisa memberikan saransaran untuk item yang sekiranya bermanfaat bagi pengguna (Ricci, et al.,

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Sponge atau poriferans berasal dari bahasa Latin yaitu porus yang artinya pori dan ferre yang artinya memiliki. Sponge adalah hewan berpori, pada umumnya terdapat di lautan,

Lebih terperinci

BAB 2 LANDASAN TEORI. 2.1 Data Mining BAB 2 - LANDASAN TEORI. Aplikasi dan analisis..., Andina Budiarti, FASILKOM UI, 2006

BAB 2 LANDASAN TEORI. 2.1 Data Mining BAB 2 - LANDASAN TEORI. Aplikasi dan analisis..., Andina Budiarti, FASILKOM UI, 2006 BAB 2 LANDASAN TEORI Data mining sebagai salah satu proses eksplorasi dan analisis data memiliki banyak metode dengan kegunaannya masing-masing. Clustering dan association rules merupakan dua di antara

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Penelitian Terkait Pada penelitian ini, peneliti melakukan penelitian yang didasarkan pada penelitian terdahulu yang terkait dengan penelitian yang akan dilakukan peneliti.

Lebih terperinci

(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M

(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M (M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M 1Toza Sathia Utiayarsih, 2 Yadi Suprijadi, 3 Bernik Maskun 1Mahasiswa Magister Statistika

Lebih terperinci

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami METODE CLUSTERING DENGAN ALGORITMA K-MEANS Oleh : Nengah Widya Utami 1629101002 PROGRAM STUDI S2 ILMU KOMPUTER PROGRAM PASCASARJANA UNIVERSITAS PENDIDIKAN GANESHA SINGARAJA 2017 1. Definisi Clustering

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

3 METODOLOGI PENELITIAN

3 METODOLOGI PENELITIAN 19 3 METODOLOGI PENELITIAN 3.1. Kerangka Berpikir Kebakaran hutan yang sering terjadi di Indonesia berkaitan erat dengan dua faktor utama yaitu faktor alam dan faktor manusia. Kemungkinan terdapat karakteristik

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Beberapa penelitian terdahulu telah banyak yang menerapkan data mining, yang bertujuan dalam menyelesaikan beberapa permasalahan seputar dunia pendidikan. Khususnya

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan Berdasarkan Peraturan Pemerintah Nomor 37 tahun 2009, dosen merupakan pendidik profesional dan ilmuwan dengan tugas utama mentransformasikan, mengembangkan,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Sistem Pendukung Keputusan II.1.1 Definisi Sistem Pendukung Keputusan Berdasarkan Efraim Turban dkk, Sistem Pendukung Keputusan (SPK) / Decision Support System (DSS) adalah sebuah

Lebih terperinci

Bab 2 Tinjauan Pustaka

Bab 2 Tinjauan Pustaka Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu Adapun penelitian terdahulu yang berkaitan dalam penelitian ini berjudul Penentuan Wilayah Usaha Pertambangan Menggunakan Metode Fuzzy K-Mean Clustering

Lebih terperinci

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul II CLUSTERING TUJUA PRAKTIKUM 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam

Lebih terperinci

Modifikasi DBSCAN (Density-Based Spatial Clustering With Noise) pada Objek 3 Dimensi

Modifikasi DBSCAN (Density-Based Spatial Clustering With Noise) pada Objek 3 Dimensi Jurnal Komputer Terapan Vol. 3, No. 1, Mei 2017, 41-52 41 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id Modifikasi DBSCAN (Density-Based Spatial Clustering With Noise) pada Objek 3 Dimensi Ibnu

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN Latar Belakang Kredit merupakan salah satu usaha sekunder yang dapat dilakukan untuk pemenuhan kebutuhan sehari-hari. Pada umumnya, proses kredit dapat dilayani melalui lembaga keuangan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Mobilitas adalah hal yang tidak dapat dipisahkan dalam gaya hidup masyarakat sekarang ini. Serangkaian aktifitas menuntut seseorang untuk berada di suatu tempat bahkan

Lebih terperinci

BAB II 2. DASAR TEORI

BAB II 2. DASAR TEORI BAB II 2. DASAR TEORI Pada bab ini akan dijelaskan mengenai definisi data mining beserta teknikteknik dalam data mining yang dipakai di dalam thesis ini. 2. Data mining Seiring dengan berjalannya waktu,

Lebih terperinci

Data Mining. Clustering. Oleh : Suprayogi

Data Mining. Clustering. Oleh : Suprayogi Data Mining Clustering Oleh : Suprayogi Pendahuluan Saat ini terjadi fenomena yaitu berupa data yang melimpah, setiap hari banyak orang yang berurusan dengan data yang bersumber dari berbagai jenis observasi

Lebih terperinci

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket Bab1 Konsep Data Mining POKOK BAHASAN: Konsep dasar dan pengertian Data Mining Tahapan dalam Data Mining Model Data Mining Fungsi Data Mining TUJUAN BELAJAR: Setelah mempelajari materi dalam bab ini, mahasiswa

Lebih terperinci

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING BAB IV GAMBARAN UMUM METODOLOGI DATA MINING A. Metodologi Data Mining Metodologi Data Mining Komponen data mining pada proses KDD seringkali merupakan aplikasi iteratif yang berulang dari metodologi data

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

Pengenalan Pola. Klasterisasi Data

Pengenalan Pola. Klasterisasi Data Pengenalan Pola Klasterisasi Data PTIIK - 2014 Course Contents 1 Konsep Dasar 2 Tahapan Proses Klasterisasi 3 Ukuran Kemiripan Data 4 Algoritma Klasterisasi Konsep Dasar Klusterisasi Data, atau Data Clustering

Lebih terperinci

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan

Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan Analisis cluster pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam

Lebih terperinci

Data Mining Clustering Oleh : Suprayogi

Data Mining Clustering Oleh : Suprayogi Data Mining Clustering Oleh : Suprayogi Pendahuluan Saat ini terjadi fenomena yaitu berupa data yang melimpah, setiap hari banyak orang yang berurusan dengan data yang bersumber dari berbagai jenis observasi

Lebih terperinci

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM Achmad Maududie 1), Wahyu Catur Wibowo 2) 1) Program Studi Sistem Informasi, Universitas Jember 2) Fakultas Ilmu Komputer,

Lebih terperinci

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means Sri Redjeki Andreas 1), Andreas Pamungkas, Pamungkas Hastin 2), Hastin Al-fatah Al-fatah 3) 1)2)3) STMIK dzeky@akakom.ac.id

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang 1 BAB I PENDAHULUAN 1.1. Latar Belakang Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Text Mining Text mining, yang juga disebut text data mining (TDM) atau knowledge discovery in text( KDT), secara umum mengacu pada proses ekstraksi informasi dari dokumen-dokumen

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini berisi penjelasan mengenai image clustering, pengukuran kemiripan dan pengukuran jarak, representasi citra, ruang warna, algoritma clustering, dan penelitian yang berhubungan.

Lebih terperinci

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi 3. METODOLOGI A. Kerangka Pemikiran Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi dan Pembuatan Prototipe Sistem (Gambar 3.1). Tahap Persiapan terdiri dari pengumpulan dokumen, input

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang Rendy, 2013

BAB I PENDAHULUAN 1.1. Latar Belakang Rendy, 2013 BAB I PENDAHULUAN 1.1. Latar Belakang Twitter merupakan sebuah situs microblogging yang populer dibandingkan dengan situs microblogging lainnya. Hal ini terlihat dari jumlah pengguna Twitter yang mencapai

Lebih terperinci

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA Heri Awalul Ilhamsah Jurusan Teknik Industri Universitas Trunojoyo Madura Kampus Universitas Trunojoyo

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PEMBERIAN BANTUAN BIAYA PENDIDIKAN MENGGUNAKAN ALGORITMA K-MEANS

SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PEMBERIAN BANTUAN BIAYA PENDIDIKAN MENGGUNAKAN ALGORITMA K-MEANS SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PEMBERIAN BANTUAN BIAYA PENDIDIKAN MENGGUNAKAN ALGORITMA K-MEANS Sinawati ), Ummi Syafiqoh 2) ), 2) Sistem Informasi STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos

Lebih terperinci

Partitional clustering KLASTERING DENGAN METODE K-MEANS

Partitional clustering KLASTERING DENGAN METODE K-MEANS Partitional clustering KLASTERING DENGAN METODE K-MEANS PENDAHULUAN K-mean merupakan teknik klastering yang paling umum dan sederhana. Tujuan klastering ini adalah mengelompokkan obyek ke dalam k klaster/kelompok.

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian Penerapan Data Mining dengan Menggunakan Metode Clustering K-Mean Untuk Mengukur Tingkat Ketepatan Kelulusan Mahasiswa Program Teknik Informatika S1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro Semarang

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING

PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING PENERAPAN DATA MINING PADA PENJUALAN HARDISK UNTUK OPTIMALISASI DISTRIBUSI MENGGUNAKAN METODE CLUSTERING Artikel Skripsi Universitas Nusantara PGRI Kediri PENERAPAN DATA MINING PADA PENJUALAN HARDISK

Lebih terperinci

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU PROYEK TUGAS AKHIR IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU (Studi Kasus : SMK Pembangunan Nasional Purwodadi) Disusun oleh: Novian Hari Pratama 10411 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS

Lebih terperinci

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster

Analisis Cluster, Analisis Diskriminan & Analisis Komponen Utama. Analisis Cluster Analisis Cluster Analisis Cluster adalah suatu analisis statistik yang bertujuan memisahkan kasus/obyek ke dalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA A. Knowledge Discovery in Database (KDD) dan Data Mining Banyak orang menggunakan istilah data mining dan knowledge discovery in databases (KDD) secara bergantian untuk menjelaskan

Lebih terperinci

BAB I PENDAHULUAN. diwilayah jawa timur. Dengan jumlah penduduk pada tahun 2010 sebanyak

BAB I PENDAHULUAN. diwilayah jawa timur. Dengan jumlah penduduk pada tahun 2010 sebanyak BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Malang merupakan kota metropolitan ke dua dari kota surabaya yang ada diwilayah jawa timur. Dengan jumlah penduduk pada tahun 2010 sebanyak 820.243 jiwa, dengan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data mining merupakan serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata dengan melakukan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 7 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan penerapan algoritma hierarchical clustering dan k-means untuk pengelompokan desa tertinggal.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Faktor penentu bagi usaha atau bisnis apapun pada masa sekarang ini adalah kemampuan untuk menggunakan informasi seefektif mungkin. Penggunaan data secara tepat karena

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

PENERAPAN ALGORITMA K MEANS UNTUK PENENTUAN PENCOCOKAN PEWARNAAN CLUSTERING SECARA OTOMATIS PADA PRODUK FASHION

PENERAPAN ALGORITMA K MEANS UNTUK PENENTUAN PENCOCOKAN PEWARNAAN CLUSTERING SECARA OTOMATIS PADA PRODUK FASHION Konferensi Nasional Ilmu Sosial & Teknologi (KNiST) Maret 2016, pp. 590~595 PENERAPAN ALGORITMA K MEANS UNTUK PENENTUAN PENCOCOKAN PEWARNAAN CLUSTERING SECARA OTOMATIS PADA PRODUK FASHION 590 Indra Gunawan

Lebih terperinci

IMPLEMENTASI DENSITY BASED SPATIAL CLUSTERING APPLICATION WITH NOISE (DBSCAN) DALAM PERKIRAAN TERJADI BANJIR DI BANDUNG

IMPLEMENTASI DENSITY BASED SPATIAL CLUSTERING APPLICATION WITH NOISE (DBSCAN) DALAM PERKIRAAN TERJADI BANJIR DI BANDUNG IMPLEMENTASI DENSITY BASED SPATIAL CLUSTERING APPLICATION WITH NOISE (DBSCAN) DALAM PERKIRAAN TERJADI BANJIR DI BANDUNG Bima Aryo Putro¹, Kemas Rahmat Saleh Wiharja², Shaufiah³ ¹Teknik Informatika,, Universitas

Lebih terperinci

BAB II LANDASAN TEORI. Teori teori yang digunakan sebagai landasan dalam desain dan. implementasi dari sistem ini adalah sebagai berikut :

BAB II LANDASAN TEORI. Teori teori yang digunakan sebagai landasan dalam desain dan. implementasi dari sistem ini adalah sebagai berikut : BAB II LANDASAN TEORI Teori teori yang digunakan sebagai landasan dalam desain dan implementasi dari sistem ini adalah sebagai berikut : 2.1. Sistem Informasi Manajemen Sistem Informasi Manajemen adalah

Lebih terperinci

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage

DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage 61 DSS untuk Menganalisis ph Kesuburan Tanah Menggunakan Metode Single Linkage Abdi Pandu Kusuma, Rini Nur Hasanah, dan Harry Soekotjo Dachlan Abstrak - ph tanah merupakan ukuran jumlah ion hidrogen dalam

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1. Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di lakukan oleh Muhammad Toha dkk (2013), Sylvia Pretty Tulus (2014), Johan

Lebih terperinci

DATA MINING. Pertemuan 9. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

DATA MINING. Pertemuan 9. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi DATA MINING 3 SKS Semester 6 S1 Sistem Informasi Pertemuan 9 Nizar Rabbi Radliya nizar.radliya@yahoo.com Universitas Komputer Indonesia 2016 Clustering Data Mining Penklusteran (clustering) digunakan untuk

Lebih terperinci

Pencocokan Citra Berbasis Graph untuk Pengenalan dan Pemilihan Kembali (Retrieval) Oleh: Yureska Angelia ( )

Pencocokan Citra Berbasis Graph untuk Pengenalan dan Pemilihan Kembali (Retrieval) Oleh: Yureska Angelia ( ) Pencocokan Citra Berbasis Graph untuk Pengenalan dan Pemilihan Kembali (Retrieval) Oleh: Yureska Angelia (867) Dosen Pembimbing Dr. Ir. Wirawan, DEA Latar Belakang Teknik pemodelan struktur graph telah

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya. BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Pustaka Salah satu cara untuk mengetahui faktor nilai cumlaude mahasiswa Fakultas Teknik Universitas Muhammadiyah Yogyakarta adalah dengan menerapkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Traveling Salesmen Problem (TSP) Travelling Salesman Problem (TSP) merupakan sebuah permasalahan optimasi yang dapat diterapkan pada berbagai kegiatan seperti routing. Masalah

Lebih terperinci

K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN

K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN 1 K-PROTOTYPE UNTUK PENGELOMPOKAN DATA CAMPURAN Rani Nooraeni*, Dr. Jadi Supriadi, DEA, Zulhanif, S.Si,M.Sc Jurusan statistika terapan, Fakultas MIPA UNPAD rnooraeni@gmail.com* Abstrak.Membagi suatu data

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan Perkembangan teknologi informasi yang semakin pesat berdampak pada terjadinya penurunan substansial dalam biaya penyimpanan data, peningkatan pesat

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 DATA MINNING Data mining merupakan proses pengekstrakan informasi dari jumlah kumpulan data yang besar dengan menggunakan algoritma dan tehnik gambar dari statistik, mesin pembelajaran

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis cluster

Lebih terperinci

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode BAB III K-MEANS CLUSTERING 3.1 Analisis Klaster Analisis klaster merupakan salah satu teknik multivariat metode interdependensi (saling ketergantungan). Oleh karena itu, dalam analisis klaster tidak ada

Lebih terperinci

Penerapan Algoritma K-Means untuk Clustering

Penerapan Algoritma K-Means untuk Clustering Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah

Lebih terperinci

Metode Pengclusteran Berbasis Densitas Menggunakan Algoritma DBSCAN Methods of Density-Based Clustering Algorithm using DBSCAN

Metode Pengclusteran Berbasis Densitas Menggunakan Algoritma DBSCAN Methods of Density-Based Clustering Algorithm using DBSCAN Prosiding Statistika ISSN: 2460-6456 Metode Pengclusteran Berbasis Densitas Menggunakan Algoritma DBSCAN Methods of Density-Based Clustering Algorithm using DBSCAN 1 Nur Arsih, 2 Nusar Hajarisman, 3 Sutawanir

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Konsep Clustering dalam Data Mining Konsep dasar data mining adalah menemukan informasi tersembunyi dalam sebuah basis data dan merupakan bagian dari Knowledge Discovery in

Lebih terperinci

BAB I PENDAHULUAN A. Latar Belakang

BAB I PENDAHULUAN A. Latar Belakang BAB I PENDAHULUAN A. Latar Belakang Promosi adalah salah satu faktor yang diperlukan bagi keberhasilan bagi suatu perusahaan atau organisasi, maka promosi merupakan salah satu senjata ampuh bagi perusahaan

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

PERBANDINGAN HASIL PENGGEROMBOLAN K-MEANS, FUZZY K- MEANS, DAN TWO STEP CLUSTERING. Lathifaturrahmah

PERBANDINGAN HASIL PENGGEROMBOLAN K-MEANS, FUZZY K- MEANS, DAN TWO STEP CLUSTERING. Lathifaturrahmah JPM IAIN Antasari Vol. 02 No. 1 Juli Desember 2014, h. 39-62 PERBANDINGAN HASIL PENGGEROMBOLAN K-MEANS, FUZZY K- MEANS, DAN TWO STEP CLUSTERING Abstrak Analisis gerombol merupakan salah satu metode peubah

Lebih terperinci

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014 2014 Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014 Bab 1. Data Mining 1.1 Pengertian Data Mining Data Mining adalah kegiatan yang meliputi pengumpulan dan penggunaan

Lebih terperinci

Tugas Akhir Pengembangan Perangkat Lunak Berbasis Suara Ucapan untuk Membuka dan Mencetak Dokumen

Tugas Akhir Pengembangan Perangkat Lunak Berbasis Suara Ucapan untuk Membuka dan Mencetak Dokumen Tugas Akhir Pengembangan Perangkat Lunak Berbasis Suara Ucapan untuk Membuka dan Mencetak Dokumen Oleh: Abd. Wahab 1208100064 Pembimbing: Drs. Nurul Hidayat, M.Kom 19630404 198903 1 002 BAB1 Pendahuluan

Lebih terperinci

BAB I PENDAHULUAN. Sekarang ini penelitian sering kali melibatkan beberapa variabel

BAB I PENDAHULUAN. Sekarang ini penelitian sering kali melibatkan beberapa variabel BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Sekarang ini penelitian sering kali melibatkan beberapa variabel pengamatan. Data yang diperoleh dengan mengukur lebih dari satu variabel pengamatan pada setiap

Lebih terperinci

Perbandingan Kinerja Fuzzy C-Means dan DBSCAN Dalam Segmentasi Citra USG Kepala Janin

Perbandingan Kinerja Fuzzy C-Means dan DBSCAN Dalam Segmentasi Citra USG Kepala Janin JURNAL SISTEM DAN INFORMATIKA Perbandingan Kinerja Fuzzy C-Means dan DBSCAN Dalam Segmentasi Citra USG Kepala Janin Putu Desiana Wulaning Ayu STMIK STIKOM Bali Jl. Raya Puputan no.86 Renon Denpasar e-mail:

Lebih terperinci

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN Fauziah Nur1, Prof. M. Zarlis2, Dr. Benny Benyamin Nasution3 Program Studi Magister Teknik Informatika, Universitas

Lebih terperinci

Gambar 3.1 Contoh Citra yang digunakan

Gambar 3.1 Contoh Citra yang digunakan BAB III DATASET DAN RANCANGAN PENELITIAN Pada bab ini dijelaskan tentang dataset citra yang digunakan dalam penelitian ini serta rancangan untuk melakukan penelitian. 3.1 DATASET PENELITIAN Penelitian

Lebih terperinci

Implementasi Algoritma K-Means Dalam Keputusan Pemberian Beasiswa (Studi Kasus SMA Santo Bernadus Pekalongan) Artikel Ilmiah

Implementasi Algoritma K-Means Dalam Keputusan Pemberian Beasiswa (Studi Kasus SMA Santo Bernadus Pekalongan) Artikel Ilmiah Implementasi Algoritma K-Means Dalam Keputusan Pemberian Beasiswa (Studi Kasus SMA Santo Bernadus Pekalongan) Artikel Ilmiah Peneliti: Valentino Giarto (672011005) Magdalena A. Ineke Pakereng, M.Kom. Program

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

BAB I PENDAHULUAN. secara manual dari suatu kumpulan data. Defenisi lain data mining adalah sebagai

BAB I PENDAHULUAN. secara manual dari suatu kumpulan data. Defenisi lain data mining adalah sebagai BAB I PENDAHULUAN I.1. Latar Belakang Data mining merupakan serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual dari

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Bab ini berisi landasan teori dalam penelitian mengenai aplikasi algoritma spasial clustering pada data mahasiswa baru. Pembahasan diawali dengan penjelasan secara umum mengenai data

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci