1 BAB I PENDAHULUAN 1.1. Latar Belakang Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering digunakan secara luas di dalam berbagai bidang seperti social network analysis, software engineering, dan crime detection. Terdapat beberapa algoritma clustering yang dapat digunakan, tetapi algoritma K-Means dan Fuzzy C-Means adalah algoritma yang umum digunakan karena cukup sederhana (Bai et al., 2011). Clustering adalah merupakan salah satu kelompok dari data mining (Larose, 2006). Pada algoritma K-Means, penentuan jumlah cluster dan penentuan centroid (pusat) merupakan hal yang cukup sulit untuk dilakukan. Penentuan jumlah cluster dan penentuan centroid (pusat) mempengaruhi secara langsung kualitas dari proses clustering (Maitra, et al., 2010). Algoritma K-Means klasik secara umum memerlukan inputan dari user untuk menentukan jumlah dari cluster, kemudian akan secara random menentukan posisi centroid untuk tiap cluster yang ada dan kemudian akan menempatkan suatu data ke dalam suatu cluster berdasarkan kedekatan jarak yang ada. Penelitian yang dilakukan oleh Li et al. (2015) mengenai metode K-Means Global Optimal membahas mengenai proses partisi cluster yang ada menjadi beberapa bagian untuk mencegah agar K-Means terjebak ke dalam kondisi local optima. Penelitian mengenai penentuan centroid sendiri juga sangat menarik perhatian sejumlah peneliti. Proses penentuan centroid merupakan proses yang melibatkan sejumlah iterasi hingga diperoleh hasil yang maksimal. Posisi centroid yang baru untuk tiap cluster akan
2 berubah sepanjang iterasi dan diperoleh berdasarkan rata-rata koordinat dari data-data yang dikelompokkan ke dalam cluster tersebut (Rahman dan Islam, 2014). Sejumlah peneliti telah melakukan penelitian mengenai penentuan centroid pada algoritma K-Means. Ahmad dan Dey (2007) menggunakan konsep fuzzy di dalam penentuan centroid. Proses penentuan centroid akan dilakukan dengan cara membangkitkan bilangan acak untuk centroid tiap cluster. Nilai acak tersebut kemudian akan masuk ke dalam tahapan inferensi dan kemudian hasil defuzzifikasi akan menjadi nilai centroid tiap cluster. Cara penentuan centroid ini hampir sama dengan penentuan centroid dengan cara random dan tingkat keakuratannya belum teruji untuk dataset berukuran besar. Cara penentuan centroid yang sama pernah dilakukan oleh Rahman dan Islam (2012) di dalam penentuan centroid untuk fuzzy clustering. Cao et al. (2009) melakukan penentuan centroid berdasarkan nilai frekuensi dari data. Nilai frekuensi dari data menggambarkan nilai rata-rata dari posisi nilai atribut dari tiap data yang ada pada suatu cluster. Kelemahan dari metode ini adalah data-data di dalam suatu cluster harus memiliki nilai atribut yang tidak memiliki perbedaan terlalu besar. Apabila terdapat perbedaan nilai atribut yang terlalu besar, tentu hasil clustering tidak memberikan hasil yang baik. Rahman dan Islam (2014) mengemukakan metode Hybrid Clustering yang dikenal sebagai GenClust yang menggabungkan pemakaian algoritma K-Means dengan Algoritma Genetika. Algoritma Genetika digunakan untuk menentukan jumlah cluster dan juga centroid dari tiap cluster. Penggunaan metode GenClust dapat menghindarkan algoritma K-Means di dalam terjebak di dalam kondisi local optima. Algoritma genetika merupakan salah satu model soft computing yang sering digunakan dalam menyelesaikan permasalahan optimasi. Dalam algoritma genetika terdapat tiga parameter penting yang harus didefinisikan yaitu ukuran populasi, probabilitas pindah silang dan probabilitas mutasi. Ketiga parameter ini harus didefinisikan secara hati-hati agar tidak terjadi konvergensi dini atau lokal optimum yaitu dimana individuindividu dalam populasi konvergen pada suatu solusi optimum lokal sehingga hasil paling optimum tidak dapat ditemukan (Muzid, 2014). Metode GenClust dipandang cukup baik untuk menentukan jumlah cluster dan juga centroid dari tiap cluster karena memungkinkan terjadinya peningkatan performa clustering untuk tiap generasi. Namun, yang perlu menjadi pertimbangan adalah percobaan yang dilakukan oleh Rahman dan Islam (2014) menggunakan 50%
3 kromosom diperoleh melalui perhitungan deterministic dan 50% kromosom diperoleh melalui bilangan acak. Rahman dan Islam (2014) pada bagian akhir penelitian menyatakan bahwa metode GenClust akan mengalami kendala komputasi ketika diterapkan pada dataset berukuran besar. Oleh karena itu, Rahman dan Islam (2014) pada akhir penelitiannya menyarankan untuk mengambil sample data pada dataset dan mengimplementasikan GenClust untuk mendapatkan best chromosome dan kemudian mengimplementasikannya sebagai initial centroid pada K-Means. Namun, belum ada penelitian lanjutan yang membahas mengenai perbandingan performance dari metode GenClust dan metode GenClust yang telah dimodifikasi sesuai dengan saran dari Rahman dan Islam (2014). Penelitian ini akan membahas mengenai perbandingan antara metode GenClust, metode GenClust yang dimodifikasi dan juga K-Means klasik di dalam penentuan centroid khususnya di dalam perbandingan untuk mengukur nilai performance yang diukur dari Mean Square Error yang terjadi untuk suatu dataset. 1.2. Rumusan Masalah Penempatan suatu data di dalam suatu dataset pada algoritma K-Means didasarkan pada kedekatan data tersebut dengan centroid dari tiap cluster, sehingga nilai centroid sangat berpengaruh terhadap hasil clustering dengan menggunakan algoritma K-Means. Permasalahannya adalah pada algoritma K-Means penentuan centroid dilakukan dengan membangkitkan bilangan acak, sehingga hasil clustering dapat menunjukkan hasil yang kurang baik. Penelitian ini akan menggunakan metode GenClust yang telah dimodifikasi, di mana kromosom yang digunakan seluruhnya diperoleh melalui perhitungan deterministik. Melalui penelitian ini akan diperoleh perbandingan kinerja yang dinyatakan di dalam nilai Mean Square Error (MSE) antara algoritma K-Means klasik, metode GenClust, dan juga metode GenClust yang telah dimodifikasi. Semakin kecil nilai Mean Square Error (MSE) berarti semakin baik kinerja dari algoritma K- Means yang diperoleh.
4 1.3. Batasan Masalah Sehubungan dengan luasnya permasalahan dan adanya keterbatasan waktu dan pengetahuan peneliti, maka peneliti membatasi masalah yang akan dibahas di dalam penelitian ini sebagai berikut. 1. Penelitian ini akan membahas pengaruh dari penentuan jumlah cluster dan juga centroid pada suatu dataset berukuran besar dengan melakukan perbandingan antara metode GenClust dengan algoritma K-Means klasik. 2. Perbandingan kinerja di dalam penelitian ini didasarkan pada nilai Mean Square Error yang diperoleh pada setiap generasi (iterasi). 1.4. Tujuan Penelitian Tujuan dari penelitian ini adalah menghasilkan perbandingan kinerja yang dinyatakan dalam Mean Square Error yang dipengaruhi oleh penentuan centroid pada metode K- Means dengan menggunakan metode GenClust, metode GenClust yang dimodifikasi dan juga K-Means klasik. 1.5. Manfaat Penelitian Adapun manfaat dari penelitian adalah sebagai berikut. 1. Melalui penelitian ini peneliti akan memperoleh hasil analisis mengenai keterkaitan antara jumlah cluster dan penentuan centroid terhadap hasil clustering. 2. Mengetahui pencapaian kinerja yang diperoleh dengan menggunakan metode GenClust bila dibandingkan dengan menggunakan algoritma K-Means klasik. 1.6. Sistematika Penulisan Penyusunan tesis ini menggunakan kerangka pembahasan yang terbentuk dalam susunan bab yang dapat dijelaskan sebagai berikut. BAB I : PENDAHULUAN Bab ini berisikan tentang latar belakang masalah, rumusan masalah, batasan masalah, tujuan dan manfaat penelitian serta sistematika penulisan.
5 BAB II : TINJAUAN PUSTAKA Bab ini berisikan tentang landasan teori yang mendukung penelitian yang akan dilakukan. BAB III : METODOLOGI PENELITIAN Bab ini berisikan tentang data yang digunakan dan metode yang digunakan di dalam pelaksanaan penelitian. BAB IV : HASIL DAN PEMBAHASAN Bab ini berisi tentang pemaparan mengenai hasil penelitian dan pembahasan mengenai hasil yang diperoleh. BAB V : KESIMPULAN DAN SARAN Bab ini berisi tentang kesimpulan yang diperoleh dari hasil penelitian dan saran yang dapat diberikan kepada pembaca maupun peneliti yang akan melanjutkan penelitian sejenis.