PREDIKSI NILAI DENGAN METODE SPECTRAL CLUSTERING DAN CLUSTERWISE REGRESSION

dokumen-dokumen yang mirip
PREDIKSI NILAI DENGAN METODE SPECTRAL CLUSTERING DAN CLUSTERWISE REGRESSION

Pengembangan Perangkat Lunak Prediktor Nilai Mahasiswa Menggunakan Metode Spectral Clustering dan Bagging Regresi Linier

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE

BAB III METODOLOGI PENELITIAN. Dataset

KLASIFIKASI DATA MULTIDIMENSI MENGGUNAKAN SUBTRACTIVE CLUSTERING DAN K-NEAREST NEIGHTBOR

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DATA ANGGARAN PENDAPATAN BELANJA DAERAH DI KABUPATEN XYZ

PREDIKSI PELAPORAN PENCURIAN KENDARAAN BERMOTOR BERBASIS LINIER REGRESI BERGANDA DI KOTA SEMARANG

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB III. METODOLOGI. kegiatan manusia membuat penelitian dengan domain teknik informatika

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

PEMODELAN DAN SIMULASI TINGGI GENANGAN BANJIR DI KECAMATAN GUBENG KOTA SURABAYA MENGGUNAKAN SISTEM INFORMASI GEOGRAFIS

BAB I PENDAHULUAN Latar Belakang

Perbandingan Akurasi Backpropagation Neural Network dan ANFIS Untuk Memprediksi Cuaca

K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN

1. PENDAHULUAN. Kata Kunci: Data Mining, Clustering, Fuzzy C-Means

ANALISIS KINERJA ALGORITMA CLUSTERING FUZZY TSUKAMOTO DENGAN FUZZY C-MEANS

IMPUTASI MISSING DATA MENGGUNAKAN METODE K-NEAREST NEIGHBOUR DENGAN OPTIMASI ALGORITMA GENETIKA. Abidatul Izzah 1) Nur Hayatin 2) 1)

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR

Algoritma Dasar. 4.1 Naive Bayes

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika (SESIOMADIKA) 2017 ISBN: Statistika, hal

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

PREDIKSI HARGA SAHAM MENGGUNAKAN JARINGAN SYARAF TIRUAN BACKPROPAGATION

BAB 2 LANDASAN TEORI

PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING

BAB III FUZZY QUANTIFICATION THEORY II

ADLN - Perpustakaan Universitas Airlangga ABSTRAK. viii

1.2 Rumusan Masalah 1.3 Batasan Masalah 1.4 Tujuan Penelitian

Optimalisasi Neural Network dengan Bootstrap Aggregating (Bagging) untuk Penentuan Prediksi Harga Listrik

PERAMALAN JUMLAH KENDARAAN DI DKI JAKARTA DENGAN JARINGAN BACKPROPAGATION

PERBANDINGAN ANTARA MODEL NEURAL NETWORK DAN MODEL DUANE UNTUK EVALUASI KETEPATAN PREDIKSI WAKTU KERUSAKAN SUATU KOMPONEN

DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO

Model Aplikasi Penentuan Jenis Beasiswa Berbasis Algoritma K-NN Termodifikasi

BAB 2 TINJAUAN PUSTAKA

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

BAB III METODE PENELITIAN

Imputasi Missing data Menggunakan Algoritma Pengelompokan Data K-Harmonic Means

Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

Spektrum Graf Hyperoctahedral Melalui Matriks Sirkulan Dengan Visual Basic 6.0

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

KLUSTER K-MEANS DATA MAHASISWA BARU TERHADAP PROGRAM STUDI YANG DIPILIH

ABSTRAK. Kata Kunci : Artificial Neural Network(ANN), Backpropagation(BP), Levenberg Marquardt (LM), harga emas, Mean Squared Error(MSE), prediksi.

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 2 TINJAUAN PUSTAKA

SISTEM PENUNJANG KEPUTUSAN DAN TEKNIK DATA MINING UNTUK PENENTUAN WILAYAH PENERIMA BANTUAN

ISSN: X 77 IMPUTASI MISSING DATA DENGAN K-NEAREST NEIGHBOR DANALGORITMA GENETIKA

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

PEMODELAN KINERJA LEMBAGA PERANGKAT DAERAH

SYSTEM IDENTIFIKASI GANGGUAN STROKE ISKEMIK MENGGUNAKAN METODE OTSU DAN FUZZY C-MEAN (FCM)

Klasterisasi Wilayah Pemasaran berdasarkan Preferensi Konsumen terhadap PT. X

PENDAHULUAN TINJAUAN PUSTAKA

PENYELESAIAN ASYMMETRIC TRAVELLING SALESMAN PROBLEM DENGAN ALGORITMA HUNGARIAN DAN ALGORITMA CHEAPEST INSERTION HEURISTIC.

PENGELOMPOKAN CITRA WAJAH DENGAN TEKNIK SUBSPACE CLUSTERING MENGGUNAKAN ALGORITMA LSA SC (LOCAL SUBSPACE AFFINITY SPECTRAL CLUSTERING)

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB III K-MEDIANS CLUSTERING

PENERAPAN ALGORITMA K-MEANS UNTUK MENENTUKAN TINGKAT KESEHATAN BAYI DAN BALITA PADA KABUPATEN DAN KOTA DI JAWA TENGAH

HALAMAN SAMPUL SKRIPSI PENGENALAN POLA TELAPAK TANGAN DENGAN MENGGUNAKAN ALGORITMA BACK PROPAGATION NEURAL NETWORK

PERANCANGAN PARAMETER TERBAIK UNTUK PREDIKSI PRODUKSI BAN GT3 MENGGUNAKAN JARINGAN SYARAF TIRUAN RESILIENT PROPAGATION

Implementasi Algoritme Fuzzy K-Nearest Neighbor untuk Penentuan Lulus Tepat Waktu (Studi Kasus : Fakultas Ilmu Komputer Universitas Brawijaya)

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

PREDIKSI OUTLIER MENGGUNAKAN DATA TEPI CLUSTER UNTUK MENINGKATKAN KUALITAS PENGETAHUAN HASIL DATA MINING

PREDIKSI PERMINTAAN KREDIT MENGGUNAKAN METODE ADAPTIVE NEURO FUZZY INFERENCE SYSTEM (ANFIS) SKRIPSI SAMUEL ANTHONIUS MADUWU

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

PENGELOMPOKAN DAN ANALISIS PELANGGAN DENGAN MENGGUNAKAN FUZZY C-MEANS CLUSTERING

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA

HASIL DAN PEMBAHASAN. Data

PENGELOMPOKAN NASABAH BANK MENGGUNAKAN ALGORITMA K- MEANS UNTUK MEMBERIKAN PENAWARAN YANG TEPAT

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

PERBANDINGAN HASIL KLASIFIKASI ANALISIS DISKRIMINAN DAN JARINGAN SYARAF TIRUAN

BAB II TINJAUAN PUSTAKA

Deteksi Dini Penyakit Gagal Ginjal menggunakan Gabungan Genetic Algorithm dan Fuzzy K-Nearest Neighbor (GAFKNN)

PERENCANAAN DAN PEMBUATAN PERANGKAT LUNAK JARINGAN SARAF BUATAN UNTUK MERAMALKAN NILAI KESEHATAN SENTRAL TELEPON DI SUATU SENTRAL TELEPON

BAB I PENDAHULUAN Latar Belakang

Model Prediksi Berbasis Neural Network untuk Pengujian Perangkat Lunak Metode Black-Box

KLASIFIKASI KEIKUTSERTAAN KELUARGA DALAM PROGRAM KELUARGA BERENCANA (KB) DI KOTA SEMARANG MENGGUNAKAN METODE MARS DAN FK-NNC

PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN METODE KLASTERING DENGAN ALGORITMA K-MEANS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA PROGRAM STUDI TEKNIK INFORMATIKA STRATA SATU

KLASIFIKASI KELOMPOK RUMAH TANGGA DI KABUPATEN BLORA MENGGUNAKAN MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) DAN FUZZY K-NEAREST NEIGHBOR (FK-NN)

Optimasi Permasalahan Penugasan Dokter Menggunakan Representasi Graf Bipartit Berbobot

Oleh : Rahanimi Pembimbing : Dr. M Isa Irawan, M.T

BAB III METODOLOGI PENELITIAN

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

SKRIPSI. Disusun Oleh : DINI PUSPITA JURUSAN STATISTIKA FAKULTAS SAINS DAN MATEMATIKA UNIVERSITAS DIPONEGORO SEMARANG

Penggunaan Deep Learning untuk Prediksi Churn pada Jaringan Telekomunikasi Mobile Fikrieabdillah

Data Mining II Estimasi

Ahmad Mauliyadi M, Hizir Sofyan, dan Muhammad Subianto. Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Syiah Kuala

Implementasi Jaringan Syaraf Tiruan Backpropagation dan Steepest Descent untuk Prediksi Data Time Series

IMPLEMENTASI PENGENALAN WAJAH MENGGUNAKAN ALGORITMA PRINCIPAL COMPONENT ANALYSIS(PCA) DAN IMPROVED BACKPROPAGATION

PERBANDINGAN METODE PEMULUSAN EKSPONENSIAL TUNGGAL DAN FUZZY TIME SERIES UNTUK MEMPREDIKSI INDEKS HARGA SAHAM GABUNGAN

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

Transkripsi:

Ahmad Yusuf & Handayani Tandrasa, Prediksi Nilai dengan Vol. 4, No. 1 Juni 014 ISSN 088-130 PREDIKSI NILAI DENGAN METODE SPECTRAL CLUSTERING DAN CLUSTERWISE REGRESSION Ahmad Yusuf 1*), Handayani Tandrasa 1) 1) Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya, Indonesia *) ahmad.yusuf.its@gmail.com ABSTRAK Prediksi nilai adalah hal yang terus dikembangkan dalam penggalian data. Regresi linier merupakan metode dasar dalam memprediksi nilai berdasar variabel-variabel pada data. Salah satu hal yang mempengaruhi kualitas dari hasil regresi adalah persebaran data latih. Data latih terkadang membuat persamaan regresi kurang optimal. Hal ini dapat diantisipasi dengan mengelompokkan data terlebih dahulu kemudian membangun model regresi dari masingmasing kelompok. Pengelompokan data dilakukan dengan menggunakan algoritma Spectral Clustering, sedangkan model regresi dibangun dengan algoritma Clusterwise Regression. Hasil prediksi merupakan hasil perkalian keanggotaan fuzzy data ui dengan persamaan regresi pada masing-masing kelompok. Metode ini diuicobakan terhadap beberapa dataset yang bervariasi yang dibandingkan dengan metode regresi linear biasa. Ukuran penguian yang digunakan adalah Root Mean Square Error yang menghitung kesalahan dari hasil prediksi. Semakin kecil nilai RMSE suatu metode maka metode tersebut semakin baik. Berdasar pada ui coba yang dilakukan, penggunaan metode yang diusulkan mampu memprediksi nilai dengan kesalahan sekitar 3 sampai 6 persen. Parameter umlah cluster uga berpengaruh terhadap hasil prediksi yaitu berbanding terbalik dengan nilai RMSE. Kata kunci: Clusterwise Regression, Pengelompokan, Penggalian Data, Prediksi, Regresi, Spectral Clustering. ABSTRACT Predicted values are continuously being developed in data mining. Linear regression is a basic method for predicting the value of variables based on the data. One that affects the quality of the regression is the spread of the data training. Data training sometimes make less optimal regression model. It can be anticipated by clustering the data first and then building the regression model of each cluster. We are using Spectral Clustering for clustering data, whereas regression model is built with Clusterwise Regression algorithm. The prediction result is obtained by multiplying fuzzy membership data testing with the result of regression equation in each group. This method is tested against several variations dataset compared to standard linear regression methods. Measure of the test used is Root Mean Square Error that computes the error of the predicted results. The smaller the RMSE value indicates the method is the better method in predictioning value. Based on experiments performed, the proposed method is able to predict the score with the error about 3 6 percent. Number of clusters as parameter affects the prediction, which is inversely proportional to the value of RMSE. Keywords: Clusterwise Regression, Clustering, Data Mining, Prediction, Regression, Spectral Clustering 1

Jurnal Ilmiah SimanteC Vol. 4, No. 1 Juni 014 PENDAHULUAN Salah satu aplikasi data mining adalah prediksi nilai dari seumlah variabel data tertentu. Model yang umumnya digunakan dalam prediksi nilai adalah Regresi Linier. Dengan regresi akan didapatkan nilai prediksi sesuai dengan variabel-varibel yang mempengaruhi pada data. Hanya saa permasalahannya kualitas regresi biasanya tergantung pada model training. Persebaran data yang tidak merata pada data training dapat menyebabkan model regresi yang dibentuk kurang akurat, sehingga prediksi yang dihasilkan kurang baik. Persamaan regresi dapat diperbaiki dengan mengelompokkan data dalam membangun model regresi. Dengan data yang lebih seragam diharapkan dapat membentuk model regresi yang lebih baik. Pemodelan regresi dengan pengelompokan data selanutnya disebut dengan Clusterwise Regression [1,]. Pada metode Clusterwise Regression, inisialisasi cluster dilakukan secara acak [1]. Hal ini dapat menyebabkan komputasi dalam pembentukan model regresi cukup besar untuk mencapai konvergen. Oleh karena itu, sebaiknya dilakukan inisialisasi cluster dalam pemodelan Clusterwise Regression selanutnya. Salah satu cara dalam inisialisasi cluster adalah dengan metode Clustering. Algoritma Clustering yang sangat umum digunakan adalah K- Means Clustering. Metode K-means mudah dalam implementasi serta memiliki waktu komputasi yang cukup cepat. Tetapi metode ini mempunyai kelemahan dalam menganalisis persebaran data serta bergantung pada inisialisasi centroid. K-means hanya melihat arak data ke masing-masing centroid pada setiap cluster [3]. Salah satu metode Clustering lain yang pernah dikembangkan dalam memperbaiki akurasi regresi adalah Spectral Clustering. Spectral Clustering mengelompokkan data berdasarkan kesamaan dari tiap data [3]. Penelitian ini bertuuan untuk membangun model yang mampu melakukan prediksi nilai dengan metode Clusterwise Regression dan Spectral Clustering. Pada penelitian ini dilakukan pengoptimalan model prediksi dengan melakukan inisialisasi cluster dalam pemodelan regresi dan melakukan pembobotan pada tahap regresi menggunakan metode Clusterwise Regression. Hasil algoritma ini nantinya dapat digunakan dalam memprediksi nilai dalam berbagai bidang misalnya pendidikan (prediksi nilai siswa, dsb), ekonomi (prediksi nilai saham, dsb), dan lain-lain. DATA Data masukan pada penelitian ini adalah kumpulan data yang berasal dari berbagai sumber dimana variabel yang diprediksi bersifat kontinu. Pada penelitian ini digunakan 5 dataset, dataset merupakan data nilai praktikum mahasiswa dan 3 sisanya merupakan dataset yang bersumber dari uci dataset repository [4]. Dataset yang digunakan dapat dilihat pada Tabel 1. Dataset 1 dan merupakan nilai praktikum struktur data yang berisi nilai modul-modul praktikum sebagai nilai prediktor dan satu nilai proyek akhir sebagai variabel respon. Dataset 3, 4, dan 5 merupakan dataset yang bersumber dari uci dataset repository yang bersifat data regresi. Dataset Auto MPG (dataset 3) adalah data penggunaan bahan bakar yang dihitung dengan satuan mpg (miles per gallon) [4]. Atribut mpg merupakan nilai penggunaan bahan bakar yang merupakan variabel respon dari dataset tersebut. Tuuh atribut lainnya merupakan atribut prediktor yang mempengaruhi penggunaan bahan bakar yang meliputi silinder yang digunakan kendaraan, tenaga kuda dari kendaraan, dan sebagainya. Atribut nama mobil tidak digunakan dalam penelitian ini karena bernilai string yang berbeda-beda dari setiap record pada Dataset Auto MPG.

Ahmad Yusuf & Handayani Tandrasa, Prediksi Nilai dengan Tabel 1 Dataset yang digunakan pada penelitian No Dataset Jumlah Record Jumlah Atribut Missing Value 1 Nilai Praktikum Struktur 180 6 Tidak Ada Data Teknik Informatika ITS 008/009 Nilai Praktikum Struktur 153 4 Tidak Ada Data Teknik Informatika ITS 010/011 3 Data Auto MPG - UCI 398 8 Ada 4 Data Housing UCI 506 14 Tidak Ada 5 Data Computer Hardware UCI 09 8 Tidak Ada Dataset ke-4 adalah dataset Housing yang merupakan data nilai kepemilikan rumah di sebagian wilayah Boston, Amerika Serikat [4]. Dataset Housing terdiri dari 13 atribut kontinu dan 1 atribut yang bersifat diskrit. Variabel respon dari dataset ini adalah nilai median kepemilikan rumah pada suatu kota dalam satuan 1000 US Dollar yang ditunukkan pada atribut MEDV. Variabel prediktornya merupakan atribut lainnya antara lain rata-rata keahatan pada kota bersangkutan (CRIM), proporsi tanah residential (ZN), proporsi bisnis non-retail (INDUS), dan sebagainya. Dataset Computer Hardware merupakan dataset ke-5 yang digunakan dalam ui coba pada penelitian ini. Dataset Computer Hardware merupakan data performa relatif dari cpu [4]. Dataset ini terdiri dari 9 atribut, dimana Atribut PRP merupakan performa relatif CPU yang digunakan sebagai variabel respon. Atribut lainnya selain Vendor Name dan Model Name digunakan sebagai variabel prediktor. Atribut Vendor Name dan Model Name tidak digunakan karena memiliki nilai string. Variabel prediktor yang digunakan meliputi cycle time mesin (MYCT), memory minimal (MMIN) dan maksimal (MMAX), dan sebagainya. METODE Tahap Pra Proses Pra proses yang dilakukan adalah penanganan missing value. Nilainilai yang kurang pada data akan diganti dengan rata-rata nilai pada atribut yang bersesuaian ika atribut tersebut merupakan numerik, dan akan diganti dengan modus nilai atribut yang bersesuaian ika nominal. Pada tahap pra proses uga dilakukan normalisasi data. Normalisasi data dilakukan untuk menyeragamkan interval data. Keseragaman data berpengaruh dalam perhitungan matriksmatriks pada data. Normalisasi yang dilakukan merupakan normalisasi kolom/atribut. Normalisasi dilakukan berdasar persamaan 1 xi, min( x ) xi, (1) max( x ) min( x ) i Dimana merupakan nilai normalisasi data pada baris i dan atribut, xi, merupakan data aslinya, dan min(x) merupakan nilai minimal dari atribut, sedangkan max(x) merupakan nilai maksimalnya. Keluaran dari proses normalisasi ini berupa data yang memiliki interval 0 sampai 1. Tahap Clustering Clustering merupakan salah satu metode eksplorasi data yang digunakan dalam mencari pola yang ada pada suatu dataset. Pada umumnya pola tersebut dapat dilihat dari kesamaan sifat, karakteristik, atau ciri dari recordrecord pada dataset [5,6]. Salah satu metode Clustering adalah Spectral Clustering. Pada Spectral Clustering, pengelompokkan didasarkan atas kesamaan antara setiap data. Kesamaan tersebut dilihat dari 3

Jurnal Ilmiah SimanteC Vol. 4, No. 1 Juni 014 keterkaitan antara setiap data. Pada Spectral Clustering akan dibentuk sebuah graf dari data yang ada. Dimana verteks dari graf tersebut merupakan setiap record pada data. Edge-nya berupa hubungan antar data yang biasanya bernilai arak dari dua record yang berhubungan [7]. Langkah-langkah dalam melakukan Spectral Clustering adalah sebagai berikut [3,8]: 1. Kontruksi graf similaritas dari dataset training. verteks pada graf tersebut merupakan representasi dari setiap record pada data training. Bobot dari tiap edge merupakan arak antara satu verteks dengan verteks lainnya. Perhitungan arak antar verteks menggunakan persamaan arak exponential yang tertulis pada persamaan [3]. exp( si s wi ) () Setelah itu, bobot dari setiap edge yang ada dibentuk menadi matriks weight. Dengan begitu matriks weight merupakan representasi graf similaritas dari dataset.. Dari matriks weight dihitung deraat dari setiap verteks dengan menumlahkan bobot dari edge yang terhubung pada verteks yang bersangkutan. Dari deraat verteks tersebut dapat dibentuk matriks degree yang merupakan matriks diagonal yang berisi bobot setiap verteks. 3. Dibentuk normalisasi matriks Laplacian dengan menggunakan matriks weight (W) dan matriks degree (D) yang telah dihitung sebelumnya. Perhitungan matriks Laplacian (L) dengan rumus pada persamaan (3) [9]. L D W (3) 4. Dihitung k eigenvector pertama dari matriks Laplacian, dimana k merupakan parameter umlah cluster. Maka terbentuklah matriks k-eigen yang merupakan k eigenvector permata dari matriks Laplacian. Matriks k-eigen berukuran n x k, variabel n merupakan umlah record pada data masukan. 5. Normalisasi data dengan matriks k- eigen sehingga akan terbentuk k kolom yang merepresentasikan setiap nilai normalisasi eigen pada setiap kolomnya. 6. Hasil dari data normalisasi kemudian di-cluster dengan K-Means Clustering. Data normalisasi mewakili masukan data latih. Data latih ke-i akan dimasukkan pada suatu cluster ika dan hanya ika data hasil normalisasi ke-i masuk pada cluster yang sama. Mulai Data Latih Jumlah Cluster (k) Konstruksi graph similaritas Konstruski matriks Bobot Konstruksi matriks Laplacian Konstruksi matriks k-eigen Normalisasi matriks k-eigen Cluster matriks k-eigen dengan K- Means Clustering Data yang tercluster Selesai Gambar 1 Diagram Alir Algoritma Spectral Clustering 4

Ahmad Yusuf & Handayani Tandrasa, Prediksi Nilai dengan Mulai Data yang sudah ter-cluster Pemodelan regresi masing-masing cluster Hitung kesalahan prediksi data dengan fungsi regresi Perbarui keanggotaan data Fungsi Obektif Y k model regresi Selesei Gambar Diagram Alir Algoritma Clusterwise Regression Tahap Regresi Selanutnya dari masing-masing cluster yang dihasilkan akan diproses dengan Clusterwise Regression. Pada tahap regresi masukan berupa data yang telah terkelompokkan dalam k cluster. Pada tahap tersebut akan dihasilkan k model regresi yang dapat digunakan pada tahap selanutnya yaitu tahap ui. Clusterwise Regression merupakan metode regresi yang menggunakan lebih dari satu persamaan regresi pada tahap latih. Data latih akan dikelompokkan terlebih dahulu sehingga masing-masing kelompok akan dibentuk persamaan regresi. Langkah-langkah dari algoritma Clusterwise Regression adalah sebagai berikut [1,]: 1. Data dibagi menadi kelompok awal Q1, Q,, Qk. Masing-asing kelompok dibangun persamaan regresi linier. 3. Masing-masing data latih akan dihitung nilai kesalahan yang paling kecil dari persamaan regresi yang ada sesuai dengan persamaan 4. Min Z K k1 k k X b y k 4. Ubah keanggotaan kelompok pada masing-masing data berdasarkan dengan kesalahan prediksi yang minimal. 5. Ulangi langkah sampai fungsi obektif yang ditentukan. Clusterwise Regression akan memodelkan n persamaan regresi dimana n adalah umlah cluster dengan meminimalisasi SSE. Pada setiap iterasi akan dimodelkan n persamaan regresi kemudian dihitung nilai kesalahan dan keanggotaan masing-masing data. Persamaan regresi, nilai kesalahan, dan keanggotaan akan diperbarui pada tiap iterasi hingga mencapai model yang optimal atau umlah iterasi tertentu. Tahap Prediksi Pada tahap ui masing-masing data akan dihitung nilai fuzzy keanggotaannya dengan masing-masing cluster yang ada. Nilai fuzzy keanggotaan (Zi) dari data (x) dihitung berdasarkan persamaan fuzzy k-nearest neighbor yang ditunukkan pada persamaan 5 [10]. Z i ( x) k 1 i, 1 Z x x 1 k / m1 1 / m1 x x (4) (5) dimana k yaitu umlah tetangga terdekat, Zi, merupakan nilai keanggotaan data ke- (x) pada cluster i, dan m merupakan parameter bobot. Hasil prediksi merupakan pernumlahan dari perkalian antara bobot masing-masing cluster dan hasil prediksinya [11]. 5

Jurnal Ilmiah SimanteC Vol. 4, No. 1 Juni 014 Tabel Perbandingan RMSE Clusterwise Regression Spectral Clustering dengan parameter umlah cluster yang bervariasi Dataset Nilai Praktikum Struktur Data Teknik Informatika ITS 008/009 Nilai Praktikum Struktur Data Teknik Informatika ITS 010/011 Data Auto MPG - UCI Data Housing UCI Data Computer Hardware UCI UJI COBA Jumlah Cluster RMSE Clusterwise Regression Spectral Clustering 1 4.48 3.566 3.56 4.87 5.879 1 5.509 3.88 3 3.606 4 3.80 5 3.300 1 3.873 4.148 3 3.63 4.953 5.595 1 5.587 5.749 3 4.175 4 3.11 5 5.054 1 59.8 55.113 3 55.745 4 46.553 5 50.65 Ui coba dilakukan dengan memprediksi dataset dengan metode yang diusulkan. Metode Cross Validation digunakan dalam penguian model yang dihasilkan. Untuk mengukur performa yang dihasilkan, digunakan Root Mean Squared Error (RMSE) yang ditunukkan dengan persamaan 6 [1]. RMSE n i 1 ( x f ) n i i (6) Dimana variabel n merupakan umlah data, dan variabel x merupakan nilai prediksi yang dihasilkan model sedangkan variabel f merupakan nilai sebenarnya yang diinginkan. Untuk setiap pasangan data masukan dan data keluaran pada setiap parameter umlah cluster akan dihitung kesalahan prediksinya menggunakan RMSE. Semakin keci nilai RMSE pada kesalahan hasil prediksi semakin kecil, begitu uga sebaliknya. Hasil ui coba merupakan hasil prediksi dari algoritma Clusterwise Regression dengan Spectral Clustering dengan beberapa nilai parameter umlah cluster. Metode Clusterwise Regression- Spectral Clustering menggunakan parameter umlah Clustering. Pada uicoba dilakukan perbandingan kesalahan RMSE dengan nilai cluster bervariasi yaitu satu, dua, tiga, empat, dan lima cluster. Hasil ui coba ditunukkan pada Tabel. Pada hasil ui coba terlihat bahwa RMSE terkecil diperoleh pada parameter umlah cluster yang berbedabeda pada masing-masing dataset. Pada dataset nilai praktikum struktur data tahun 008/009, nilai RMSE terkecil dicapai pada parameter umlah cluster sama dengan 5 yaitu sebesar.56. Rentang nilai mahasiswa dari satu sampai 100 sehingga nilai kesalahan relatifnya sebesar.53 persen. RMSE terkecil pada dataset ke yaitu dataset nilai praktikum struktur data tahun 010/011 dicapai pada parameter umlah cluster sama dengan 4 sebesar 3,8 atau kesalahan relatifnya 3,8 persen. Pada data Auto MPG nilai RMSE terkecil diperoleh pada parameter 5 cluster yaitu,595. Rentang nilai mpg pada dataset Auto MPG 0 sampai 46.6 sehingga nilai kesalahan relatifnya 5,57 persen. Pada dataset Housing nilai RMSE terkecil diperoleh pada parameter umlah cluster 4 yaitu 3,11 atau kesalahan relatifnya 6,4 persen (rentang 0-50). Dataset kelima yaitu Computer Hardware RMSE terkecil 6

Ahmad Yusuf & Handayani Tandrasa, Prediksi Nilai dengan dicapai pada parameter umlah cluster sama dengan 4 yaitu 46,553. Kesalahan relatif pada dataset Computer Hardware sebesar 4,05 persen (0-1150). Dari hasil analisis diatas nilai kesalahan relatif yang dicapai dari dataset yang digunakan sekitar 3 sampai 6 persen. Dari perubahan umlah cluster secara umum terlihat bahwa semakin besar umlah cluster maka nilai kesalahan yang dihasilkan semakin kecil sampai pada titik optimal. Dari kelima dataset yang diuicobakan menunukkan tren yang relatif sama yaitu nilai RMSE berbanding terbalik dengan umlah cluster. Pada beberapa kasus terlihat nilai RMSE yang lebih besar parameter umlah cluster tertentu dari umlah cluster -1 dan umlah cluster +1. Hal ini dapat teradi karena hasil Clustering yang digunakan selanutnya dalam proses prediksi kurang optimal untuk dimodelkan persamaan regresi. Perbandingan nilai RMSE dari Multiple Regression (umlah cluster = 1) dan Clusterwise Regression Spectral Clustering dari hasil uicoba terlihat bahwa nilai RMSE pada hasil prediksi dataset menggunakan metode yang diusulkan lebih kecil dibandingkan dengan RMSE pada hasil prediksi menggunakan Multiple Regression. Reduksi kesalahan RMSE yang dihasilkan sekitar 30 hingga 40 persen. Hal ini menunukkan bahwa metode pada penelitian ini mampu mengoptimalkan performa dari prediksi nilai menggunakan regresi linier. Pada hasil ui coba nilai kesalahan relatif paling besar (6 persen) didapatkan pada dataset Housing. Dataset Housing memiliki atribut prediktor dibandingkan dengan dataset lainnya yaitu 13 atribut. Hal ini dapat menyebabkan hasil kurang optimal karena memungkinkan adanya atributatribut yang tidak relevan. Berdasarkan hasil ui coba, semakin banyak atribut prediktor yang digunakan maka nilai kesalahan relatifnya semakin besar secara umum. Dataset Auto MPG dan Computer Hardware memiliki 7 atribut prediktor dengan kesalahan relative sekitar 4-5 persen. Dataset nilai praktikum yang memiliki atribut lebih sedikit menunukkan kesalahan relative yang lebih kecil yaitu sampai 3 persen. SIMPULAN Prediksi nilai merupakan salah satu bagian dari penggalian data yang terus dikembangkan. Pada penelitian ini diusulkan algoritma Clusterwise Regression dengan Spectral Clustering. Metode usulan mampu melakukan prediksi nilai yang telah diuicobakan pada beberapa dataset dengan nilai kesalahan relatif 3 sampai 6 persen. Algoritma Clusterwise Regression dengan Spectral Clustering mampu mereduksi kesalahan RMSE dari hasi prediksi menggunakan Multiple Regression biasa sebesar 30 sampai 40 persen. Pada metode usulan diperlukan masukan umlah cluster sebagai parameter. Parameter umlah cluster memberikan pengaruh pada hasil prediksi. Pada uicoba yang dilakukan masing-masing dataset akan menghasilkan model optimal pada parameter umlah cluster tertentu bergantung pada karakteristik data. Jumlah atribut uga mempengaruhi hasil prediksi menggunakan metode yang diusulkan. Pada uicoba yang dilakukan semakin banyak atribut maka nilai kesalahannya semakin besar. Hal ini dikarenakan adanya kemungkinan atribut-atribut yang tidak relevan dengan variabel respon. DAFTAR PUSTAKA [1] Lau, Kin-nam., Leung, Pui-lam., Tse, Ka-kit. (1998). A mathematical programming approach to Clusterwise Regression model and its extensions. Elsevier European Journal of Operational Research. 7

Jurnal Ilmiah SimanteC Vol. 4, No. 1 Juni 014 [] DeSarbo, Wayne S. (1988). A Maximum Likelihood Methodology for Clusterwise Linear Regression. [3] Trivedi, S., A. Pardos, Z., & N. Sar, G. (008). Spectral Clustering in Educational Data Mining. [4] UCI Machine Learning Repository, <URL: http://archive.ics.uci.edu/ml/ >, diakses pada 1 April 013. [5] Tan, P.-N., Steinbach, M., & Kumar, V. (006). Introduction to Data Mining. Minnesota: Addison- Wesley. [6] Zhang, Z., Wu, X., & S. Yu, P. (006). Spectral Clustering for Multi-type Relational Data. [7] Y. Ng., A., I. Jordan, M., & Weiss, Y. (00). On Spectral Clustering : Analysis and Algorithm. [8] Von Luxburg, U. (007). A Tutorial on Spectral Clustering. 17(4). [9] Mohar, B. (1991). The Laplacian Spectrum of Graphs, In Graph Theory. 871-898. [10] Keller, James M., Gray, Michael R., Givens, James A. Jr. (1985). A Fuzzy K-Nearest Neighbor Algorithm. IEEE Transactions on Systems, Mans, and Cybernetics. [11] Luo, Zairen., Chou, Eddie Y. (006). Pavement Condition Prediction Using Clusterwise Regression. [1] Karagozog'lu, B., & Turkmen, N. (007). A software tool to facilitate design, assessment and evaluation of courses in an educational system. 8