APLIKASI METODE CROSS ENTROPY UNTUK SUPPORT VECTOR MACHINES

APLIKASI METODE CROSS ENTROPY UNTUK SUPPORT VECTOR MACHINES Tiananda Widyarini, Budi Santosa Jurusan Teknik Industri Institut Teknoogi Sepuuh Nopember (ITS) Surabaya Kampus ITS Sukoio Surabaya 60111 Emai: tiananda_w@yahoo.com ; budi_s@ie.its.ac.id Abstrak Support vector machines () adaah suatu metode yang handa daam menyeesaikan masaah kasifikasi data. Permasaahan dipecahkan dengan menyeesaikan persamaan Lagrangian yang merupakan bentuk dua dari meaui quadratic programming. Meaui pendekatan standar ini, waktu komputasi yang cukup panjang diperukan untuk mendapatkan sousi optima. Cross entropy () merupakan suatu metode optimasi yang baru dikembangkan dengan dua prosedur utama, yaitu meakukan generate sampe data dengan distribusi tertentu dan meakukan update parameter distribusi berdasarkan sampe terbaik untuk menghasikan sampe yang ebih baik pada iterasi berikutnya. teah diapikasikan untuk memecahkan berbagai permasaahan optimasi dengan hasi yang baik. Pada peneitian ini, metode diterapkan untuk menyeesaikan masaah optimasi agrange agar didapatkan proses komputasi yang ebih cepat dan sederhana. Metode yang teah dikembangkan kemudian diuji pada enam dataset kasus nyata. Dari hasi pengujian, didapatkan kesimpuan bahwa apikasi pada mampu mengkasifikasi data dua keas dengan akurasi yang sebanding dengan metode standar. Sebagai tambahan, metode ini mampu menyeesaikan permasaahan dengan waktu komputasi yang ebih cepat daripada standar untuk data berukuran besar. Kata kunci: Support vector machines, cross entropy, data mining, kasifikasi ABSTRACT Support vector machines () is a robust method for cassification probem. Lagrangian equation the dua form of must be soved by a quadratic programming in order to get the optima soution for the standard. In this approach, ong computationa time is needed. Cross entropy () is a newy discovered optimization method with two main procedures: generating data sampes by a chosen distribution, and updating the distribution parameters due to eite sampes to generate a better sampe in the next iteration. The method has been appied in many optimization probems with satisfying resut. In this research, wi be appied to sove the optimization probem of agrangian for faster computationa time. This method is being tested in some rea word datasets for cassification probem. The resut is, the appication of in is comparabe to standard in cassifying two cass data. In addition, this method can sove arge datasets cassification probem faster than standard. Keywords: Support vector machines, cross entropy, data mining, cassification 1. Pendahuuan Masaah kasifikasi banyak dijumpai daam kehidupan sehari-hari seperti daam penentuan diterima atau tidaknya pengajuan kredit daam bidang perbankan, hingga diagnosis suatu penyakit di bidang kedokteran. Kasifikasi merupakan saah satu bentuk peramaan yang memiiki niai keuaran diskrit, dan bertujuan untuk menemukan suatu fungsi keputusan f(x) yang secara akurat memprediksi keas dari data (Santosa, 007). Poa data dipeajari dengan pendekatan supervised earning untuk memprediksi data berikutnya yang memiiki kemiripan. Daam pendekatan ini, abe keuaran teah dikeompokkan, sehingga fungsi pemisah antara abe satu dengan ainnya dapat dicari dengan mempeajari data keas-keas yang teah ada untuk mengkasifikasi data baru. Data yang digunakan untuk meatih fungsi disebut data training, sedangkan data untuk menguji mode disebut data testing. Daam data mining dan machine earning teah dikembangkan berbagai metode kasifikasi

seperti anaisis diskriminan (inear discriminant anaysis), decision tree, Artificia Neura Networks, hingga Support Vector Machines (). Pada beberapa peneitian, metode teah terbukti mampu meakukan kasifikasi dengan baik untuk berbagai kasus. Menurut Frieβ, et.a., pencarian hyperpane dengan menggunakan programa kuadratik memiiki keemahan yakni proses komputasi yang berat, berakibat pada waktu komputasi yang panjang. Seiring dengan perkembangan metode data mining, ditemukan pua beberapa agoritma heuristik untuk penyeesaian masaah optimasi. Berdasarkan (de Boer et.a, 004) beberapa agoritma heuristik yang dikembangkan untuk penyeesaian masaah optimasi misanya simuated anneaing (Aarts dan Korst, 1989), genetic agorithm (Godberg, 1989), tabu search (1993), dan Cross Entropy (). merupakan agoritma baru yang teah diapikasikan untuk penyeesaian optimasi kombinatoria dan optimasi muti-extrema, serta rare event simuation. Apikasi metode untuk kasus kustering juga memberi hasi yang baik dibandingkan metode kustering seperti K-means dan fuzzy K-means (Kroese et. a., 004). Pengembangan agoritma dengan berbagai metode optimasi mampu memberikan hasi yang ebih baik. Ha ini dapat diihat pada metode Kerne-Adatron (Frieβ, et.a.) yang merupakan adaptasi agoritma Adatron (Anauf dan Bieh, 1989) untuk kasifikasi kerne. Apikasi Adatron mempercepat proses penemuan sousi optima pada kasus kasifikasi yang biasanya membutuhkan waktu komputasi yang panjang. sendiri merupakan suatu bentuk masaah optimasi yang bertujuan memaksimisasi margin dari kasifier. Mannor, et. a. (005) teah mengembangkan metode untuk kasifikasi yang menggunakan pendekatan L 0 - Norm dengan tujuan meminimasi jumah support vector. Diyakini bahwa dengan support vector yang minima, tingkat kesaahan kasifikasi dapat di-generate ebih baik. Karena bertujuan meminimasi support vector, pendekatan yang digunakan adaah untuk combinatoria optimization. Meaui pendekatan tersebut ribuan probem optimasi harus diseesaikan untuk mendapatkan niai optima. Pada peneitian ini, akan diterapkan untuk menyeesaikan masaah optimasi Lagrangian, yang merupakan bentuk dua dari probem optimasi. Probem Lagrangian yang biasanya diseesaikan menggunakan metode gradient ascent (Osuna, 1997) akan didekati dengan metode, agar perhitung-annya menjadi ebih sederhana.. Support Vector Machines Berdasarkan Gunn (1998), Support Vector Machine () dikembangkan oeh Vapnik (1995) dan merupakan metode yang popuer karena menjanjikan kinerja yang baik. Konsep adaah pencarian hyperpane terbaik yang berfungsi sebagai pemisah dua keas data pada input space. Hyperpane pemisah terbaik adaah hyperpane yang teretak di tengah di antara dua set obyek dari dua keas (Santosa, 007). Hyperpane terbaik dapat dicari dengan memaksimakan margin atau jarak dari dua set obyek dari dua keas yang berbeda. Berdasarkan Gunn (1998), Hyperpane pemisah daam bentuk kanonika harus memenuhi konstrain berikut, i i y w, x b 1, i = 1,,. (.1) Sehingga hyperpane yang mampu memisahkan data secara optima adaah hyperpane yang meminimasi, 1 ( w) w (.) Berdasarkan Gunn (1998), sousi masaah optimasi dari persamaan. di bawah konstrain persamaan.1 diberikan meaui sadde point dari fungsi Lagrange (Lagrangian) (Minoux, 1986). 1 i i ( w, b, ) w i y w, x b 1 (.3) i1 dimana α adaah Lagrange mutipier. Fungsi Lagrangian tersebut harus diminimasi berdasarkan w, b dan dimaksimasi berdasarkan α 0. Persamaan.6 dapat ditransformasi ke daam bentuk permasaahan dua, yang ebih mudah diseesaikan. Dua probem diberikan dengan,

maxw ( ) maxmin ( w, b, ) w, b Maka, dua probem menjadi, maxw ( ) max 1 (.4) i j yi, x j k, i1 j1 k 1 (.5) dan dengan demikian sousi permasaahan dapat diseesaikan meaui, 1 * arg min i j yi, x j k, (.6) i1j 1 k 1 dengan fungsi pembatas, i 0 i 1,..., j y j 0. j 1 (.7) Penyeesaian persamaan.5 dengan pembatas.7 akan menentukan Lagrange mutipiers, dan hyperpane pemisah yang optima diberikan dengan, w* i yi xi i 1 (.8) 1 b* w*, xr xs. dimana x r dan x s adaah sembarang support vector dari tiap keas yang memenuhi,, 0, y 1, y 1. (.9) r s r s Fungsi kasifier yang dapat digunakan untuk memisahkan data adaah, f ( x) sgn w*, x b (.10) Daam kasus dimana sebuah hyperpane tidak dapat secara tepat memisahkan data, variabe non-negatif, ξ i 0, dan sebuah fungsi penati diperkenakan, F ( ) i 0, (.11) i dimana ξ i adaah ukuran dari kesaahan kasifikasi. Konstrain persamaan.1 dimodifikasi menjadi, i y i w, x b 1 i, i 1,...,. (.1) dimana ξ i 0. Hyperpane pemisah yang optima ditentukan oeh vektor w, yang meminimasi fungsi, 1 ( w, ) w C (.13) i i dimana C adaah niai biaya yang ditentukan sebagai penati kesaahan dan sedapat mungkin diminimasi, dengan fungsi pembatas persamaan.1. Dua probem dari fungsi Lagrangian adaah, 1 max W ( ) max i j yi, x j k, i1j1 k 1 dengan sousi permasaahan, (.14) 1 * arg min i j yi, x j k, (.15) i 1j 1 k 1 dan fungsi pembatas, 0 i C i 1,..., j y j 0. j 1 (.16) Sousi dari permasaahan minimasi tersebut mirip dengan pada kasus dimana poa data dapat dipisahkan secara inier, kecuai pada modifikasi dari batasan Lagrange mutipier. Niai C harus ditentukan dari awa perhitungan. Pada kasus ketika batasan inier tidak dapat memisahkan keas data, dapat memetakan vektor input x ke dimensi yang ebih tinggi. Permasaahan dapat dimodifikasi dengan memasukkan fungsi kerne. Menurut Santosa (007), dengan metode kerne (Schokopf dan Smoa, 00), suatu data x di input space dipetakan ke feature space F dengan dimensi yang ebih tinggi. Pemetaan ini diakukan dengan menjaga topoogi data, daam artian dua data yang berjarak dekat pada input space akan berjarak dekat juga pada feature space, sebaiknya dua data yang berjarak jauh pada input space juga berjarak jauh pada feature space. Beberapa fungsi kerne dasar yang biasa dipakai daam iteratur (Hsu et. a., 008) dan (Gunn, 1998) adaah: Linear: K(x i, x j ) = x i T x j, (.17) Poynomia: T K( xi, x j ) xi, x j 1 (.18) Radia basis function (RBF): d 3

T x i x j K ( xi, x ) exp (.19) j Sigmoid: K(x i, x j ) = tanh( x i T x j + r) (.0) Beberapa fungsi kerne memiiki kondisi khusus untuk penggunaannya. Gunn (1998) menyatakan bahwa sebagian besar fungsi kerne teah memiiki bias impisit. Untuk fungsi Kerne dengan bias impisit, batasan (.16) tidak peru diikutsertakan daam fungsi optimasi Lagrangian karena niai bias yang meibatkan support vector sudah masuk daam perhitungan kerne. Normaisasi data juga dibutuhkan untuk beberapa fungsi Kerne. Chin (1999) teah meneiti bahwa Kerne poynomia ebih cocok digunakan pada masaah dimana data trainingnya teah dinormaisasi. 3. Cross Entropy Pada subbab ini, prinsip-prinsip metode Cross Entropy () akan dikemukakan berdasarkan Kroese et. a. (004) dan de Boer et. a. (005) beserta referensinya. Metode diawai dengan agoritma adaptive untuk mengestimasi probabiitas dari rare-event pada jaringan stokastik yang kompeks (Rubinstein, 1997), yang meibatkan minimasi standar deviasi. Ide utama dari metode untuk optimasi dapat dinyatakan sebagai berikut: misanya terdapat suatu masaah untuk memaksimasi kinerja fungsi S(x) pada setiap x di daam kumpuan χ dimana niai maksimum yang didapat adaah γ*, * max S( x). x (3.1) Pertama, masaah deterministik (3.) dirandomisasi dengan mendefinisikan probabiity density function (pdf) {f(-;v), v V } pada set χ. Diasumsikan pdf memiiki densitas yang berdegenerasi pada x*, misanya f(-;v*). Seanjutnya, (3.) diasosiasikan sebagai masaah estimasi daam bentuk ( ) u ( S( X ) ) u IS ( X ) (3.3) Di sini, X adaah vektor random dengan pdf f(- ;u), untuk beberapa u V dan R. Tujuan agoritma adaah untuk menghasikan urutan sousi {(γ t, v t )}, yang memusat dengan cepat ke arah sousi optima (γ*, v*). Sebagai awanya, v 0 harus ditetapkan, dan ρ yang tidak terau keci dipiih, misanya ρ = 10 -. Metode meibatkan prosedur iterasi, dimana tiap iterasi dapat dipecah menjadi dua fase: 1. Meakukan generate sampe data random (χ) berdasarkan mekanisme spesifik.. Memperbaharui parameter (v) dari mekanisme random berdasarkan data sampe eite untuk menghasikan sampe yang ebih baik pada iterasi berikutnya. Proses tersebut secara matematis dapat dituis sebagai berikut (Kroese et. a., 004): 1. Memperbaharui γ t secara adaptif. Untuk v t-1, γ t adaah (1-ρ) persenti dari S(X) di bawah v t-1. ˆ t dari γ t dapat diperoeh dengan mengacak suatu sampe random X 1, X N dari f(-;v t-1 ), menghitung performansi S(X i ) untuk tiap i, mengurutkan performansi tersebut dari keci ke besar: S (1) S (N), dan terakhir mengevauasi sampe sebesar (1-ρ) persenti dengan, ˆ t S1 N (3.4) dimana S(k) merupakan urutan ke-k dari statistik {S(X i )}. Memperbaharui v t secara adaptif. Untuk γ t dan v t-1 yang teah ditetapkan, turunkan v t dari sousi programa, max D( ) max Ev I ( ) n ( ; ). 1 S X f X t (3.5) Bagian stokastik dari (3.5) adaah: untuk ˆ t dan v ˆ t1 yang teah ditetapkan, turunkan vˆ (4.7) t dari programa berikut, 1 N max D( ) max IS ( ) ˆ n f ( X ; ) N Xi t i1 (3.6) Dibandingkan dengan meakukan update parameter vektor v secara angsung dari sousi (3.6), versi berikut dapat digunakan, vˆ ~ t vt (1 )ˆ vt 1 (3.7) dimana v ~ t adaah parameter vektor yang didapatkan dari sousi (3.6), dan θ disebut sebagai parameter smoothing, dengan 0,7 < θ < 1. Untuk θ = 1, akan didapatkan aturan update yang asi. Beberapa aasan untuk menggunakan aturan smoothed daripada aturan update yang biasa adaah: (a) untuk memuuskan niai vˆ t, (b) untuk mengurangi probabiitas bahwa beberapa komponen ˆ t, i pada beberapa iterasi awa. dari vˆ t akan berniai no atau satu 4

Agoritma utama untuk optimasi: 1. Nyatakan vˆ o u. Tetapkan t = 1.. Bangkitkan sampe random X 1,,X N dari fungsi densitas tertentu f(-; v t 1 ) dan komputasi sampe (1-ρ) persenti ˆ t dari performansi berdasarkan (3.4). 3. Gunakan sampe yang sama dan seesaikan program stokastik (3.5). Catat sousinya sebagai v ~ t. 4. Apikasikan (3.7) untuk memuuskan vektor v ~ t. 5. Jika untuk beberapa t d, misanya d=5, ˆ t ˆ t 1... ˆ t d, maka hentikan iterasi (nyatakan T sebagai iterasi terakhir); namun jika tidak terpenuhi, tetapkan t = t + 1 dan uangi iterasi muai dari angkah. Peru dicatat bahwa stopping criterion, vektor pertama, ukuran sampe N dan niai ρ harus dinyatakan secara spesifik dari awa. Parameter v yang di-update berdasarkan (3.6) hanya sejumah (1-ρ)% sampe terbaik. Data ini dinamakan sampe eite. 4. Agoritma Masaah pencarian garis hyperpane terbaik untuk kasifikasi data dua keas dapat dipecahkan dengan menyeesaikan persamaan Lagrangian. Niai α pada agrange akan dicari dan di-update menggunakan metode untuk menghasikan kasifier yang paing optima. Fungsi tujuan yang akan dipecahkan untuk mendapatkan hyperpane pemisah optima adaah fungsi Lagrangian seperti pada persamaan 4.1. 1 W ( ) i i j yi, x j i1 i1 j1 (4.1) menyeesaikan suatu permasaahan optimasi dengan mua-mua membangkitkan biangan random daam distribusi tertentu, kemudian dari sampe tersebut dipiih sampe terbaik untuk menjadi parameter biangan random pada iterasi berikutnya. Pada peneitian ini, sampe yang dibangkitkan adaah niai α pada agrange. Agoritma yang diusukan dijeaskan pada angkah satu hingga sembian. Langkah 1: Hitung matriks Kerne dikaikan abe keuaran (output) dari data training Perkaian matriks ditunjukkan pada persamaan (4.). H yi, x j i 1 j 1 (4.) Langkah : Tetapkan parameter awa Parameter yang diperukan yaitu jumah sampe random yang akan dibangkitkan (N), batasan niai α yang diijinkan daam pembuatan sampe (C), persentase sampe eite (ρ). Langkah 3: Generate sampe α Niai Lagrange mutipier α i, untuk i = 1 hingga m di-generate menggunakan distribusi tertentu sebanyak N, dengan batasan niai 0 α C. Pada peneitian ini digunakan distribusi norma. Langkah 4: Hitung sousi Lagrangian Untuk semua niai α dari = 1 hingga N, hitung sousi Lagrangian W(α) seperti pada persamaan (3.1). Persamaan tersebut sebanding dengan (3.3). 1 W ( ) i i' Hi i 1 (4.3) Langkah 5: Urutkan niai Lagrangian Langkah 6: Ambi sampe eite Sampe eite diambi dari W(α) sebanyak ρn dengan niai W(α) terbesar seteah diurutkan. Langkah 7: Lakukan update parameter distribusi Pada peneitian ini, distribusi yang digunakan adaah distribusi norma dengan parameter ratarata (μ) dan standar deviasi (σ ). Jika I adaah indeks dari N eite sampe eite dan θ adaah variabe smoothing, eite tj ( i ij / N ) (1 ) t1 (4.4) eite ij ij / (1 ) t 1 tj N (4.5) i Pada peneitian ini, digunakan θ = 1. Langkah 8: Uangi angkah 3 hingga 7 Penguangan diakukan hingga stopping criterion terpenuhi. Stopping criterion yang digunakan deam peneitian ini adaah ketika standar deviasi maksimum dari α teah kurang dari 10-8. 5

Langkah 9: Tetapkan niai α Untuk distribusi norma, niai α adaah rata-rata α (μ) yang diperoeh dari iterasi terakhir. Untuk mendapatkan fungsi kasifier, hitung vektor w optima dengkan menggunakan α yang didapatkan dari angkah 9 seperti persamaan (4.6) dan hitung bias menggunakan (4.7). w* i yixi i1 1 b* w*, x r x s (4.6) (4.7) Cari abe data testing menggunakan persamaan (4.8), yakni pembuatan hasi dari perkaian vektor w* dengan data testing x ditambah bias. f ( x) sgn( w*, x b) 5. Hasi Pengujian (4.8) Data yang digunakan untuk pengujian terdiri atas 6 kumpuan dataset dari kasus nyata yaitu data Hepatitis, Iris, Breast Cancer, Haberman s Surviva, Credit Approva, dan Spice. Pengujian metode apikasi untuk () akan dibandingkan dengan pengujian metode KA dan standar. Parameter komputasi yang digunakan adaah dengan meakukan generate 40 biangan random (N=40) dan penggunaan niai ρ sebesar 0, (0% sampe). Tiap metode diuji dengan persentase data training dan data testing sebesar :1, dengan 0 kai pengujian. Untuk iterasi pada, stopping criterion yang digunakan adaah ketika niai maksimum dari standar deviasi α (σ) kurang dari 10-8. Pada pengujian, biaya penati yang dikenakan adaah C=. Metode Kerne yang digunakan adaah Kerne RBF dengan σ =, Kerne poinomia derajat 5, serta Kerne inier. Untuk Kerne poinomia dan inier, data dinormaisasi terebih dahuu. Normaisasi diakukan dengan mengurangi data tiap atribut dengan rata-ratanya, kemudian membagi hasi pengurangan tersebut dengan standar deviasinya. Hasi uji yang dibandingkan adaah waktu komputasi (CPU Time) pada impementasi mode di software Matab dimuai dari awa running data training hingga mendapatkan niai α optima, serta jumah persentase miskasifikasi dari pengujian α optima yang didapatkan untuk perhitungan kasifikasi data testing. 5.1 Pengujian Data Hepatitis Data Hepatitis digunakan untuk memprediksi apakah seorang pasien hepatitis akan meningga atau seamat berdasarkan atribut yang dimiikinya seperti usia, jenis keamin, ada tidaknya varises, dan ainnya. Seteah missing vaue dihapus, data yang tersisa berjumah 80. Data training yang digunakan berjumah 53, dipiih secara acak, dan data testing adaah 7 data sisanya. Hasi dari rata-rata dua puuh kai percobaan untuk tiap metode dan parameter Kerne ditunjukkan pada tabe 4.1. Niai minimum untuk waktu komputasi dan kesaahan kasifikasi tiap metode diperjeas dengan huruf bercetak teba. Tabe 5.1 Kasifikasi data hepatitis Metode Kerne T (detik) E (%) RBF, σ= 0,38 ± 0,06 4,07 ± 6,41 Poy, d=5 0,30 ± 0,00 17,78 ± 5,84 Linear 0,30 ± 0,00 38,5 ± 8,10 RBF, σ= 0,00 ± 0,00,78 ± 6,50 KA Poy, d=5 0,00 ± 0,00 30,56 ± 9,53 Linear 0,00 ± 0,00 40,74 ± 14, RBF, σ= 0,18 ± 0,04 5,00 ± 6,99 Poy, d=5 0,10 ± 0,00 7,78 ± 5,8 Linear 0,10 ± 0,00 30,00 ± 6,00 Kerne poinomia derajat 5 untuk memberikan tingkat miskasifikasi paing keci dibandingkan dengan uji metode KA dan standar. Maka, untuk mendapatkan ketepatan kasifikasi pada data Hepatitis, penggunaan metode dengan Kerne poinomia derajat 5 dapat dipertimbangkan. Karena waktu komputasi ebih besar daripada standar, pengujian tambahan diakukan untuk meneiti apakah dengan waktu komputasi ebih cepat masih dapat mengkasifikasi data dengan baik. Pengujian tambahan diakukan dengan mengubah stopping criterion pada (Kerne poinomia derajat 5) yaitu memperbesar toeransi tingkat standar deviasi α untuk menjadi α optima. Pada pengujian yang diakukan sebeumnya, ketika tingkat standar deviasi α mencapai kurang dari 10-8 maka iterasi dihentikan. Tingkat standar deviasi kemudian akan dinaikkan menjadi 10-7 hingga 10 -. Pengujian ain untuk mempercepat 6

waktu komputasi adaah dengan mengurangi jumah generate sampe α pada iterasi. Sampe α yang di-generate awanya adaah 40, pada pengujian berikutnya sampe tersebut diturunkan hingga 30. Tabe 5. Perbandingan stopping criterion uji data Hepatitis Stopping criterion E T *Standar deviasi tiap α 10e-8 17,78% 0,3000 Standar deviasi tiap α 10e-7 17,78 % 0,49 Standar deviasi tiap α 10e-6 17,50 % 0,156 Standar deviasi tiap α 10e-5 19,35 % 0,1875 Standar deviasi tiap α 10e-4 19,07 % 0,1586 Standar deviasi tiap α 10e-3 17, % 0,111 Standar deviasi tiap α 10e- 17,41 % 0,0883 Tabe 5.3 Perbandingan parameter uji data Hepatitis Parameter E T *N = 40, θ = 1 17,78% 0,3000 N = 30, θ = 1 18,5 % 0,070 Dari tabe perbandingan 5. dan 5.3 didapatkan kesimpuan bahwa pengubahan parameter mode untuk mempercepat waktu komputasi masih dapat diakukan tanpa perubahan yang besar pada kesaahan kasifikasi. Bahkan dapat ditemui, tingkat kesaahan kasifikasi justru semakin keci ketika toeransi standar deviasi diperbesar. Ha ini dapat dianaisa sebagai berikut: ketika niai standar deviasi untuk meakukan generate sampe α i masih besar, maka niai α i akan memiiki rentang yang besar (bervariasi sesuai distribusi norma). Karena niai α optima didapatkan dari rata-rata α i pada iterasi terakhir, jika niai α i masih bervariasi maka rata-ratanya akan di atas no. Niai α i yang ebih besar dari no menandakan bahwa data x i menjadi support vector. Maka, semakin cepat iterasi dihentikan, titik data yang akan menjadi support vector semakin banyak. Kondisi ini dapat menyebabkan overfitting untuk kasifikasi berikutnya, yang berakibat data testing jatuh pada keas yang saah, namun dapat juga menjadi batas kasifier yang baik jika data testing tepat masuk di daam keasnya. Pada pengujian kita tidak mengetahui secara pasti data mana yang menjadi data testing dan data training (acak), maka bisa jadi untuk pengujian kasifikasi dengan niai miskasifikasi yang keci, data testing memang merupakan data yang mudah untuk dikasifikasi. Perubahan jumah sampe awa tentunya mengurangi waktu komputasi karena beban perhitungan yang harus diakukan, yakni perhitungan niai W(α) optima, semakin sedikit. Namun cepatnya waktu komputasi dapat berimbas pada meningkatnya kesaahan kasifikasi karena jika niai ρ tidak dinaikkan, artinya jumah sampe eite semakin sedikit. Terdapat kemungkinan bahwa niai-niai α i pada sampe eite memiiki kombinasi yang buruk, sehingga waaupun pemusatan α i cepat terjadi, niai terakhir iterasi bukanah kombinasi yang paing optima. 5. Pengujian data Iris Data iris asi memiiki tiga keas jenis bunga dengan tota data sebanyak 150. Untuk uji kasifikasi pada peneitian ini, data yang digunakan dibatasi sebanyak dua keas, karena itu diakukan penghapusan data dari keas ketiga. Data iris yang tersisa adaah sebanyak 100 data, dimana terdapat 50 data dari keas +1 dan sisanya dari keas -1. Pengujian diakukan dengan data training sejumah 67 yang dipiih secara acak, dan data testing sebanyak 33 yang diambi dari data seain data training. Hasi dari dua puuh kai percobaan untuk tiap metode dan parameter ditunjukkan pada tabe 5.4. Adapun niai minimum untuk waktu komputasi dan kesaahan kasifikasi tiap metode diperjeas dengan huruf bercetak teba. Tabe 5.4 Kasifikasi data Iris Metode Kerne T (detik) E (%) RBF, σ= 0,40 ± 0,0 0,00 ± 0,00 Poy, d=5 0,35 ± 0,05 0,00 ± 0,00 Linear 0,31 ± 0,0 0,00 ± 0,00 RBF, σ= 0,00 ± 0,00 0,00 ± 0,00 KA Poy, d=5 0,00 ± 0,00 1,5 ±,51 Linear 0,00 ± 0,00 0,00 ± 0,00 RBF, σ= 0,100 ± 0 0,00 ± 0,00 Poy, d=5 0,100 ± 0 0,30 ± 0,93 Linear 0,100 ± 0 0,00 ± 0,00 Dari segi keakuratan kasifikasi, metode dapat disejajarkan dengan standar karena mampu mengkasifikasi data tanpa kesaahan. Namun, waktu komputasi masih kaah dibandingkan dengan pengujian menggunakan standar, dimana dari ketiga metode Kerne yang diapikasikan, semuanya menghasikan sousi daam waktu hanya 0,1 detik. Metode KA menghasikan sousi daam 7

waktu 0 detik, tercepat di antara ketiga metode yang dibandingkan. Untuk menguji apakah hasi kasifikasi akan tetap baik jika waktu komputasi dipercepat, pengujian tambahan teah diakukan. Pengujian diakukan terhadap (1) stopping criterion, serta () parameter yang berbeda. Pengujian diakukan menggunakan Kerne inier karena memberikan niai miskasifikasi dan waktu komputasi paing keci pada pengujian sebeumnya. Tabe 5.5 Perbandingan stopping criterion uji data Iris Stopping criterion E T *Standar deviasi tiap α 10e-8 0 % 0,3100 Standar deviasi tiap α 10e-7 0 % 0,898 Standar deviasi tiap α 10e-6 0 % 0,461 Standar deviasi tiap α 10e-5 0 % 0,094 Standar deviasi tiap α 10e-4 0 % 0,1664 Standar deviasi tiap α 10e-3 0 % 0,1344 Standar deviasi tiap α 10e- 0 % 0,099 Tabe 5.6 Perbandingan parameter uji data Iris Parameter E T *N = 40, θ = 1 0 % 0,3100 N = 30, θ = 1 0 % 0,336 Dari tabe perbandingan 5.5 dan 5.6 didapatkan kesimpuan bahwa pengubahan parameter mode untuk mempercepat waktu komputasi dapat diakukan tanpa perubahan pada kesaahan kasifikasi. Pada pengujian dengan stopping criterion standar deviasi maksimum α kurang dari 10e-, waktu komputasi mencapai 0,099 detik, yakni di bawah waktu komputasi standar. Yang cukup mengejutkan adaah bahwa dengan percepatan waktu komputasi yang besar, tingkat miskasifikasi masih tetap no persen dari dua puuh kai repikasi. Ha ini dapat berarti bahwa jarak antara kedua keas data pada data Iris memang cukup jauh (terutama pada dimensi ebih tinggi) sehingga berbagai macam garis kasifier mampu memisahkan kedua jenis data secara sempurna, waaupun niai vektor w beum optima untuk memaksimasi margin. 5.3 Pengujian data Breast Cancer Data Breast Cancer digunakan untuk memprediksi diagnosis kanker payudara, apakah jinak atau ganas. Adapun data training yang digunakan adaah sebanyak 479 dari 683 data Breast Cancer, dan data testing adaah sisanya. Rata-rata hasi pengujian data Breast Cancer ditunjukkan pada tabe 5.7. Niai minimum dari waktu komputasi dan kesaahan kasifikasi tiap metode diperjeas dengan huruf bercetak teba. Tabe 5.7 Kasifikasi data Breast Cancer Metode Kerne T (detik) E (%) RBF, σ= 13,0 ± 0,41 3,53 ± 1,35 Poy, d=5 1,66 ± 0,8 3,06 ± 0,79 Linear 10,87 ± 0,4 3,11 ± 0,78 RBF, σ= 1,63 ± 0,43 3,19 ± 1,08 KA Poy, d=5 1,31 ± 0,03 4,95 ± 1,91 Linear 1,39 ± 0,09 3,14 ± 1,05 RBF, σ= 1,44 ± 0,8 6,05 ± 1,79 Poy, d=5 5,86 ± 0,37 6,44 ± 1,66 Linear 4,49 ± 0,50 3,01 ± 1,0 Metode Kerne terbaik pada pengujian adaah Kerne poinomia derajat 5 yaitu dengan hasi miskasifikasi sebesar 3,06%. Pada KA, miskasifikasi terkeci didapatkan dengan apikasi Kerne inier yaitu sebesar 3,14%. Pada standar, metode Kerne inier memberikan hasi miskasifikasi sebesar 3,01%. Meaui uji statistik, ketiga hasi tersebut tidak berbeda secara signifikan. Karena itu, akurasi metode dapat dibandingkan dengan KA dan standar untuk mengkasifikasi data Breast Cancer. Dari segi kecepatan waktu komputasi daam penyeesaian masaah, performansi metode teah mampu menyaingi standar. Waktu komputasi terbaik didapatkan dari metode Kerne RBF σ = yaitu sebesar 1,44 detik, sedangkan waktu komputasi terbaik didapatkan dari Kerne inier sebesar 10,87 detik. Apikasi Kerne RBF yang merupakan penyeesaian dengan waktu tercepat pada standar ternyata menghasikan tingkat miskasifikasi yang cukup besar (gambar 5.5) yaitu 6,05%. Sedangkan apikasi Kerne inier pada yang tercatat sebagai waktu terbaik hanya memiiki tingkat miskasifikasi sebesar 3,11%. Dibandingkan dengan kedua pengujian data sebeumnya, dataset Breast Cancer memiiki jumah data yang jauh ebih banyak, yaitu 683 data. Dapat disimpukan bahwa untuk data berukuran besar, mampu menyeesaikan masaah kasifikasi ebih cepat daripada standar. Pada titik ini, pemusatan sebaran titik ke arah titik optima (berdasarkan sampe 8

eite) ebih cepat dibandingkan dengan penyeesaian quadratic programming standar. 5.4 Pengujian data Haberman s Surviva Data Haberman s Surviva digunakan untuk memprediksi apakah seorang pasien yang teah menjaani operasi kanker payudara akan bertahan hidup atau tidak daam kurun waktu ima tahun. Data Haberman s Surviva yang menjadi data training adaah sebanyak 04 data, dan sisanya 10 data sebagai data testing. Hasi rata-rata dari dua puuh kai pengujian data untuk tiap metode dan parameter ditunjukkan pada tabe 5.8. Tabe 5.8 Kasifikasi data Haberman s Surviva Metode Kerne T (detik) E (%) RBF, σ=,36 ± 0,08 30,88 ±,73 Poy, d=5,36 ± 0,15 34,90 ± 5,53 Linear,13 ± 0,1 6,13 ±,99 RBF, σ= 0,0 ± 0,00 30,9 ± 4,3 KA Poy, d=5 0,0 ± 0,00 37,79 ± 6,04 Linear 0,0 ± 0,00 9,41 ± 5,7 RBF, σ= 1,75 ± 0,05 31,5 ± 3,73 Poy, d=5,04 ± 0,19 43,3 ± 9,3 Linear 1,84 ± 0,06 6,3 ± 4,16 Karena waktu komputasi terkeci masih ebih besar daripada standar, pengujian tambahan diakukan untuk meneiti apakah dengan waktu komputasi ebih cepat masih dapat mengkasifikasi data dengan baik. Pengujian tambahan dengan mengubah stopping criterion pada Kerne inier yang memberikan waktu komputasi dan tingkat miskasifikasi terkeci dapat diihat pada tabe 5.9. Pengujian ain untuk mempercepat waktu komputasi adaah dengan mengurangi jumah generate sampe α pada iterasi. Sampe α yang di-generate awanya adaah 40, pada pengujian berikutnya sampe tersebut diturunkan hingga 30. Tabe 5.9 Perbandingan stopping criterion uji data Haberman s Surviva Stopping criterion E T *Standar deviasi tiap α 10e-8 6,13 %,1300 Standar deviasi tiap α 10e-7 6,08 %,0305 Standar deviasi tiap α 10e-6 7,65 % 1,8797 Standar deviasi tiap α 10e-5 7,50 % 1,6703 Standar deviasi tiap α 10e-4 6,6 % 1,4430 Standar deviasi tiap α 10e-3 7,65 % 1,1953 Standar deviasi tiap α 10e- 6,3 % 0,9406 Dari tabe perbandingan 5.9 dan 5.10 didapatkan kesimpuan bahwa pengubahan parameter mode untuk mempercepat waktu komputasi dapat diakukan tanpa perubahan yang berarti pada kesaahan kasifikasi. Pada pengujian dengan stopping criterion standar deviasi maksimum α kurang dari 10e-5, waktu komputasi sudah mencapai 1,6703 detik, yakni di bawah waktu komputasi terkeci standar. Tabe 5.10 Perbandingan parameter uji data Haberman s Surviva Parameter E T *N = 40, θ = 1 6,13 %,1300 N = 30, θ = 1 8,33 % 1,5063 Tingkat miskasifikasi yang besar pada pengujian data Haberman s Surviva menunjukkan poa data cukup suit diramakan. Dengan mode kasifikasi atau standar menggunakan fungsi Kerne inier, kesaahan kasifikasi tersebut dapat diminimisasi tapi masih terdapat sekitar 6% kemungkinan terjadinya miskasifiksi. 5.5 Pengujian data Credit Approva Data Credit Approva asi terdiri dari 690 data dengan 16 atribut yang terdiri dari beragam jenis data, yaitu data kontinu dan nomina. Data nomina diubah ke daam bentuk numeris agar dapat dioah pada pengujian data. Data ini memiiki range yang beragam antar atribut. Seteah data yang mengandung missing vaue dihapus, data Credit Approva terdiri dari 653 data dan 16 atribut. Pengujian data Credit Approva diakukan dengan menggunakan 435 data training dan 18 data testing. Hasi ratarata dua puuh kai repikasi pengujian data Credit Approva untuk tiap metode dan parameter ditunjukkan pada tabe 5.11. Tabe 5.11 Kasifikasi data Credit Approva Metode Kerne T (detik) E (%) RBF, σ= 11,60 ± 0,4 44,73 ±,47 Poy, d=5 10,3 ± 0,8 15,41 ± 1,63 Linear 8,97 ± 0,8 13,6 ±,4 RBF, σ= 10,40 ± 0,3 45,16 ±,58 KA Poy, d=5 10,33 ± 0,10 5,34 ± 4,3 Linear 9,01 ± 0,03 18,4 ± 6,76 RBF, σ= 3,50 ±,07 43,33 ±,17 Poy, d=5 18,64 ± 0,36 1,58 ± 1,78 Linear 17,17 ± 1,67 13,7 ±,8 9

Dari segi waktu komputasi, dapat disimpukan bahwa pada ukuran data seperti data Credit Approva, kinerja mampu meampaui standar dengan akurasi yang baik. 5.6 Pengujian data Spice Data Spice asi terdiri dari 3.175 data untuk membedakan spice junction atau persimpangan dari urutan DNA; exon/intron (EI) atau intron/extron (IE). Data masih mengandung keas yang tidak termasuk ke daam dua keas yang teah ditentukan, sehingga diakukan penghapusan data untuk data dengan keas seain EI dan IE. Kegiatan preprocessing berikutnya yaitu mengubah jenis data dari kategoria menjadi numeris. Seteah preprocessing, data Spice yang tersisa sebanyak 157 digunakan untuk pengujian. Pengujian data Spice diakukan menggunakan 1018 data training dan 509 data testing. Hasi rata-rata dua puuh kai repikasi pengujian data Spice untuk tiap metode dan parameter ditunjukkan pada tabe 5.1. Tabe 5.1 Kasifikasi data Spice Metode Kerne T (detik) E (%) RBF, σ= 78,01 ± 1,83 4,93 ± 0,81 Poy, d=5 75,56 ± 1,65 4,35 ± 0,76 Linear 70,0 ± 1,68 5,0 ± 0,9 RBF, σ= 133,48 ± 0,14 5,41 ± 1,15 KA Poy, d=5 144, ± 7,3 1,1 ±,03 Linear 135,04 ± 0,7 10,00 ±,0 RBF, σ= 1,0 ± 4,3 4,81 ± 0,93 Poy, d=5 64,99 ± 5,39 3,94 ± 0,81 Linear 48,55 ± 5,79 5,05 ± 0,77 Data Spice merupakan dataset dengan jumah data terbanyak pada keenam pengujian yang diakukan pada peneitian ini. Diihat dari tingkat kesaahan kasifikasi, baik pada dan standar, kesaahan paing sedikit terjadi dengan menggunakan Kerne poinomia derajat 5. Untuk metode KA, miskasifikasi terkeci didapatkan dari apikasi Kerne RBF parameter 5. Namun jika diihat dari waktu komputasi, perbedaan cukup jauh terjadi antara dengan standar. Waktu komputasi tercepat pada diperoeh dengan Kerne inier yakni 70,0 detik, sedangkan waktu komputasi tercepat standar dengan Kerne RBF adaah 1, detik. Jika diinginkan kesaahan kasifikasi yang keci yaitu dengan menggunakan Kerne poinomia, hanya membutuhkan waktu komputasi 75,56 detik. Sedangkan, standar membutuhkan waktu komputasi 64,99 detik. 6. Diskusi Pengujian diakukan pada 6 dataset yang memiiki karakteristik berbeda, dimuai dari data berukuran keci hingga besar, serta jumah atribut sedikit hingga banyak. Banyaknya data berbanding urus dengan waktu komputasi. Semakin banyak data yang digunakan, maka semakin besar waktu yang dibutuhkan untuk penyeesaian masaah baik dengan standar atau. Sedangkan banyaknya atribut pada data masih beum terihat berpengaruh. Pada, banyaknya atribut pada data hanya akan berpengaruh pada awa komputasi, yakni pada perhitungan matriks Kerne dikai abe output. Sehingga, besarnya waktu komputasi pada tidak terau terpengaruh oeh banyaknya atribut karena untuk iterasi seanjutnya. Tabe 6.1 Perbandingan jumah data dan atribut tiap dataset No. Dataset Jumah Data Data Training Atribut 1. Hepatitis 80 53 19. Iris 100 66 4 3. Breast Cancer 683 479 9 4. Haberman s 306 04 3 5. Credit App. 653 435 15 6. Spice 157 1018 60 Gambar 6.1 Perbandingan jumah data vs waktu komputasi tiap metode Pada gambar 6.1, rata-rata waktu komputasi ketiga metode Kerne dari tiap metode dibandingkan dengan jumah data uji pada keenam dataset. Dari grafik tersebut dapat diihat bahwa semakin besar jumah data, kinerja akan semakin baik dari segi kecepatan 10

waktu komputasi, dibandingkan dengan KA dan standar. Peru dicatat bahwa pada grafik, waktu komputasi diperoeh dari hasi uji dengan stopping criterion standar deviasi kurang dari 10e-8. Maka, jika niai toeransi standar deviasi diatur menjadi ebih keci, waktu komputasi yang dibutuhkan juga akan ebih cepat. Kecepatan komputasi masih di bawah standar hingga jumah data mencapai sekitar 300 data. Diihat dari hasi pengujian pada keenam dataset, metode yang dikembangkan terbukti mampu mengkasifikasi data dengan akurasi yang sebanding dengan standar dan KA. Maka, metode ini dapat digunakan untuk peneitian berikutnya terutama pada data berukuran besar, dimana dibutuhkan kecepatan komputasi dengan akurasi yang tetap terjaga, karena metode ini teah diuji pada beberapa jenis data dan terbukti dapat dibandingkan dengan standar. Pengapikasian pada dapat dianjutkan dengan meneiti efek dari penggunaan distribusi pembangkitan biangan random seain distribusi norma. 7. Daftar Pustaka Anauf J. K. dan Bieh M. 1989. The AdaTron: an Adaptive Perceptron Agorithm. Europhysics Letters, Vo. 10(7), pp 687-69, 1989. Chih-Wei Hsu, Chih-Chung Chang, dan Chih- Jen Lin. 008. A Practica Guide to Support Vector Cassification. Taipei: Nationa Taiwan University. Chin, K. K. 1999. Support Vector Machines Appied to Speech Pattern Cassification. Dissertation of Cambridge University Engineering Department. University of Cambridge. De Boer, P-T.; Kroese, D.P; Mannor, S. dan Rubinstein, R.Y. 004. A Tutoria on the Cross-Entropy Method. Annas of Operations Research. Vo. 134(1), pp 19-67, 005. Frieβ T., Cristianini N., Campbe C. The Kerne-Adatron Agorithm: a Fast and Simpe Learning Procedure for Support Vector Machines. Gunn Steve R. 1998. Support Vector Machines for Cassification and Regression. Technica Report. University of Southampton. Kroese, D.P, Rubinstein, R.Y., Taimre, T. 004. Appication of the Cross-Entropy Method to Custering and Vector Quantization. Journa of Goba Optimization 37, pp.137-157, 006. Osuna, E. E., Freund, Robert; dan Girosi Federico. 1997. Support Vector Macines: Training and Appications. A.I. Memo No. 160. Peeg D., Mannor S. dan Rubinstein R. Y. The Cross-Entropy Method for Cassification. Proceeding of the -nd Internationa Conference on Machine Learning. Bonn, Germany, 005. Santosa, B. (007). Data Mining : Teknik Pemanfaatan Data untuk Keperuan Bisnis. Yogyakarta: Graha Imu. UCI Machine Learning. http://archive.ics.uci. edu/m/machine-earning-databases/. Diakses 15 Juni 009. 11