IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DOKUMEN DEALIS HENDRA PRATAMA

Transkripsi

1 IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DOKUMEN DEALIS HENDRA PRATAMA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa skripsi berjudul implementasi support vector machine (SVM) untuk klasifikasi dokumen adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir disertasi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juni 2013 Dealis Hendra Pratama NIM G

4 ABSTRAK DEALIS HENDRA PRATAMA. Implementasi Support Vector Machine (SVM) Untuk Klasifikasi Dokumen. Dibimbing oleh Ir. Julio Adisantoso, M.Kom. Klasifikasi dokumen merupakan proses pengelompokan dokumen ke dalam kategori tertentu yang sudah ditentukan sebelumnya. Pada dunia nyata, umumnya sebaran data bersifat non-linear yang artinya sebaran data tidak terpisah secara sempurna. Oleh karena itu dibutuhkan sebuah metode yang dapat mengklasifikasikan dokumen yang bersifat non-linear. Support vector machine bisa melakukan klasifikasi dokumen yang bersifat non-linear dengan meningkatkan dimensi sebaran dokumen menggunakan kernel trick. Penelitian ini akan menggunakan linear kernel untuk klasifikasi dokumen teks. Hasil akurasi terbesar pada penelitian ini adalah 76% dari 150 dokumen uji dengan nilai epsilon Faktor yang mempengaruhi hasil klasifikasi diantaranya adalah nilai epsilon dan panjang dokumen uji. Kata kunci: SVM, linear kernel, support vector machine, klasifikasi dokumen. ABSTRACT DEALIS HENDRA PRATAMA Support Vector Machine (SVM) implementation for document classification. Supervised by Ir. Julio Adisantoso, M.Kom. Document classification is the process of grouping documents into specific categories that have been defined previously. In the real world, the distribution of the data is generally non-linear, which means the distribution of the data did not separate properly. Therefore we need a method that can classify documents that are non-linear. Support vector machine can classify documents that are non-linear with increasing dimension of the distribution of documents using kernel trick. This study will use a linear kernel for the classification of text documents. Results greatest accuracy in this study was 76% of 150 test documents with epsilon value Factors affecting the results of the classification of which is the value of epsilon and length of test documents. Keywords: SVM, linear kernel, support vector machine, document classification.

5 IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DOKUMEN DEALIS HENDRA PRATAMA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

6

7 Judul Skripsi : Implementasi Support Vector Machine (SVM) Untuk Klasifikasi Dokumen Nama : Dealis Hendra Pratama NIM : G Disetujui oleh Ir. Julio Adisantoso, M.Kom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi, MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Agustus 2012 ini ialah klasifikasi dokumen, dengan judul implementasi support vector machine (SVM) untuk klasifikasi dokumen. Penulis menyadari bahwa penelitian ini tidak akan selesai jika tidak ada bantuan dari berbagai pihak. Pada kesempatan ini penuli ingin mengucapkan terimakasih kepada : 1. Orang tua tersayang, Ayah (alm) Dalimin dan Ibu Sriwiji, serta adik Olga Dealis Saputri, dan juga keluarga yang selalu memberikan doa, nasihat, semangat, dukungan yang luar biasa kepada penulis. 2. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing, dengan bantuan bimbingan disertai kesabaran dalam penyelesaian penelitian ini. 3. Bapak Mushtofa, S.Kom, M.Sc dan Sony Hartono Wijaya, S.Kom., M.Kom selaku dosen penguji yang telah memberikan banyak saran dan pembelajaran dalam penyempurnaan penelitian ini. 4. Ina Ainul Ariefah yang selalu ada dan membantu, memberikan ketenangan, solusi, dan kesabaran dalam menyelesaikan penelitian ini. 5. Teman-teman satu bimbingan yang saling membantu dalam penyelesaian masalah yang ada selama penyelesaian penelitian ini. 6. Seluruh staf program Alih Jenis Ilmu Komputer yang telah banyak membantu selama perkuliahan dan selama penyelesaian penelitian ini. Dalam penelitian ini penuli menyadari masih banyak kekurangan dan kesalahan dalam penyelesaiannya karena keterbatasan kemampuan penulis. Untuk itu penulis menerima saran dan kritik yang bersifat membangun mengenai penelitian ini. Semoga penelitian ini bermanfaat baik sekarang atau di masa yang akan datang. Bogor, Juni 2013 Dealis Hendra Pratama

9 DAFTAR ISI DAFTAR TABEL vii DAFTAR GAMBAR vii DAFTAR LAMPIRAN vii PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 METODE 2 Tahap Pengumpulan Dokumen 2 Tahap Pelatihan 3 Tahap Pengujian 9 Lingkungan Pengembangan 10 HASIL DAN PEMBAHASAN 10 Pengumpulan Dokumen 10 Tokenisasi 11 Seleksi Fitur 12 Pembobotan 12 Support Vector Machine 12 Evaluasi kinerja klasifikasi 13 SIMPULAN DAN SARAN 16 Simpulan 16 Saran 16 DAFTAR PUSTAKA 17 LAMPIRAN 18 RIWAYAT HIDUP 19

10 DAFTAR TABEL 1. Tabel kontigensi antara kata terhadap kelas 4 2. Contoh kernel 7 3. Struktur tabel dokumen latih Struktur tabel kelas dokumen latih Jumlah kata dan rata-rata jumlah kata Total kata yang diterima dan ditolak sebagai fitur Bobot terbesar, terkecil, dan rata-rata bobot Perbandingan kategori long document Perbandingan kategori short document 13 DAFTAR GAMBAR 1. Diagram alur proses tahap pelatihan 3 2. Konsep dasar SVM 5 3. Fungsi Φ memetakan data ke ruang vektor berdimensi lebih tinggi 7 4. Diagram alur tahap pengujian 9 5. Contoh Dokumen Uji Perbandingan akurasi untuk kategori dokumen Perbandingan akurasi seluruh dokumen Perbandingan akurasi SVM dan SS (short document) Perbandingan akurasi SVM dan SS (long document) 15

11 PENDAHULUAN Latar Belakang Pada saat ini jumlah dokumen teks di jaringan global sudah berkembang sangat pesat. Jumlah dokumen yang semakin banyak akan membuat masyarakat umum mengalami kesulitan dalam menemukan dokumen teks yang dibutuhkan sesuai dengan keinginan. Hal ini memerlukan sebuah teknik pengolahan dokumen teks agar menjadi beberapa kelompok yang sudah terorganisir dengan baik. Salah satu teknik yang bisa digunakan adalah teknik klasifikasi dokumen, yaitu dengan membagi-bagi kelompok dokumen berdasarkan kelompok yang sudah ditentukan sebelumnya. Untuk itu dibutuhkan sistem klasifikasi dokumen teks yang mampu mengelompokkan dokumen teks ke dalam kelompok-kelompok yang sudah ditentukan sebelumnya. Dengan adanya sistem klasifikasi dokumen, maka pengguna tidak perlu mengelompokkan dokumen secara manual, sehingga dapat mengurangi waktu dan tenaga dalam melakukan penyimpanan dokumen kedalam kelompok yang sudah ditentukan. Selain itu, masyarakat juga sudah mudah untuk mencari dokumen yang diinginkan apabila dokumen sudah tersusun rapih berdasarkan kelompok masing-masing. Pada saat ini sudah banyak metode yang digunakan untuk mengatasi permasalahan klasifikasi dokumen. Manning et al (2007) mengelompokkan metode klasifikasi dokumen atau teks menjadi tiga pendekatan, yaitu klasifikasi manual, klasifikasi berbasis aturan (hand-crafted rules), dan klasifikasi berbasis pembelajaran mesin (machine learning-based text classification). Pada klasifikasi berbasis pembelajaran, beberapa aturan keputusan dari pengklasifikasi teks dipelajari secara otomatis dengan menggunakan metode statistika dari dokumen latih. Ada beberapa metode yang dapat digunakan dalam proses pembelajaran (supervised learning) yaitu Naïve Bayes, Rocchio classsfication, K Nearst Neighbor (KNN), dan Support Vector Machine (SVM). Pada penelitian sebelumnya, klasifikasi dokumen dengan metode semantic smoothing telah dilakukan oleh Ramadhina (2011). Klasifikasi dengan metode semantic smoothing sangat bergantung pada pasangan kata atau topic signature (Ramadhina, 2011). Oleh karena itu metode ini tidak cocok untuk digunakan untuk berbagai dokumen karena dokumen yang berbeda akan menghasilkan topic signature yang berbeda. Untuk itu dibutuhkan algoritme klasifikasi yang bisa lebih fleksibel sehingga bisa digunakan untuk berbagai macam dokumen. Algoritme klasifikasi support vector machine (SVM) merupakan salah satu algoritme klasifikasi dengan akurasi terbaik sampai saat ini (Nugroho et al, 2003). Algoritme ini juga memungkinkan melakukan klasifikasi berbagai dokumen, melakukan klasifikasi linier, dan klasifikasi non-linier dengan menggunakan kernel trick. Klasifikasi linier adalah klasifikasi dokumen dimana kedua kelas sudah terpisah secara sempurna. Pada umumnya masalah dalam dunia nyata jarang yang bersifat linear separable (terpisah secara linear), tetapi bersifat non-linear (Nugroho et al, 2003). Dalam non-linear SVM pertama-tama data dipetakan ke ruang vektor yang berdimensi lebih tinggi. Pada ruang vektor yang baru ini, hyperplane yang memisahkan kedua kelas dapat dikonstruksikan.

12 2 Perumusan Masalah Pemasalahan klasifikasi pada dunia nyata lebih banyak yang bersifat nonlinear artinya data tidak terpisah secara sempurna. Untuk melakukan klasifikasi dalam kasus non-linear dibutuhkan sebuah metode yang dapat meningkatkan dimensi data agar bisa memisahkan data secara sempurna. Support vector machine (SVM) adalah metode yang dapat melakukan klasifikasi yang bersifat non-linear. Untuk menaikkan dimensi, SVM menggunakan kernel trick dalam penerapannya. Oleh karena itu pada penelitian ini, penulis mencoba menerapkan kernel linier pada SVM untuk klasifikasi dokumen teks. Tujuan Penelitian Tujuan dari penelitian ini adalah mengimplementasikan linear kernel pada SVM untuk klasifikasi dokumen. Manfaat Penelitian Manfaat penelitian ini adalah mengelompokkan dokumen secara otomatis, yang diharapkan dapat membantu seseorang dalam mengelompokkan dokumen berdasarkan kategori tertentu. Ruang Lingkup Penelitian Ruang lingkup pada penelitian ini adalah dokumen yang digunakan adalah dokumen teks berbahasa Indonesia mengenai tanaman holtikultura dari bidang pertanian. METODE Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk memperkirakan kelas yang tidak diketahui dari suatu objek. Klasifikasi dokumen adalah pemberian kategori yang telah didefinisikan kepada dokumen yang belum memiliki kategori (Goller et al, 2000). Dokumen-dokumen yang sama akan dimasukkan ke dalam kelompok yang sama. Perkembangan jumlah dokumen yang sangat cepat, mendorong berkembangnya metode pengklasifikasian dokumen. Penelitian ini melakukan klasifikasi dokumen secara otomatis menggunakan metode support vector machine (SVM). Metode ini melakukan klasifikasi dengan cara belajar dari sekumpulan dokumen latih yang telah dikasifikasikan sebelumnya. Tahap Pengumpulan Dokumen Dokumen yang digunakan dalam penelitian ini adalah dokumen hasil penelitian dari Jurnal Penelitian Holtikultura tahun 2002 sampai dengan tahun Dokumen tersebut terdiri dari 174 dokumen latih dan 150 dokumen uji. Dokumen latih dibagi menjadi 57 dokumen latih untuk masing-masing kelas, sedangkan dokumen uji dibagi menjadi dua bagian yaitu kategori long document dan short

13 document. Hal ini dilakukan untuk melihat pengaruh jumlah kata yang digunakan untuk perhitungan klasifikasi. Untuk masing-masing kelas mempunyai 25 dokumen uji untuk setiap kategori. Pada penelitian ini, kelas dari klasifikasi dibagi menjadi tiga, yaitu : 1. Ekofisiologi dan Agronomi 2. Pemuliaan dan Teknologi Benih 3. Proteksi (Hama dan Penyakit) Tahap Pelatihan Tahap ini dilakukan untuk menghasilkan sebuah model klasifikasi yang akan digunakan untuk tahap pengujian. Tahap pelatihan dimulai dari preprossesing dokumen hingga menghasilkan model klasifikasi. Diagram alur tahap pelatihan bias dilihat pada gambar 1. Tahap Pelatihan 3 Dokumen Latih preprossesing Tokenisasi Seleksi Fitur Pembobotan Support Vector Machine Model Gambar 1 Diagram alur proses tahap pelatihan Tokenisasi Tokenisasi adalah suatu tahap pemrosesan teks input yang dibagi menjadi unit-unit kecil yang disebut dengan token atau term, yang berupa satu kata atau angka (Herawan, 2011). Pada penelitian ini, token yang dimaksud adalah kata. Aturan dalam melakukan tokenisasi adalah sebagai berikut : 1. Teks dipotong menjadi token. Karakter yang dianggap sebagai pemisah token didefinisikan dengan ekspresi reguler sebagai berikut : /[\s\-+\/*0-9%,.\"\];()\':=`?\[!@><]+/ 2. Token yang berupa numerik tidak diikutsertakan. Seleksi Fitur Seleksi fitur merupakan suatu proses memilih subset dari setiap kata unik yang ada di dalam himpunan dokumen latih yang akan digunakan sebagai fitur di

14 4 dalam klasifikasi dokumen (Maning et al, 2007). Dalam penelitian ini, metode yang digunakan untuk pemilihan fitur adalah chi-kuadrat. Chi-kuadrat adalah analisis untuk mengetahui apakah distribusi data seragam atau tidak. Persamaan untuk menghitung chi-kuadrat sebagai berikut : X 2 (fo fh)2 = fh (1) dengan fo adalah frekuensi yang didapat dari sampel, dan fh adalah frekuensi harapan. Pada penelitian ini, chi-kuadrat mengukur derajat kebebasan antara kata penciri t dengan kelas c agar dapat dibandingkan dengan persebaran nilai chikuadrat. Perhitungan nilai chi-kuadrat pada setiap kata t yang muncul pada setiap kelas c dapat dibantu dengan menggunakan tabel kontigensi. Tabel 1 menununjukan tabel kontigensi antara kata terhadap kelas. Nilai yang terdapat pada tabel kontingensi merupakan nilai frekuensi observasi dari suatu kata terhadap kelas. Tabel 1 Tabel kontigensi antara kata terhadap kelas Kelas Kelas c Kelas c Kata Kata t A B Kata t C D Perhitungan nilai chi-kuadrat berdasarkan tabel kontigensi tersebut disederhanakan pada persamaan 2. X 2 N(AD CB) 2 (t, c) = (2) (A + C)(B + D)(A + B)(C + D) dengan t merupakan kata yang sedang diujikan terhadap suatu kelas c, N merupakan jumlah dokumen latih, A merupakan banyaknya dokumen pada kelas c yang memuat kata t, B merupakan banyaknya dokumen yang tidak berada pada kelas c yang memuat kata t, B merpakan banyaknya dokumen yang tidak berada pada kelas c namun memuat kata t, C merupakan banyaknya dokumen yang berada pada kelas c namun tidak mengandung kata t, dan D merupakan banyaknya dokumen yang bukan merupakan dokumen kelas c dan tidak memuat kata t. Pengambilan keputusan dilakukan berdasarkan nilai X 2 dari masing-masing kata. Kata yang memiliki nilai X 2 diatas nilai kritis pada tingkat signifikansi α adalah kata yang akan dipili sebagai penciri dokumen. Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas tertentu ditunjukkan pada lampiran 1. Pembobotan Tiap dokumen diwujudkan sebagai vektor dengan elemen sebanyak term yang didapatkan melalui proses pemilihan fitur. Vektor tersebut beranggotakan bobot dari setiap term. Salah satu metode untuk menghitung bobot term adalah tfidf. Metode ini merupakan metode pembobotan yang merupakan hasil kali antara term frequency (tf), dan inverse document frequency (idf). Formula dari tf-idf adalah sebagai berikut : w t,d = tf t. idf (3)

15 5 idf = log ( N df t ) (4) dengan w t,d adalah bobot dari term t pada dokumen d, tf t adalah frekuensi term t dalam dokumen,n adalah jumlah dokumen, dan df t adalah jumlah dokumen yang mengandung t. Support Vector Machine Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua kelas yang berbeda pada ruang input (Cristianini & Shawe-Taylor, 2000). Gambar 2 menggambarkan beberapa pola yang merupakan anggota dari dua buah kelas +1 dan kelas -1. Gambar 2 Konsep dasar SVM Hyperplane pemisah terbaik antara kedua kelas dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik maksimalnya, sedangkan margin adalah jarak antara hyperplane tersebut dengan pola yang terdekat dari masing-masing kelas. Vektor pola yang terdekat disebut dengan support vector. Data yang tersedia dinotasikan x i R d sedangkan label masing-masing dinotasikan y i { 1, +1} untuk i = 1,2,,l, dimana l adalah banyaknya data. Diasumsikan kelas -1 dan +1 dapat terpisah secara sempurna oleh hyplerplane berdimensi d yang didefinisikan sebagai berikut : w. x + b = 0 (5) Margin terbesar dapat ditemukan dengan memaksimalkan jarak antara hyperplane dan titik terdekatnya, yaitu 1 w. Hal ini dapat dirumuskan sebagai permasalahan Quadratic Programming (QP), yaitu mencari titik minimal persamaan (6) dengan memperhatikan constraint persamaan (7). min τ(w) = 1 w 2 w 2 (6) y i (x i. w + b) 1 0, i (7) Masalah ini dapat dipecahkan dengan berbagai teknik komputasi, di antaranya Lagrange Multiplier. l L(w, b, a) = 1 2 w 2 α i (y i ((x i. w + b) 1)) (i = 1,2,, l) (8) i=1

16 6 α i adalah pengganda lagrange, yang bernilai nol atau positif. Nilai optimal dari persamaan (5) dapat dihitung dengan memaksimalkan nilai L terhadap w dan b, dan memaksimalkan L terhadap α i. Dengan memperhatikan sifat bahwa titik optimal gradient L=0, persamaan (8) dapat dimodifikasi sebagai memaksimalisasi masalah yang hanya mengandung α i, sebagaimana persamaan berikut ini. Maksimasi : dengan constraint : l l α i 1 2 α iα j y i y j x i. x j i=1 i,j=1 l α i (i = 1,2,3,, l) α i y i = 0 (10) Dari hasil perhitungan ini diperoleh α i yang sebagian besar bernilai positif. Data yang berkorelasi dengan α i yang positif inilah yang disebut sebagai support vector tinggi (Nugroho et al, 2003). Soft Margin Penjelasan pada sub bab support vector machine berdasarkan asumsi bahwa kedua kelas dapat dipisah secara sempurna oleh hyperplane. Akan tetapi pada umumnya dua kelas pada ruang vektor tidak dapat terpisah secara sempurna. Hal ini menyebabkan constraint pada persamaan 8 tidak dapat terpenuhi, sehingga optimasi tidak dapat dilakukan. Untuk mengatasi masalah ini, SVM dirumuskan ulang dengan memperkenalkan teknik softmargin. Pada softmargin, persamaan (7) dimodifikasi dengan memasukan slack variable ξ i (ξ i > 0) sebagai berikut : i=1 Dengan demikian persamaan (6) diubah menjadi : (9) y i (x i. w + b) 1 ξ i, i (11) min w τ(w, ξ) = 1 2 w 2 + C ξ i l i=1 (12) Parameter C dipilih untuk mengontrol tradeoff antara margin dan error klasifikasi ξ. Nilai C yang besar berarti akan memberikan penalty yang lebih besar terhadap error klasifikasi tersebut. Non-Linear Classification Pada umumnya masalah dalam dunia nyata jarang yang bersifat linear separable, kebanyakan bersifat non-linier. Untuk menyelesaikan problem nonlinier, SVM dimodifikasi dengan memasukan fungsi Kernel (Nugroho et al, 2003). Dalam non-linear SVM pertama-tama data x dipetakan oleh fungsi Φ(x) ke ruang vektor yang berdimensi lebih tinggi. Pada ruang vektor yang baru ini, hyperplane yang memisahkan kedua kelas dapat di konstruksikan (Gambar 3).

17 7 Gambar 3 Fungsi Φ memetakan data ke ruang vektor berdimensi lebih tinggi Pada gambar 3a diperlihatkan data pada kelas kuning dan data pada kelas merah berada pada ruang vektor berdimensi dua tidak dapat dipisahkan secara linier. Selanjutnya gambar 3b menunjukan bahwa fungsi Φ memetakan tiap data pada ruang vektor tersebut ke ruang vektor baru yang berdimensi lebih tinggi (dimensi 3), dimana kedua kelas dapat dipisahkan oleh sebuah hyperplane. Notasi matematika pada mapping ini adalah sebagai berikut : Φ R d R d d<q (13) Selanjutnya proses pembelajaran SVM dalam menemukan titik-titik support vector hanya bergantung pada dot product dari data yang sudah ditransformasikan pada ruang baru yang berdimensi lebih tinggi, yaitu Φ(x i ). Φ(x j ). Karena umumnya transformasi Φ ini tidak diketahui, dan sangat sulit untuk dipahami secara mudah, maka perhitungan dot product tersebut dapat digantikan dengan funsi kernel K(x i, x j ) yang mendefinisikan secara implisit transformasi Φ. Hal inilah disebut dengan kernel trick, yang dirumuskan sebagai berikut : K(x i, x j ) = Φ(x i ). Φ(x j ) (14) Ada berbagai fungsi kernel yang biasa digunakan, diantaranya adalah yang terdapat pada Tabel 2. Tabel 2 Contoh kernel Jenis kernel Linear Polynomial Gaussian Definisi T k(x i, x j ) = x i xj + c T k(x i, x j ) = (αx i xj + c) d k(x i, x j ) = exp ( x i x j 2 2σ 2 ) Pada penelitian ini, kernel yang akan digunakan adalah linear kernel. Linear kernel adalah kernel paling sederhana yang biasa digunakan. Kernel trick memberikan berbagai kemudahan, karena dalam proses pembelajaran SVM, untuk menentukan support vector, kita hanya cukup mengetahui fungsi kernel yang dipakai, dan tidak perlu mengetahui wujud dari

18 8 fungsi non-linier Φ. Selanjutnya hasil klasifikasi dari data x diperoleh dari persamaan berikut : f(φ(x)) = w. Φ(x) + b (15) n = α i y i Φ(x). Φ(x i ) + b i=1,x i SV n = α i y i K(x, x i ) + b i=1,x i SV SV pada persamaan (16) dan persamaan (17) dimaksudkan dengan subset dari training set yang terpilih sebagai support vector, dengan kata lain data x i yang berkorespondensi pada α i 0. Sequential Minimal Optimization Sequential Minimal Optimization (SMO) adalah algoritma untuk proses pelatihan pada SVM yang dapat memberikan solusi pada masalah optimisasi. Pada dasarnya penggunaan SVM hanya terbatas pada masalah yang kecil karena algoritma pelatihan SVM cenderung lambat, kompleks, dan sulit untuk diimplementasikan. Berdasarkan hasil penelitian, algoritma SMO lebih sederhana, lebih mudah diimplementasikan, dan lebih cepat waktu komputasinya daripada algoritma Chunking (platt 1998). Pada setiap tahap SMO memilih dua pengganda lagrange α i, untuk dioptimasi bersama-sama, mencari nilai yang paling optimal dari pengganda lagrange tersebut, dan memperbaharui SVM dengan nilai optimal yang baru. SMO bekerja berdasarkan working set yang merupakan kumpulan variable yang sedang dioptimasi pada current iteration. SMO menggunakan working set berelemen dua. Algoritma SMO seperti yang dijelaskan oleh Platt (1998) adalah sebagai berikut : 1. Masukkan data latih, nilai parameter SMO C dan epsilon (ε). Inisialisasi nilai α dan bias b. 2. Lakukan iterasi pada seluruh data latih, cari α 1 yang melanggar sifat gradien. Jika α 1 diperoleh maka ke tahap 3. Jika iterasi pada seluruh data latih selesai, maka lakukan iterasi pada data yang tidak terdapat pada batas. Lakukan iterasi pada seluruh data latih dan pada data yang tidak terdapat pada batas secara bergantian untuk mencari α 1 yang melanggar sifat gradient sampai seluruh α memenuhi sifat gradient. 3. Cari α 2 dari data yang tidak terdapat pada batas. Ambil α yang memberikan nilai E 1 E 2 terbesar sebagai α 2. E 1 dan E 2 merupakan error cache untuk α 1 dan α 2. Jika dua data identic, maka buang α 2 dan ke tahap 4. Selainnya, hitung nilai L dan H untuk α 2 : max(0, α L = { 2 α 1 ), jika y 1 = y 2, max(0, α 2 + α 1 C), jika y 1 y 2 (16) (17) H = { min(c, C + α 2 α 1 ), jika y 1 = y 2 min(c, α 2 + α 1 ), jika y 1 y 2.

19 Jika L=H, maka perkembangan optimasi tidak dapat dibuat, buang α 2 dan ke tahap 4. Selainnya, hitung nilai η : η = 2K(x 1, x 2 ) K(x 1, x 1 ) K(x 2, x 2 ). Jika nilai η negative, maka hitung nilai nilai α 2 yang baru. Selainnya, hitung fungsi objektif pada titik L dan H dan gunakan nilai α 2 yang memberikan fungsi objektif paling tinggi sebagai nilai α 2 yang baru. Jika α 2 baru α 2 lama lebih kecil dari nilai epsilon (ε), maka buang nilai α 2 dan ke tahap 4. Selainnya, ke tahap Lakukan iterasi pada data yang tidak terdapat pada batas sampai diperoleh α 2 yang dapat membuat perkembangan optimasi di tahap 3. Jika tidak diperoleh, maka lakukan iterasi pada seluruh data latih sampai diperoleh α 2 yang dapat membuat perkembangan optimasi di tahap 3. Jika α 2 tidak diperoleh setelah dua iterasi tersebut, maka lewati nilai α 1 yang diperoleh dan kembali ke tahap 2 untuk mencari nilai α 1 baru yang melanggar sifat gradien. 5. Hitung nilai α 2 yang baru. Perbaharui nilai b dan error cache. Simpan nilai α 1 dan α 2 yang baru. Kembali ke tahap 2. Tahap Pengujian Pada tahap pengujian, tahapan yang dilakukan hampir sama dengan tahap pelatihan, hanya pada tahap ini tidak dilakukan seleksi fitur. Pada tahap ini, model yang dihasilkan dari tahap pelatihan akan digunakan untuk proses klasifikasi dokumen uji. Hasil dari proses klasifikasi akan di evaluasi menggunakan recall dan precision Gambar 4 memperlihatkan diagram alur pada tahap pengujian. 9 Tahap Pengujian Dokumen Uji preprossesing Tokenisasi Pembobotan Model SVM Evaluasi End Gambar 4 Diagram alur tahap pengujian

20 10 Evaluasi Evaluasi kinerja sistem dilakukan dengan menghitung nilai akurasi dari 150 dokumen uji untuk mendapatkan persentase ketepatan suatu dokumen masuk ke dalam kelas tertentu dalam sistem klasifikasi dokumen. Persamaan untuk menghitung akurasi adalah sebagai berikut : akurasi = Jumlah dokumen uji diklasifikasikan dengan benar jumlah seluruh dokumen uji Lingkungan Pengembangan 100% Lingkungan pengembangan merupakan kumpulan fasilitas yang diperlukan dalam pelaksanaan penelitian. Pada penelitian ini lingkungan pengembangan yang digunakan adalah : Perangkat keras : a. CPU Intel Core i3-2330m GHz b. Memory 4 GB Perangkat lunak : a. Windows 8 Enterprise Edition b. Visual Studio 2012 Ultimate c. SQL Server 2012 d. IIS 8 Bahasa Pemrograman : a. ASP.NET (C#) b. HTML HASIL DAN PEMBAHASAN Pengumpulan Dokumen Pada tahap ini, dokumen latih yang sudah terkumpul, akan disimpan ke dalam 2 tabel pada database. Tabel pertama akan menyimpan data detail dari setiap dokumen yang berisi id dokumen, judul, kata kunci, penulis, dan abstrak. Tabel yang kedua akan digunakan untuk menyimpan data dokumen latih beserta kelasnya. Pada tabel yang kedua, yang disimpan hanyalah id dokumen dan id kelasnya. Tabel 3 adalah struktur tabel penyimpanan dokumen latih pada database. Tabel 3 Struktur tabel dokumen latih Field IdDoc Judul kata_kunci Penulis Abstract Tipe data int varchar(500) varchar(500) varchar(250) text Dari tabel 3 kita hanya mendapatkan informasi tentang detail dari dokumen latih. Pada tabel 4 akan diperlihatkan struktur tabel untuk penyimpanan kelas dokumen latih pada database. Sedangkan contoh dari dokumen uji bisa dilihat pada gambar 5.

21 11 Tabel 4 Struktur tabel kelas dokumen latih Field IdDoc IdClass Tipe data int int Gambar 5 Contoh Dokumen Uji Tokenisasi Tahap tokenisasi adalah tahap memisahkan dokumen menjadi bagian-bagian kecil yang disebut dengan term. Pada dokumen latih, tokenisasi dilakukan pada abstrak. Pada penelitian ini tokenisasi dokumen latih dilakukan secara offline dengan menggunakan stored procedure pada SQL Server. Langkah awal untuk memisahkan dokumen menjadi beberapa kata (term) adalah dengan mengganti seluruh tanda baca menjadi karakter spasi (white space). Setelah semua tanda baca menjadi spasi, kemudian dokumen dipecah menjadi beberapa bagian dengan karakter pemisah adalah karakter spasi. Setalah selesai melakukan proses pemisahan, kumpulan kata yang dihasilkan kembali diproses dengan membuang karakter berupa angka dan membuang kata yang berupa kata depan. Setelah semua proses pemecahan selesai, kumpulan kata tersebut disimpan di dalam tabel pada database. Tabel 5 menggambarkan jumlah kata hasil tokenisasi, dan rata-rata jumlah kata tiap dokumen. Tabel 5 Jumlah kata dan rata-rata jumlah kata Jumlah Kata Rata-rata jumlah kata Dari tabel 5 bisa disimpulkan bahwa jumlah kata dari seluruh dokumen uji adalah kata dengan rata-rata 146 kata tiap dokumen.

22 12 Seleksi Fitur Pada tahap ini, kumpulan kata yang sudah ada diproses kembali untuk menentukan apakah kata tersebut layak dijadikan fitur dalam pembentukan model klasifikasi. Untuk melakukan proses seleksi fitur, metode yang digunakan pada penelitian ini adalah chi-kuadrat. Setalah dihitung menggunakan metode chikuadrat, setiap kata mempunyai nilai chi-kuadrat yang digunakan sebagai acuan dalam menentukan apakah kata tersebut layak digunakan sebagai fitur atau tidak. Batasan dari nilai chi-kuadrat ditentukan oleh derajat bebas dan tingkat signifikansi. Pada penelitian ini derajat bebas yang digunakan adalah 1 dengan tingkat signifikansi 0.10 yang berarti kata yang memiliki nilai chi-kuadrat diatas 2.71 yang diterima sebagai fitur. Tabel 6 memperlihatkan total kata yang diterima, dan total kata yang tidak diterima sebagai fitur. Tabel 6 Total kata yang diterima dan ditolak sebagai fitur Total kata yang diterima Total kata yang ditolak Berdasarkan tabel 6, proses seleksi fitur sangat bermanfaat untuk mengurangi katakata yang akan digunakan sebagai fitur. Karena dengan berkurangnya kata yang digunakan, maka proses komputasi akan semakin ringan. Pembobotan Setelah dilakukan proses seleksi fitur, kata yang telah terpilih dihitung bobotnya menggunakan metode tf-idf. Langkah pertama yang dilakukan pada proses ini adalah menghitung jumlah masing-masing kata pada setiap dokumen. Setelah itu dihitung pula jumlah dokumen yang mengandung suatu kata tertentu. Kedua hasil perhitungan tersebut menjadi faktor utama dalam perhitungan bobot menggunakan metode tf-idf. Tabel 7 memperlihatkan bobot terbesar, bobot terkecil, dan rata-rata bobot yang diperoleh dari proses pembobotan ini. Tabel 7 Bobot terbesar, terkecil, dan rata-rata bobot Bobot terbesar Bobot terkecil Rata-rata bobot Support Vector Machine Setelah melalui tahap-tahap sebelumnya, dokumen diproses untuk menghasilkan model klasifikasi support vector machine (SVM). Model SVM adalah model klasifikasi berbasis vektor. Vektor yang sudah dipetakan akan dihitung jaraknya. Jarak terjauh akan digunakan sebagai pemisah kelas dari vektor. Kemudian diberikan sebuah hyperplane untuk memisahkan dua kelas. Hal terpenting yang dibutuhkan untuk membuat model klasifikasi SVM adalah dengan mengkonfersi dokumen dalam bentuk vektor. Vektor yang terbentuk dari proses ini berdimensi 843. Pada penelitian ini vektor dokumen berisi bobot setiap kata dari suatu dokumen tertentu. Apabila ada kata yang tidak terdapat dalam dokumen, maka bobotnya diberi nilai nol.

23 Proses selanjutnya setelah semua vektor dokumen terbentuk, vektor-vektor yang sudah terbentuk dibagi menjadi 3 bagian dengan menggunakan metode support vector machine (SVM). Ada dua parameter penentu yang digunakan dalam pembuatan model SVM, yaitu C dan epsilon. C yang dimaksud adalah cost pinalti untuk data yang diklasifikasikan secara salah pada model. Pada penelitian ini, nilai yang C digunakan adalah 1.0. Sedangkan epsilon adalah nilai yang mengontrol lebar dari zona insensitive. Pada penelitian ini akan dicoba menggunakan empat variasi nilai epsilon yaitu 0.1, 0.01, 0.001, dan Variasi nilai ini digunakan untuk menemukan nilai untuk mencapai tingkat akurasi terbaik. Tahap selanjutnya ada memasukkan jenis kernel yang digunakan yaitu linear kernel ke dalam SVM. Setelah semua parameter dimasukkan, maka dilakukan proses pelatihan terhadap seluruh vektor agar menghasil model SVM yang disimpan dalam database. Penyimpanan model dalam database dilakukan untuk mempercepat proses klasifikasi, karena proses pembuatan model membutuhkan waktu yang cukup lama. Pada tahap pengujian, tahap yang dilakukan hampir sama pada tahap pelatihan. Tahap pertama yang dilakukan adalah dengan mangambil kembali model SVM yang tersimpan di database. Tahap selanjutnya dokumen uji dipecah menjadi beberapa kata. Kumpulan kata tersebut kemudian disimpan dalam tabel sementara pada database. Setelah semua kata tersimpan, kemudian proses dilanjutkan dengan perhitungan bobot untuk masing-masing kata. Proses ini diperlukan untuk mengkonversi dokumen uji menjadi vektor. Proses selanjutnya adalah dengan mengambil data kata dokumen uji yang biasa disebut vektor untuk kemudian dimasukkan ke dalam model SVM yang telah dibuat sebelumnya. Evaluasi kinerja klasifikasi Pada tahapan sebelumnya sudah dijelaskan tahap-tahap pembuatan model klasifikasi sampai dengan pengujian dokumen uji. Ada beberapa faktor yang menentukan hasil klasifikasi dokumen uji. Diantaranya adalah panjang dokumen dan nilai epsilon. Tahapan ini akan menjelaskan hasil kinerja klasifikasi berdasarkan beberapa parameter yang telah digunakan. Untuk melihat perbandingan hasil, maka dibuat percobaan klasifikasi dengan dokumen uji sebanyak 150 dokumen dengan masing-masing 75 dokumen pada kategori long document dan 75 dokumen pada kategori short dokumen. Evaluasi dilakukan dengan membandingkan akurasi dari masing-masing nilai epsilon. Tabel 8 adalah perbandingan untuk kategori long document dari akurasi masing-masing nilai epsilon. Tabel 8 Perbandingan kategori long document akurasi Sedangkan untuk perbandingan untuk kategori short document dapat dilihat pada tabel 9. Tabel 9 Perbandingan kategori short document akurasi

24 14 Setelah melihat tabel 8 dan tabel 9, maka bisa disimpulkan bahwa nilai epsilon dan panjangnya data uji sangat mempengaruhi hasil dari klasifikasi. Nilai epsilon 0.01 adalah nilai maksimum untuk mencapai akurasi yang paling baik. Sedangkan untuk kategori dokumen, long document memiliki tingkat akurasi lebih baik dibandingkan dengan short document. Bila dilihat dari nilai epsilon, seharusnya memang semakin kecil nilainya maka akan semakin baik hasilnya. Hal ini terjadi karena nilai epsilon itu adalah jarak antar vektor yang bisa dijadikan acuan untuk menentukan vektor tersebut berada dalam satu kelas atau tidak. Tetapi tidak selamanya nilai epsilon yang rendah akan menghasilkan hasil yang lebih baik. Terbukti pada nilai hasil klasifikasi mulai menurun. Hal ini terjadi karena jarak yang terlalu dekat juga tidak baik, karena jangkauan vektor satu dengan vektor yang lain akan berkurang. Sedangkan bila kita lihat dari kategori dokumen, dapat terlihat jelas bahwa panjang dokumen sangat mempengaruhi hasil klasifikasi. Semakin panjang dokumen maka akan semakin banyak kata yang bisa dihitung bobotnya dan kemudian dijadikan vektor. Vektor inilah yang menjadi masukkan kedalam model SVM. Gambar 6 adalah grafik perbandingan antar nilai epsilon untuk mempermudah dalam melihat progress peningkatan dan penurunan akurasi pada masing-masing kategori dokumen. Perbandingan akurasi berdasarkan kategori dokumen long document short document Gambar 6 Perbandingan akurasi untuk kategori dokumen Sedangkan untuk akurasi keseluruhan tanpa memperhatikan panjang dokumen dapat dilihat pada gambar 7.

25 Perbandingan akurasi seluruh dokumen Gambar 7 Perbandingan akurasi seluruh dokumen Untuk membandingkan hasil penelitian ini dengan penelitian yang dilakukan oleh Ramadina (2011) sebelumnya dengan metode Semantic Smoothing (SS), kita dapat melihat pada gambar 8 dan gambar Dokumen Perbandingan SVM dan Semantic Smoothing untuk short document SVM Semantic Smoothing (SS) Gambar 8 Perbandingan akurasi SVM dan SS (short document) Perbandingan SVM dan Semantic Smoothing untuk long document SVM Semantic Smoothing (SS) Gambar 9 Perbandingan akurasi SVM dan SS (long document)

26 16 Dari perbandingan yang dilihatkan pada gambar 8 dan gambar 9, dapat disimpulkan bahwa penelitian yang dilakukan oleh Ramadina (2011) memiliki akurasi lebih baik dibandingkan hasil pada penelitian ini. Hal ini disebabkan oleh proses semantic smoothing yang dilakukan pada penelitian Ramadina (2011). Sedangkan pada penelitian ini hanya mengandalkan hasil murni dari klasifikasi SVM. Selain itu, pemilihan parameter pada SVM juga sangat penting dalam mempengaruhi hasil klasifikasi dokumen. SIMPULAN DAN SARAN Simpulan Setelah melakukan beberapa percobaan, penelitian ini menghasilkan beberapa simpulan, yaitu : 1. Metode support vector machine cukup baik digunakan untuk mengembangkan sistem klasifikasi dokumen teks. 2. Hasil akurasi terbaik adalah 76 % pada nilai epsilon Pemilihan fitur sangat mempengaruhi kinerja sistem klasifikasi dokumen karena sistem akan bekerja secara efisien. 4. Nilai epsilon dan panjang dokumen uji sangat mempengaruhi hasil klasifikasi dokumen. 5. Semakin kecil nilai epsilon belum tentu meningkatkan hasil klasifikasi dokumen. Saran 1. Perlu dilakukan penelitian lebih lanjut mengenai pemilihan kernel yang akan digunakan. 2. Ada beberapa faktor yang perlu diteliti lebih lanjut untuk meningkatkan hasil klasifikasi seperti nilai C dan kernel yang digunakan. 3. Agar kata yang dihasilkan dari preprossesing lebih akurat dan efisien, maka perlu dilakukan tahap lain selain tahap yang sudah dijelaskan pada penelitian ini. 4. Untuk meningkatkan akurasi klasifikasi, gunakan semantic smoothing seperti yang telah dilakukan oleh Ramadina (2011).

27 17 DAFTAR PUSTAKA Baeza-Yates R, Riberio-Neto B Modern information retrieval. England: Addison Wesley. Christianini, N and J. Shawe-Taylor An introduction to support vector machines and other kernel-based learning methods. Cambridge University Press, Cambridge, U.K. Goller C, et al Automatic document classification : a thorough evaluation of various methods.sail-labs, Mu nchen, Germany. Herawan Y Ekstraksi ciri dokumen tumbuhan obat menggunakan chikuadrat dengan klasifikasi naive bayes [Skripsi]. Departemen Ilmu Komputer FMIPA-IPB. Joachims, T Text categorization with support vector machines : learning with many relevant features. Universitat Dortmund, Germany. Manning, C.D, P. Raghavan, H.Schu tze, An introduction to information retrieval. Cambridge University Press, Cambridge, England. Nugroho AS, Witarto AB, Handoko D Support vektor machine -teori dan aplikasinya dalam bioinformatika-. Kuliah Umum Ilmukomputer.com, Indonesia. Platt JC Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machine. Ramadhina A Klasifikasi dokumen bahasa indonesia menggunakan metode semantic smoothing [Skripsi]. Departemen Ilmu Komputer FMIPA-IPB.

28 18 Lampiran 1 Tabel distribusi nilai chi-kuadrat dengan nilai derajat bebas dan tingkat signifikansi tertentu d.f 2 X.25 2 X.10 2 X.05 2 X X X X Sumber: Ronald J. Wonnacolt and Thomas H. Wonnacot. Statistics: Discovering Its Power, New York: John Willeyand Sons, 1982, hal 352.

29 19 RIWAYAT HIDUP Penulis dilahirkan di Sukoharjo, 5 Juni 1989 dari bapak (alm) Dalimin dan ibu Sri Wiji. Penulis merupakan anak pertama dari 2 bersaudara. Pada tahun 2007 penulis lulus dari SMK Telkom Sandhy Putra Jakarta dan melanjutkan kuliah D3 di Universitas Padjadjaran (Unpad) mengambil jurusan Teknik Informatika. Selama menjalani kuliah di Unpad, penulis menjadi asisten laboratorium internet angkatan Setalah lulus pada tahun 2010, penuli langsung bekerja di sebuah perusahaan swasta yang bergerak di bidang project management. Pada tahun yang sama penulis diterima kuliah di Institu Pertanian Bogor (IPB) di program Alih Jenis Ilmu Komputer. Selama tahun 2007 sampai saat ini penulis aktif di berbagai komunitas developer untuk menunjang pendidikan di luar dunia kampus.