KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI

Ukuran: px
Mulai penontonan dengan halaman:

Download "KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI"

Transkripsi

1 KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Dokumen Teks Menggunakan Metode Support Vector Machine dengan Pemilihan Fitur Chi- Square adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam daftar pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juni 2013 Arini Daribti Putri NIM G

3 ABSTRAK ARINI DARIBTI PUTRI. Klasifikasi Dokumen Teks Menggunakan Metode Support Vector Machine dengan Pemilihan Fitur Chi-Square. Dibimbing oleh JULIO ADISANTOSO. Peningkatan jumlah dokumen membuat masyarakat semakin sulit memperoleh informasi sesuai dengan apa yang diinginkan. Masalah ini memerlukan teknik pengolahan teks yang mengorganisasikan dokumen sesuai dengan ketegorinya. Salah satunya adalah klasifikasi teks. Klasifikasi teks dapat mengorganisasikan dokumen sesuai dengan ketegori yang telah ditentukan sebelumnya secara otomatis. Salah satu metode klasifikasi ruang vektor teks yang populer ialah support vector machine (SVM) yang berusaha mencari bidang pemisah terbaik pada input space. Algoritme ini merupakan algoritme klasifikasi terbaik dibandingkan dengan metode klasifikasi ruang vektor lainnya, yaitu Rocchio, k-nearest neighbor (KNN) dan decision tree. Penelitian ini bertujuan menerapkan dan mengevaluasi metode SVM yang dapat meningkatkan kinerja fungsi klasifikasi dokumen serta mengukur akurasi algoritme SVM dalam proses komputasi. Hasil akhir menunjukkan bahwa kernel linear dan kernel polinomial pada pengujian SVM menghasilkan nilai akurasi yang sama, yaitu % dan pengujian kernel RBF menghasilkan akurasi sebesar % untuk klasifikasi dokumen teks menggunakan pemilihan fitur ciri chi-squared. Kata kunci: klasifikasi teks, mesin pembelajaran, support vector machines ABSTRACT ARINI DARIBTI PUTRI. Text Document Classification Using Support Vector Machine Method with Chi-Square Feature Selection. Supervised by JULIO ADISANTOSO. Increasing number of documents makes people more difficult to obtain the information which they desired. This problem requires text processing techniques to organize the documents in accordance with the categories. One of which is text classification. Text classification can organize document in accordance with predefined categories automatically (supervised machine learning). One popular method of text classification is support vector machines (SVM) that tries to find the best hyperplane in the input space. This algorithm is the best classification algorithm compared with other vector space classification method, namely Rocchio, k-nearest neighbor (KNN) and decision tree. This research measures the suitability of SVM for text classification and to prove whether the SVM is able to classify the documents in a linear separable manner. The final result shows that linear kernel and polynomial kernel in the SVM test produce the same accuracy value of % and testing the RBF kernel produces accuracy of % for classification of text documents using chi-squared feature selection. Keywords: text classification, machine learning, support vector machines

4 KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN INSTITUT PERTANIAN BOGOR BOGOR 2013

5

6 Judul Skripsi : Klasifikasi Dokumen Teks Menggunakan Metode Support Vector Machine dengan Pemilihan Fitur Chi-Square. Nama : Arini Daribti Putri NIM : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing I Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

7 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga sehingga penulis dapat menyelesaikan tugas akhir dengan judul Klasifikasi Dokumen Teks Menggunakan Metode Support Vector Machine dengan Pemilihan Fitur Chi-Square. Penulis juga menyampaikan terima kasih kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, yaitu: 1. Ayahanda Ibrahim, Ibunda Nuriyanti, serta keluarga besar penulis (Hendra Rianda, Rindu, dan Riski Ramadhanif) yang selalu memberikan doa, nasihat, semangat, dan kasih sayang yang luar biasa kepada penulis. 2. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir yang memberikan bimbingan, ide, dukungan, semangat serta kesabaran dalam pengerjaan tugas akhir ini. 3. Bapak Ahmad Ridha dan Bapak Musthafa selaku dosen penguji yang telah memberi masukan dan saran pada tugas akhir penulis. 4. Kak Wido dan Sapariansyah atas kerjasamanya dalam menyelesaikan tugas akhir ini. 5. Rekan satu bimbingan Damayanti Elizabeth, Rahmatika Dewi, Fitria Rahmadina, Achmad Mansur Z, Tedy Saputra, dan Edo Apriyadi. Terima kasih atas bantuan, kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini. 6. Mellisa, Sasa, Haikal, Vony, Galih, Dola, Julian, Kak Zhia, Dhila. Terima kasih atas semangat dan dukungannya yang telah diberikan kepada penulis. Semoga kita bisa berjumpa kembali kelak sebagai orang-orang sukses. 7. Seluruh keluarga besar IKPMR yang terus menyebarkan energi positif dan memberikan semangat kepada penulis selama melaksanakan tugas akhir ini. 8. Seluruh keluarga besar KRIBONDING, KOST HARMONI 2 yang selalu bersedia mendengarkan keluh kesah, dan memberikan semangat kepada penulis selama melaksanakan tugas akhir ini. 9. Seluruh rekan-rekan Ilmu Komputer angkatan 46 atas segala kebersamaan, bantuan, canda tawa, dan kenangan indah serta semangat bagi penulis slama masa studi. Semoga kita semua bisa berjumpa kembali kelak sebagai orangorang sukses. Bogor, Juni 2013 Arini Daribti Putri

8

9 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 METODE 3 Gambaran Umum Sistem 3 Data Penelitian 3 Praproses 4 Pemilihan Fitur Ciri 4 Pembobotan Kata 6 Klasifikasi Dokumen 6 Pengujian 9 Lingkungan pengembangan sistem 9 HASIL DAN PEMBAHASAN 10 Pengumpulan Dokumen 10 Praproses 10 Pemilihan Fitur Ciri dan Pembobotan Kata 10 Klasifikasi Dokumen 11 Pengujian 13 SIMPULAN DAN SARAN 15 Simpulan 15 Saran 15 DAFTAR PUSTAKA 15 LAMPIRAN 17

10 DAFTAR TABEL 1 Tabel kontingensi antara kata terhadap kelas 5 2 Nilai kritis χ 2 untuk taraf nyata α 6 3 Confusion matrix untuk klasifikasi biner 9 4 Deskripsi dokumen uji (.xml) 10 5 Hasil tahap pemilihan fitur ciri dengan taraf nyata Matriks dimensi M N klasifikasi 12 7 Hasil akurasi parameter terbaik pada pemodelan setiap kernel 13 8 Confusion matrix SVM dengan data Confusion matrix SVM dengan data DAFTAR GAMBAR 1 Tahap penelitian 3 2 SVM berusaha menemukan bidang pemisah terbaik (Manning et al. 2008) 7 3 Transformasi klasifikasi dua dimensi ke dalam ruang fitur tiga dimensi (Gijsberts 2007) 8 DAFTAR LAMPIRAN 1 Hasil pengujian setiap kernel 17 2 Hasil grid search pada kernel RBF 18

11 PENDAHULUAN Latar Belakang Perkembangan teknologi informasi yang melibatkan banyak dokumen semakin meningkat. Penyimpanan dokumen yang berisi tentang segala sumber informasi dari penyedia sumber informasi tersebut tersebar di berbagai lokasi. Penyebaran informasi tersebut banyak dilakukan dengan menggunakan media berupa halaman web. Menurut riset dari Hearst (2003), ukuran data di media Internet tahun 2002 mencapai Terabytes dengan sekitar 41.7%-nya adalah teks. Berdasarkan Netcraft Web Server Survey, jumlah halaman yang aktif pada Mei 2008 adalah 168 milyar situs web. Volume yang besar membuat masyarakat semakin sulit memperoleh informasi sesuai dengan yang diinginkan. Untuk itu, diperlukan teknik pengolahan teks yang mengorganisasikan dokumen sesuai dengan ketegorinya, sehingga informasi yang tersedia dapat terorganisasi dengan baik dan mudah diakses sesuai dengan kebutuhan pengguna. Salah satu metode yang dapat digunakan adalah klasifikasi dokumen. Klasifikasi dokumen adalah proses menggolongkan suatu dokumen ke dalam suatu kategori tertentu (Manning et al. 2008). Klasifikasi termasuk teknik pembelajaran mesin atau biasa disebut supervised learning. Menurut Manning et al. (2008), supervised learning adalah proses pembelajaran mengenai ciri dari tiap-tiap kategori yang ada. Teknik ini membangun sebuah classifier yang mempelajari ciri tiap kategori berdasarkan dokumen latih yang dimiliki. Beberapa metode klasifikasi yang dapat digunakan dalam proses pembelajaran, yaitu multinomial naive bayes, multivariate Bernoulli model, Rocchio classification, k-nearest Neighbor (KNN), dan support vector machine (SVM). Peningkatan dokumen akan mempengaruhi kinerja klasifikasi yang menyebabkan kerja sistem classifier akan semakin berat. Hal tersebut dikarenakan sistem klasifikasi mengambil isi dari uraian setiap dokumen. Salah satu cara untuk meningkatkan kinerja dari sistem klasifikasi dengan menerapkan teknik pemilihan fitur dokumen. Pemilihan fitur merupakan suatu metode yang bertujuan untuk mengurangi jumlah kata yang digunakan untuk menjadi penciri dan meningkatkan akurasi hasil klasifikasi. Ada beberapa teknik yang digunakan untuk melakukan pemilihan fitur dokumen antara lain document frequency thresholding (DF), information gain (IG), mutual information (MI), term strength (TS) dan chi-square testing (χ 2 ) (Yang et al. 2003). Penelitian klasifikasi teks menggunakan pemilihan fitur ciri yang telah dilakukan sebelumnya, antara lain Herawan (2011) menggunakan metode naive bayes dengan ekstraksi ciri chi-square dan Saputra (2012) menggunakan metode semantic smoothing dengan ekstraksi ciri chi-square. Akurasi yang diperoleh dari penelitian dengan menggunakan naive Bayes adalah 93.26% dan semantic smoothing adalah 95.55%. Hal ini membuktikan bahwa kedua penelitian tersebut dapat digunakan untuk melakukan klasifikasi dokumen teks. Namun metode ini cocok untuk dokumen yang relatif pendek. Penelitian ini menggunakan teknik klasifikasi yang mampu memisahkan dokumen secara linear menggunakan metode SVM dengan pemilihan fitur ciri chisquare. Support vector machine merupakan supervised learning di mana metode ini berusaha mencari hyperplane (bidang pemisah) terbaik pada input space,

12 2 sehingga masalah klasifikasi non-linear dapat diselesaikan dengan cara meningkatkan dimensi ruangnya (Pilászy 2005). Pada metode SVM terdapat fungsi kernel yang memetakan data ke ruang vektor yang berdimensi lebih tinggi sehingga kelas dapat dipisahkan secara linear oleh sebuah bidang pemisah. Dengan demikian metode ini diharapkan dapat menghasilkan kinerja klasifikasi lebih baik dan lebih efisien. Perumusan Masalah Perumusan masalah pada penelitian ini adalah: 1 Apakah SVM mampu mengkategorikan dokumen teks? 2 Seberapa besar akurasi yang dihasilkan dari SVM dalam mengklasifikasikan dokumen dengan menggunakan pemilihan fitur chi-square? 3 Apa pengaruh pemilihan fitur chi-square terhadap klasifikasi SVM? Tujuan Penelitian Tujuan penelitian ini adalah menerapkan dan mengevaluasi metode SVM menggunakan pemilihan fitur chi-square yang dapat meningkatkan kinerja fungsi klasifikasi dokumen teks serta mengukur akurasi algoritme SVM dengan melihat pengaruh pemilihan fitur chi-square dalam proses komputasi. Manfaat Penelitian Penelitian ini diharapkan dapat menambah metode klasifikasi dokumen dan membantu dalam mengorganisasikan dokumen secara cepat, efisien, dan memiliki kinerja sangat baik. Ruang Lingkup Penelitian Ruang lingkup penelitian ini meliputi: 1 Dokumen yang digunakan adalah dokumen berbahasa Indonesia berisi tentang pertanian berjumlah 457 dokumen dalam format XML. 2 Koleksi dokumen dibagi menjadi dua kelas yaitu kelas tanaman obat dan kelas hortikultura. 3 Penelitian difokuskan kepada klasifikasi dokumen dengan menggunakan metode klasifikasi SVM. 4 Pemodelan dan pengujian SVM menggunakan Matlab R2008b dengan menggunakan Library for Support Vector Machine (LIBSVM).

13 3 METODE Gambaran Umum Sistem Alur dari penelitian secara garis besar ditunjukkan pada Gambar 1. Beberapa tahap dari sistem yaitu pengumpulan dokumen, praproses, pembagian data, pemodelan dan pengujian hasil klasifikasi. Gambar 1 Tahap penelitian Pada penelitian ini, data yang diproses merupakan koleksi dokumen yang dibagi menjadi dua kategori yaitu data latih dan data uji. Kedua kategori data tersebut akan digunakan pada tahapan praproses yang terdiri atas tokenisasi, stopword, pemilihan fitur ciri, dan pembobotan. Tahap selanjutnya adalah pemodelan dengan menggunakan metode klasifikasi SVM pada data latih dan hasilnya digunakan sebagai dasar pembuatan model SVM. Setelah itu dilakukan pengujian model klasifikasi terhadap dokumen uji yang sudah diketahui kelasnya dan dilakukan proses perhitungan hasil klasifikasi. Data Penelitian Data penelitian yang digunakan merupakan penggabungan hasil koleksi dokumen tumbuhan obat dan dokumen hortikultura yang berasal dari Laboratorium Temu Kembali Informasi IPB yang sudah pernah digunakan pada penelitian Herawan (2011) dan Sari (2012).

14 4 Koleksi dokumen yang digunakan sebanyak 457 dokumen dibagi menjadi 70% dokumen latih (320 dokumen) dan 30% dokumen uji (137 dokumen). Data latih digunakan sebagai input pelatihan pengklasifikasi SVM dan data uji digunakan untuk menguji model hasil pelatihan SVM. Data ini merupakan dokumen berbahasa Indonesia dengan format XML. Kusnawi (2010) menyatakan bahwa XML merupakan bahasa markup yang dirancang untuk penyampaian informasi melalui website dan juga dapat digunakan untuk pertukaran informasi antar sistem database. Praproses Tahapan awal dalam proses klasifikasi setelah dokumen tersedia adalah praproses. Tahap pertama yang dilakukan saat praproses adalah tokenisasi, yaitu proses pemisahan kata dari dokumen dengan menggunakan karakter spasi sebagai tanda pemisahnya (Wibowo 2010). Proses ini diawali dari mengambil isi dokumen dengan tabel corpus, selanjutnya dilakukan proses pembacaan seluruh karakter yang terdapat pada dokumen, baik karakter huruf, angka, tanda baca dan karakter yang tidak terlihat. Dengan demikian, tokenisasi membagi teks input menjadi unitunit kecil yang dapat berupa suatu kata atau angka. Tahap kedua yaitu membuang daftar kata yang tidak bermakna yang biasa disebut stopword. Kata yang tercantum dalam daftar koleksi dokumen dibuang dan tidak ikut diproses pada tahap selanjutnya. Kata-kata yang termasuk dalam stopwords pada umumnya merupakan kata-kata yang sering muncul di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen (Herawan 2011). Proses ini bertujuan mengekstrak kata yang tidak penting dari dokumen. Pemilihan Fitur Ciri Pemilihan fitur merupakan suatu proses memilih subset dari setiap kata unik yang ada di dalam himpunan dokumen latih yang akan digunakan sebagai fitur di dalam klasifikasi dokumen (Manning et al. 2008). Menurut Manning et al. (2008), pemilihan fitur memiliki dua tujuan, yaitu mengurangi jumlah kata yang digunakan dan meningkatkan akurasi hasil klasifikasi. Ada beberapa metode pemilihan fitur yang baik untuk proses klasifikasi dokumen, yaitu pemilihan fitur berbasis frekuensi, information gain, dan chi-square (χ 2 ). Pada penelitian ini, pemilihan fitur dilakukan dengan metode chi-square. Chisquare merupakan pengujian hipotesis mengenai perbandingan antara frekuensi contoh yang benar-benar terjadi dengan frekuensi harapan yang didasarkan atas hipotesis tertentu pada setiap kasus atau data (Herawan 2011). Perhitungan nilai chi-square yang digunakan untuk melakukan pengujian perbedaan antara pola frekuensi observasi (o i ) dengan frekuensi harapan (e i ) menggunakan formula : k χ 2 = (o i e i ) 2 i=1 e i (1) dengan

15 5 e i = fk fb T Σfk adalah jumlah frekuensi pada kolom, Σfb adalah jumlah frekuensi pada baris dan ΣT = jumlah keseluruhan baris atau kolom. Berdasarkan nilai chi-square pada Persamaan 1 dapat diambil suatu keputusan statistik apakah terjadi perbedaan antara pola frekuensi observasi dengan frekuensi harapan. Hipotesis nol (H0) diterima jika nilai χ 2 < nilai kritis pada derajat bebas dan taraf nyata tertentu. Hipotesis nol (H0) ditolak jika nilai χ 2 > nilai kritis pada derajat bebas dan taraf nyata tertentu. Pada penelitian ini, chi-square (χ 2 ) mengukur derajat bebas tiap kata penciri t dengan kelas c agar dapat dibandingkan dengan sebaran χ 2 (Mesleh 2007). Chisquare menguji hubungan atau pengaruh dua variabel dan mengukur keterkaitan antara variabel satu dengan lainnya. Penghitungan nilai chi-square pada setiap kata t yang muncul pada setiap kelas c dapat dibantu dengan menggunakan tabel kontingensi (Tabel 1). Nilai yang terdapat pada tabel kontingensi merupakan nilai frekuensi observasi dari suatu kata terhadap kelas. Tabel 1 Tabel kontingensi antara kata terhadap kelas Kata Kelas A B 0 C D Penghitungan nilai chi-square berdasarkan Tabel 1 pada Persamaan 1 dapat disederhanakan menjadi: χ 2 N(AD-CB) 2 (t,c)= (A+C)(B+D)(A+B)(C+D) dengan t merupakan kata yang sedang diujikan terhadap suatu kelas c, N merupakan jumlah dokumen latih, A merupakan banyaknya dokumen pada kelas c yang memuat kata t, B merupakan banyaknya dokumen yang tidak berada di c namun memuat kata t, C merupakan banyaknya dokumen yang berada di kelas c namun tidak memiliki kata t di dalamnya, serta D merupakan banyaknya dokumen yang bukan merupakan dokumen kelas c dan tidak memuat kata t. Pengambilan keputusan dilakukan berdasarkan nilai χ 2 dari masing-masing kata. Kata yang memiliki nilai χ 2 di atas nilai kritis pada taraf nyata α adalah kata yang akan dipilih sebagai penciri dokumen. Kata yang dipilih sebagai penciri merupakan kata yang memiliki pengaruh terhadap kelas c. Nilai kritis χ 2 untuk taraf nyata α ditunjukkan pada Tabel 2.

16 6 Tabel 2 Nilai kritis χ 2 untuk taraf nyata α α Nilai kritis Penelitian ini menggunakan satu taraf nyata α yaitu 0.01 yang diartikan bahwa kriteria kata yang dipilih sebagai penciri dokumen adalah kata yang memiliki nilai χ 2 lebih besar atau sama dengan Hasil pemilihan fitur ini akan dilakukan pembobotan dan kata-kata yang dipilih sebagai penciri tersebut akan digunakan sebagai data masukan untuk klasifikasi. Pembobotan Kata Proses pembobotan dari suatu kata yang terpilih dengan menggabungkan aspek lokal dan global pada setiap term, yaitu menghitung term frequency (tf) dari setiap dokumen yang ada di koleksi dokumen dikalikan dengan bobot global inverse document frequency (idf) pada setiap term. tft,d idf di mana tf adalah jumlah kemunculan setiap term t dalam sebuah dokumen d dan dinotasikan dengan tft,d sedangkan idf dari sebuah term t adalah kemunculan term t pada keseluruhan dokumen disebut juga pembobotan global yaitu: idf = log N dft dengan N adalah banyaknya dokumen dan dft adalah jumlah dokumen yang mengandung term t. Hasil dari pembobotan ini selanjutnya digunakan pada tahap klasifikasi dokumen. Klasifikasi Dokumen Klasifikasi dibedakan menjadi dua jenis yaitu klasifikasi berbasis peluang dan klasifikasi ruang vektor. Manning et al. (2008) menyatakan ada beberapa algoritme yang dapat dilakukan untuk melakukan klasifikasi dokumen berbasis vektor yaitu Rocchio, KNN, decision tree (DT) dan SVM. Chenometh et al. (2009) merangkum perbandingan antara empat klasifikasi berbasis ruang vektor yang sering digunakan dalam kategori teks yaitu Rocchio, KNN, DT, dan SVM. Chenometh et al. (2009) menyatakan bahwa SVM merupakan algoritme klasifikasi terbaik dibandingkan dengan lainnya, meskipun sangat mudah terjadi error dalam data training. Sedangkan Kaiser et al. (2005) menyatakan teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi

17 model yang dipelajari. KNN dan SVM merupakan algoritme yang memberikan hasil klasifikasi terbaik dengan presisi di atas 85%. Hasil data latih dari semua tahap praproses terdiri atas beberapa dokumen berupa vektor dari frekuensi kemunculan fitur yang digunakan pada sistem klasifikasi untuk mengkategorikan dokumen. Metode klasifikasi yang digunakan adalah SVM yang berusaha mencari bidang pemisah terbaik pada input space (Pilászy 2005). Bidang pemisah terbaik ialah bidang pemisah yang menghasilkan nilai margin terbesar dan berada di tengah-tengah antara dua set objek dari dua kelas (Gambar 2). Nilai margin merupakan jarak antara bidang pemisah dengan elemen terluar dari kedua kelas. Dalam hal ini fungsi pemisah yang dicari adalah fungsi linear sebagai berikut: f(x) = sign (w T xi + b = 0) dengan w adalah bobot yang merepresentasikan posisi hyperplane pada bidang normal, x adalah vektor data masukan, dan b adalah bias yang merepresentasikan posisi bidang relatif terhadap pusat koordinat. 7 Gambar 2 SVM berusaha menemukan bidang pemisah terbaik (Manning et al. 2008) Selanjutnya data dikelompokkan dengan menggunakan fungsi pemisah yang sudah ditemukan, di mana untuk menentukan kelasnya w.xi + b = +1 adalah bidang pemisah pendukung dari kelas +1 dan w.xi + b = 1 adalah bidang pemisah pendukung dari kelas 1. Secara matematika, mencari bidang pemisah terbaik ekuivalen dengan memaksimalkan margin antara dua kelas yang dihitung dengan formula 2 w 2. Memaksimalkan margin antara kedua kelas sama dengan meminimumkan fungsi tujuan 1 2 w 2 dengan memperhatikan pembatas yi(w xi+b) 1 di mana xi adalah data input dan yi adalah keluaran dari data xi. Selanjutnya, masalah klasifikasi diformulasikan ke dalam quadratic programming (QP) problem yang dapat diselesaikan dengan Lagrange multiplier:

18 8 L(w, b, α) = 1 w 2 αi 2 i=1 yi (w. xi + b 1) dengan i adalah Lagrange multiplier yang berkorespondensi dengan xi. SVM dapat menyelesaikan masalah klasifikasi non-linear dengan cara meningkatkan dimensi ruangnya (Gambar 3). Untuk itu, terdapat fungsi kernel yang memetakan data ke ruang vektor yang berdimensi lebih tinggi, sehingga kedua buah kelas dapat dipisahkan secara linear oleh sebuah bidang pemisah pada ruang vektor yang baru. N Gambar 3 Transformasi klasifikasi dua dimensi ke dalam ruang fitur tiga dimensi (Gijsberts 2007) Ada beberapa bentuk fungsi kernel, yaitu: 1 Fungsi linear (tanpa kernel) Persamaan fungsi linear adalah, 2 Fungsi polinomial Persamaan fungsi polinomial adalah, 3 Fungsi RBF Persamaan fungsi polinomial adalah, K(x,xi) = xi T x K(x,xi) = (γ xi T x + r ) d K(x,xi) = exp(-γ xi-x ) 2 Fungsi keputusannya (decision surface) setelah dilakukan kernel dapat ditulis dalam: N f(x)=sign( α y K(x,xi) +b) i=1 Pada penelitian ini proses pelatihan SVM dilakukan dengan menggunakan fungsi kernel linear, polinomial, dan RBF. Parameter yang digunakan adalah

19 parameter terbaik dari hasil proses cross-validation dengan nilai fold ialah 5. Penelitian ini menggunakan LIBSVM. Setelah didapatkan hasil klasifikasi tiap kelas dari dokumen latih berdasarkan klasifikasi SVM, maka proses selanjutnya dilakukan pengujian metode SVM dari dokumen uji terhadap dokumen latih. Pengujian Pengujian hasil klasifikasi dokumen dilakukan untuk mengetahui tingkat keakurasian klasifikasi SVM. Pengujian dilakukan pada hasil kelas untuk data uji terhadap data latih. Pengujian penelitian ini menggunakan metode confusion matrix dan perhitungan tingkat akurasi. Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan salah oleh model klasifikasi, yang digunakan untuk menentukan kinerja suatu model klasifikasi (Tan et al. 2006). Pengujian dilakukan untuk mendapatkan tingkat akurasi hasil prediksi yang berupa jumlah true positive, true negative, false positive, dan false negative pada Tabel 3. 9 Tabel 3 Confusion matrix untuk klasifikasi biner Actual Class Predicted class F11 F10 0 F01 F00 Perhitungan akurasi dinyatakan dalam persamaan berikut : Akurasi = F11+F00 F11+F10+F01+F00 Lingkungan pengembangan sistem Penelitian ini menggunakan perangkat lunak dan perangkat keras dengan spesifikasi adalah sebagai berikut: 1 Perangkat lunak: Sistem operasi Microsoft Windows 8 Notepad++ sebagai code editor Matlab R2008b Java dan PHP MySQL sebagai bahasa pemrograman pada praproses Microsoft Office 2013 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem

20 10 2 Perangkat keras: Intel Pentium Core Ghz Memori 2990MB RAM Harddisk dengan kapasitas sisa 300GB Monitor resolusi pixel Mouse dan keyboard HASIL DAN PEMBAHASAN Pengumpulan Dokumen Dokumen yang digunakan terdiri atas 457 dokumen untuk masing-masing kelas, yaitu kelas tanaman obat dan kelas hortikultura. Keseluruhan kelas yang berjumlah 457 terbagi menjadi 320 dokumen latih dan 137 dokumen uji. Deskripsi dokumen uji yang digunakan dapat dilihat pada Tabel 4. Tabel 4 Deskripsi dokumen uji (.xml) Dokumen bytes Ukuran rata-rata dokumen 1790 Ukuran seluruh dokumen Ukuran dokumen terbesar Ukuran dokumen terkecil 935 Adapun dokumen dikelompokkan ke dalam tag sebagai berikut: <dok></dok>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik. <id></id>, tag ini menunjukkan ID dari dokumen. <content></content>, menunjukkan isi atau informasi dari dokumen. Praproses Pengindeksan keseluruhan dokumen yang dilakukan pada tahap tokenisasi dan pembuangan stopword menghasilkan kata di mana 6802 kata yang berupa kata unik yang ditemui di setiap dokumen dalam keseluruhan dokumen latih. Pemilihan Fitur Ciri dan Pembobotan Kata Hasil keluaran dari tahap praproses berupa vektor kata unik dan selanjutnya dilakukan pembobotan tf-idf pada setiap term. Hasil kata tersebut menghasilkan matriks yang digunakan untuk tahap klasifikasi di mana ukuran matriks untuk data latih sebanyak dan ukuran matriks untuk data uji sebanyak Vektor tersebut diproses pada tahap pemilihan fitur ciri. Metode yang digunakan pada pemilihan fitur ciri ini yaitu chi-square. Pada metode chi-square

21 diperlukan taraf nyata α yang merupakan kesalahan yang dibuat pada waktu menguji hipotesis, menolak H0 padahal H0 benar. Taraf nyata α yang digunakan yaitu 0.01 agar peluang kesalahan sebesar 1%. Pemilihan nilai taraf nyata 0.01 berdasarkan riset penelitian Saputra (2012) yang menyatakan kinerja klasifikasi pada taraf nyata 0.01 lebih baik daripada taraf nyata 0.05 karena pada taraf nyata 0.01 menghasilkan himpunan kata penciri lebih sedikit. Berdasarkan teori terpenuhinya hipotesis, taraf nyata 0.01 dapat diartikan bahwa kriteria kata yang dipilih adalah kata yang memiliki nilai χ 2 di atas Hasil dari tahapan pemilihan fitur ciri adalah 1233 kata unik pada kelas tanaman obat dan 337 kata unik pada kelas hortikultura (Tabel 5). Kumpulan kata yang dihasilkan pada tahapan pemilihan fitur inilah yang kemudian hanya akan diolah pada sistem klasifikasi. Tabel 5 Hasil tahap pemilihan fitur ciri dengan taraf nyata 0.01 No Kelas Jumlah kata unik 1 Tanaman obat Hortikultura Kata achantaceae, gelsemium merupakan salah satu contoh kata yang hanya terdapat pada kelas tanaman obat. Kata budidaya, lingkungan merupakan salah satu contoh kata yang hanya terdapat pada kelas hortikultura. Ada beberapa kata yang sama, seperti kata zat, tropis, petani terdapat pada kelas tanaman obat dan hortikultura. Setelah didapatkan hasil pemilihan fitur, kata-kata yang terpilih oleh chisquare akan menjadi penciri suatu kelas. Kemudian, untuk semua term pada masing-masing dokumen dihitung bobotnya sehingga dapat digunakan dalam proses klasifikasi. Klasifikasi Dokumen Seluruh hasil data praproses dengan menggunakan pembobotan idf dan pemilihan fitur ciri chi-square merupakan matriks yang digunakan sebagai data latih dan data uji. Pada tahap praproses dengan menggunakan pembobotan idf menghasilkan ukuran matriks data latih sebanyak , menunjukkan 320 baris matriks yang menjelaskan tentang banyaknya dokumen dan 6802 kolom yang menjelaskan kata unik hasil pembuangan stopword yang akan digunakan. Pada data uji terdapat matriks sebanyak yang menunjukkan 137 baris (banyaknya dokumen) dan 6802 kolom (kata unik yang digunakan). Sedangkan proses pemilihan fitur ciri chi-square memiliki ukuran matriks data latih sebanyak menunjukkan 320 baris matriks yang menjelaskan tentang banyaknya dokumen dan 1309 kolom yang menjelaskan kata unik yang akan digunakan. Pada data uji terdapat matriks sebanyak yang menunjukkan 137 baris (banyaknya dokumen) dan 1309 kolom (kata unik yang digunakan). Matriks yang akan diolah untuk klasifikasi terdapat pada Tabel 6.

22 12 Tabel 6 Matriks dimensi M N klasifikasi Metode Training Testing tf-idf Chi-square Semua data matriks dilatih dan diuji dengan fungsi kernel linear, kernel polynomial dan kernel RBF sehingga untuk mengklasifikasikan data yang tidak dapat dipisahkan secara linear, formula SVM mentransformasikan data ke dalam dimensi ruang fitur dengan menggunakan fungsi kernel. Proses pelatihan dan pengujian ini bertujuan membangun model klasifikasi dan menghitung tingkat akurasi SVM dalam memprediksi data uji. Proses pemodelan dapat dilihat pada Lampiran 1. Pelatihan SVM membutuhkan parameter sesuai dengan kernelnya. Untuk mengoptimalkan parameter maka dilakukan proses grid search pada saat pelatihan. Grid search dijalankan menggunakan k-fold cross validation. Nilai k-fold yang digunakan pada penelitian ini yaitu sebesar 5-fold. Setiap proses pelatihan SVM yang menggunakan fungsi kernel diperlukan parameter terbaik untuk mendapatkan akurasi yang terbaik jika mencapai rataan nilai tertinggi. Namun pada penelitian ini didapatkan rataan nilai hampir sama di setiap iterasi pemodelan sehingga pengambilan parameter dilakukan pada nilai akurasi tertinggi pertama. Untuk melihat pengaruh pemilihan parameter maka pelatihan dicoba dengan menggunakan kernel RBF. Hasil grid_search dapat dilihat pada Lampiran 2. Pada pelatihan SVM yang menggunakan fungsi kernel linear diperlukan parameter c (cost) dan kemudian akan dicari parameter terbaik yang akan digunakan pada tahap pengujian. Pada penelitian ini dihasilkannya nilai parameter terbaik sebesar % di setiap proses cross-validation. Tetapi hanya akan diambil satu nilai parameter terbaik untuk pengujian. Ini disebabkan karena parameter c pada kernel linear tidak mempengaruhi akurasi cross-validation pada saat training dan fungsi kernel linear tidak memiliki pengaruh terhadap pemetaan data ke ruang vektor yang lebih tinggi. Pada fungsi kernel polinomial diperlukan parameter c (cost), γ (gamma), d (degree) dan r (coef0) yang akan dicari parameter terbaik digunakan pada tahap pengujian. Pada fungsi kernel RBF diperlukan parameter c (cost), γ (gamma) kemudian akan dicari parameter terbaik yang akan digunakan pada tahap pengujian. Pemilihan parameter terbaik untuk kedua data latih dapat dilihat pada Tabel 7. Pemilihan parameter terbaik untuk kernel linear dengan metode 5-fold crossvalidation dilakukan pada rentang 2-5 c 2 15 dengan hasil akurasi %. Pemilihan parameter terbaik untuk kernel polinomial dengan metode 5- fold crossvalidation menghasilkan parameter c pada rentang 2-5 c 2 15, parameter γ (gamma) pada rentang 2-15 γ 2 3, parameter d (degree) pada rentang 1 d 4, dan parameter r (coef0) pada rentang 0 x 4 dengan akurasi cross-validation sebesar %. Pada penggunaan kernel RBF dengan metode 5-fold crossvalidation menghasilkan parameter terbaik untuk c (cost) pada rentang 2-5 c 2 15 dan parameter γ (gamma) pada rentang 2-15 γ 2 3 dengan hasil akurasi crossvalidation yaitu %.

23 13 Tabel 7 Hasil akurasi parameter terbaik pada pemodelan setiap kernel Data Parameter Kernel c d γ r Akurasi (cost) (degree) (gamma) (coef0) Linear % Polinomial % RBF % Linear % Polinomial % RBF % Pengujian Pengujian dilakukan terhadap ketiga model kernel SVM dengan menggunakan ukuran data sebanyak dan Pengujian data tersebut menggunakan parameter model klasifikasi terbaik untuk menentukan hasil klasifikasi akhir. Perhitungan hasil klasifikasi SVM untuk kelas a (tanaman obat) dan kelas b (hortikultura) berupa confusion matrix. Perhitungan akurasi untuk ukuran data menggunakan confusion matrix di mana total jumlah data yang benar dibagi dengan total keseluruhan data uji dapat dilihat pada Tabel 8. Hasil perhitungan akurasi dengan kernel linear pada kelas a yang benar adalah 0 dan untuk jumlah dokumen yang salah berjumlah 39, sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan untuk jumlah dokumen yang salah berjumlah 0. Hasil perhitungan akurasi untuk kernel polinomial pada kelas a yang benar adalah 0 dan untuk jumlah dokumen yang salah berjumlah 39, sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan untuk jumlah dokumen yang salah berjumlah 0. Hasil perhitungan akurasi untuk kernel RBF pada kelas a yang benar adalah 4 dan untuk jumlah dokumen yang salah berjumlah 36, sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan untuk jumlah dokumen yang salah berjumlah 0. Perhitungan akurasi untuk ukuran data menggunakan confusion matrix di mana total jumlah data yang benar dibagi dengan total keseluruhan data uji dapat dilihat pada Tabel 9. Hasil perhitungan akurasi dengan kernel linear pada kelas a yang benar adalah 35 dan untuk jumlah dokumen yang salah berjumlah 4, sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan untuk jumlah dokumen yang salah berjumlah 0. Hasil perhitungan akurasi untuk kernel polinomial pada kelas a yang benar adalah 35 dan untuk jumlah dokumen yang salah berjumlah 4, sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan untuk jumlah dokumen yang salah berjumlah 0. Hasil perhitungan akurasi untuk kernel RBF pada kelas a yang benar adalah 35 dan untuk jumlah dokumen yang salah berjumlah 4, sedangkan pada kelas b jumlah dokumen yang benar adalah 97 dan untuk jumlah dokumen yang salah berjumlah 1.

24 14 Tabel 8 Confusion matrix SVM dengan data Kelas a b Kernel linear a 0 40 b 0 97 Kernel polinomial a 0 40 b 0 97 Kernel RBF a 4 36 b 0 97 Tabel 9 Confusion matrix SVM dengan data Kelas a b Kernel linear a 35 4 b 0 97 Kernel polinomial a 35 4 b 0 97 Kernel RBF a 35 4 b 1 96 Pada ukuran matriks data uji sebesar yang diperoleh dari pemilihan bobot idf, nilai akurasi untuk kernel linear, kernel polinomial dan kernel RBF masing-masing menghasilkan 70.80%, 70.80% dan 73.72%. Sedangkan pada ukuran matriks data uji sebesar yaitu data uji dengan pemilihan fitur chi-square, setiap kernel pada metode klasifikasi SVM memiliki hasil akurasi yang baik, di mana kernel linear, kernel polinomial dan kernel RBF masing-masing menghasilkan 96.35%, 96.35% dan 95.62%. Dari hasil akurasi yang didapatkan dengan membandingkan hasil akurasi data menggunakan pemilihan fitur chi-square dan menggunakan pemilihan berdasarkan pembobotan idf, diperoleh data yang sangat berbeda di mana hasil akurasi dengan menggunakan chi-square lebih baik daripada menggunakan pemilihan berdasarkan bobot idf. Hal ini menunjukkan bahwa pemilihan fitur chi-square terhadap metode SVM dengan menggunakan ketiga kernel tersebut mampu mengklasifikasi dokumen teks dengan dua kelas sesuai dengan teori SVM yang dikembangkan untuk masalah klasifikasi dengan dua kelas. Ini dikarenakan pemilihan fitur chisquare membantu dan memiliki pengaruh dalam memisahkan data secara linear sehingga data yang diklasifikasikan dengan menggunakan SVM dapat dipisahkan lebih linear. Dengan akurasi ketiga kernel dapat dibuktikan bahwa SVM dengan menggunakan pemilihan fitur chi-square memiliki akurasi yang lebih baik dibandingkan dengan metode klasifikasi dan pemilihan fitur chi-square pada riset

25 sebelumnya, seperti riset Herawan (2011) dengan akurasi 93.26% dan Saputra (2012) dengan akurasi 95.55%. 15 SIMPULAN DAN SARAN Simpulan Hasil penelitian menunjukkan bahwa pemilihan fitur chi-square terhadap SVM memberikan hasil akurasi yang baik untuk klasifikasi dokumen teks dengan dua kelas. Pada pengujian ukuran data matriks ( ) terhadap metode SVM dengan menggunakan kernel linear dan polinomial dihasilkan nilai akurasi sama baik, yaitu 96.35% dan pada kernel RBF dihasilkan akurasi sebesar 95.62%. Dari percobaan yang telah dilakukan, klasifikasi dapat berjalan baik pada data latih sebesar 320 dokumen. Ini dibuktikan dengan akurasi cross-validation sebesar 99.69% pada saat pemodelan SVM. Dengan demikian, pemilihan fitur chi-square membantu klasifikasi SVM dalam mengorganisasikan dokumen secara cepat, efisien, dan dapat meningkatkan kinerja sistem klasifikasi. Saran Penelitian ini masih memiliki banyak kekurangan yang memerlukan pengembangan lebih lanjut. Berdasarkan penelitian, pengujian ini dilakukan pada data yang jumlahnya relatif sedikit dan belum dapat dikatakan valid jika dibandingkan dengan metode lain. SVM diharapkan mampu diujicobakan pada penelitian dengan data skala besar dan multikelas sehingga hasil akurasi pada penelitian selanjutnya tidak diragukan validitasnya. DAFTAR PUSTAKA Chenometh, Megan, Song, Min Text categorization. Di dalam: Encyclopedia of Data Warehouse & Data Mining. hlm Gijsberts A Evolutionary optimization of kernel[tesis]. Delft (NL): Delft University of Technology Hearst, Marti What is text minning?. SIMS, UC Berkeley[Internet]. Tersedia pada: [diakses pada 2012 Des 1]. Kaiser, Katharina, Miksch, Silvia Information extraction: a survey [Internet]. Tersedia pada: [diunduh 2012 Des 13]. Kusnawi Teknik document object model (DOM) untuk manipulasi dokumen XML. J Dasi. hlm 1. Manning CD, Raghavan P, Schütze H An Introduction to Information Retrieval. Cambridge (GB): Cambridge Univ Pr. Mesleh AA Chi square feature extraction based SVM arabic language text categorization systems. J Computer Sci. 3(6):

26 16 Netcraft How many active sites are there?. Tersedia pada: [diakses pada 2012 Des 13]. Pilászy I Text categorization and support vector machines. Di dalam: The Proceedings of the 6th International Symposium of Hungarian Researchers on Computational Intelligence, Sari PD Metode pembobotan kata berbasis sebaran untuk temu kembali informasi dokumen Bahasa Indonesia [skripsi]. Bogor (ID): Institut Pertanian Bogor. Saputra Klasifikasi dokumen Bahasa Indonesia menggunakan semantic smoothing dengan ekstraksi ciri chi-square [skripsi]. Bogor (ID): Institut Pertanian Bogor. Tan P, Steinbach M, Kumar V Introduction to Data Mining. Minneapolis (US): Addison Wesley. Yang Y, Pedersen J A Comparative Study on Feature Selection in Text Categorization. International Conference on Machine Learning Wibowo JS Pencarian dokumen teks lintas Bahasa Indonesia Inggris berbasis corpus. JIIK. 15(2):

27 17 Lampiran 1 Instruksi SVM Matlab 1 Kernel linear datatrain = csvread('training.csv'); labels = datatrain(:,1); features = datatrain(:,2:end); features_sparse = sparse(features); libsvmwrite('datatrainlibsvm.train', labels, features_sparse); [label_vector, instance_matrix] = libsvmread ('datatrainlibsvm. train'); test_grid_linear(label_vector,instance_matrix); %parameter kernel [training_label_vector,training_instance_matrix]=libsvmread('data trainlibsvm.train'); datatest = csvread('testing.csv'); labels = datatest(:,1); features = datatest(:,2:end); features_sparse = sparse(features); libsvmwrite('datatestlibsvm.test', labels, features_sparse); [testing_label_vector,testing_instance_matrix]=libsvmread('datates tlibsvm.test'); model = svmtrain(training_label_vector,training_instance_matrix,'- t 0 -c 2'); [predict_label, accuracy, dec_values] = svmpredict( testing_label_vector,testing_instance_matri x, model) Accuracy = % (132/137) (classification) 2 Kernel polinomial datatrain = csvread('training.csv'); labels = datatrain(:,1); features = datatrain(:,2:end); features_sparse = sparse(features); libsvmwrite('datatrainlibsvm.train', labels, features_sparse); [label_vector, instance_matrix] = libsvmread('datatrainlibsvm. train'); test_grid_poly(label_vector,instance_matrix); %parameter kernel [training_label_vector,training_instance_matrix]=libsvmread('data trainlibsvm.train'); datatest = csvread('testing.csv'); labels = datatest(:,1); features = datatest(:,2:end); features_sparse = sparse(features); libsvmwrite('datatestlibsvm.test', labels, features_sparse); [testing_label_vector,testing_instance_matrix]=libsvmread('datates tlibsvm.test'); model1 = svmtrain(training_label_vector,training_instance_matrix,'-t 1 -c g d 4 -r 4'); [predict_label1, accuracy1, dec_values1]=svmpredict( testing_label_vector,testing_instan ce_matr ix, model1); Accuracy = % (132/137) (classification)

28 18 Lampiran 1 Lanjutan 3 Kernel RBF datatrain = csvread('training.csv'); labels = datatrain(:,1); features = datatrain(:,2:end); features_sparse = sparse(features); libsvmwrite('datatrainlibsvm.train', labels, features_sparse); [label_vector,instance_matrix]=libsvmread('datatrainlibsvm.train') ; test_grid_rbf(label_vector,instance_matrix); %parameter kernel [training_label_vector,training_instance_matrix]=libsvmread('data trainlibsvm.train'); datatest = csvread('testing.csv'); labels = datatest(:,1); features = datatest(:,2:end); features_sparse = sparse(features); libsvmwrite('datatestlibsvm.test', labels, features_sparse); [testing_label_vector,testing_instance_matrix]=libsvmread('datates tlibsvm.test'); model2 =svmtrain(training_label_vector,training_instance_matrix,'- t 2 -c 1 -g '); [predict_label2, accuracy2, dec_values2] = svmpredict (testing_label_vector, testing_instance_matrix,model2); Accuracy = % (131/137) (classification)

29 19 Lampiran 2 Hasil grid search pada kernel RBF Cost Gamma % 70.94% 70.94% 71.88% 70.94% 70.94% % 75.63% 82.81% 86.88% 90.63% 88.75% % 82.50% 86.56% 90.63% 93.13% 93.44% % 85.63% 89.69% 92.81% 95.63% 95.63% % 89.69% 92.81% 97.50% 98.75% 97.81% % 92.81% 97.81% 99.69% 99.69% 98.44% % 97.50% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44% % 99.69% 99.69% 99.69% 99.69% 98.44%

30 20 Lampiran 2 Lanjutan Cost Gamma ,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,75% 70,94% 70,94% 70,94% 70,94% 70,94% ,56% 70,94% 70,94% 70,94% 70,94% 70,94% ,38% 75,31% 70,94% 70,94% 70,94% 70,94% ,25% 92,81% 72,81% 70,94% 70,94% 70,94% ,13% 72,81% 70,94% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94% ,88% 93,13% 72,81% 70,94% 70,94% 70,94%

31 21 Lampiran 2 Lanjutan Cost Gamma ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94% ,94% 70,94% 70,94% 70,94% 70,94% 70,94% 70,94%

32 22 RIWAYAT HIDUP Penulis dilahirkan di Pekanbaru pada tanggal 30 Agustus Penulis merupakan anak kedua dari pasangan Ibrahim dan Nuriyanti. Pada tahun 2008, penulis menamatkan pendidikan di SMA Negeri 8 Pekanbaru. Penulis berkesempatan melanjutkan studi di Institut Pertanian Bogor melalui jalur Beasiswa Unggul Daerah (BUD) di Depertemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Penulis aktif di berbagai organisasi kemahasiswaan seperti Himpunan Mahasiswa Riau Bogor dan anggota berbagai kegiatan seperti OMI (2010), IT Today (2011). Penulis juga menjadi asisten praktikum pada Mata Kuliah Metode Kuantitatif ( ). Selama awal kuliah penulis juga pernah menjadi staf pengajar di Lembaga Bimbingan Belajar NIC Bogor. Selain itu, penulis melaksanakan kegiatan Praktik Kerja Lapangan di divisi software development PT Inti Komunikasi Selaras Jakarta Selatan pada tahun

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM)

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM) KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM) SKRIPSI Disusun Oleh : MEKAR SEKAR SARI NIM. 24010210120008 JURUSAN STATISTIKA FAKULTAS

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

KLASIFIKASI DOKUMEN BERITA MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN KERNEL RADIAL BASIS FUNCTION ADYATMA BHASKARA HUTOMO

KLASIFIKASI DOKUMEN BERITA MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN KERNEL RADIAL BASIS FUNCTION ADYATMA BHASKARA HUTOMO KLASIFIKASI DOKUMEN BERITA MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN KERNEL RADIAL BASIS FUNCTION ADYATMA BHASKARA HUTOMO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2. 6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

LAPORAN TUGAS AKHIR. Disusun oleh: Franky LAPORAN TUGAS AKHIR Analisis Sentimen Menggunakan Metode Naive Bayes, Maximum Entropy, dan Support Vector Machine pada Dokumen Berbahasa Inggris dan Dokumen Berbahasa Indonesia Hasil Penerjemahan Otomatis

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

4 Notepad dan Microsoft Excel sebagai editor data.

4 Notepad dan Microsoft Excel sebagai editor data. dengan menggunakan perangkat lunak ENVI disimpan dalam file.txt (Lampiran 1). File ini berisi informasi mengenai panjang gelombang dan nilai pantulan (reflectance) objek di permukaan bumi. Objek yang diperlukan

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. BAB II DASAR TEORI Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. 2.1. Microsoft Visual Studio Microsoft Visual Studio adalah sebuah software yang

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA Prawidya Destarianto 1, Wahyu Kurnia Dewanto 2, Hermawan Arief Putranto 3 1,2,3 Jurusan, Teknologi

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DOKUMEN DEALIS HENDRA PRATAMA

IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DOKUMEN DEALIS HENDRA PRATAMA IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DOKUMEN DEALIS HENDRA PRATAMA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI 2.1 Studi Literatur BAB II LANDASAN TEORI Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN BAB 3 METODE PENELITIAN 3.1. Wilayah dan Jadwal Penelitian Wilayah penelitan adalah Kota Banda Aceh. Penelitian ini dilakukan mulai bulan April sampai Juli 2014. 3.2. Populasi dan Sampel Populasi dalam

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

Eksperimen pada Sistem Klasifikasi Berita Hoax Berbahasa Indonesia Berbasis Pembelajaran Mesin

Eksperimen pada Sistem Klasifikasi Berita Hoax Berbahasa Indonesia Berbasis Pembelajaran Mesin Eksperimen pada Sistem Klasifikasi Berita Hoax Berbahasa Indonesia Berbasis Pembelajaran Mesin Errissya Rasywir Institut Teknologi Bandung errissya.rasywir@gmail.com Ayu Purwarianti Institut Teknologi

Lebih terperinci

ABSTRAK. Kata Kunci : klasifikasi, musik digital, jenis musik, support vector machine, fitur ekstraksi, daftar putar musik digital

ABSTRAK. Kata Kunci : klasifikasi, musik digital, jenis musik, support vector machine, fitur ekstraksi, daftar putar musik digital ABSTRAK Kemudahan dalam mendapatkan musik digital membuat orang-orang dapat memiliki banyaknya koleksi musik digital. Terkadang orang-orang menikmati musik dengan jenis musik tertentu berdasarkan kondisi

Lebih terperinci

HASIL DAN PEMBAHASAN. B fch a. d b

HASIL DAN PEMBAHASAN. B fch a. d b 7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.

Lebih terperinci

BAB III METODE PENELITIAN. tangan dengan menggunakan metode Support Vector Machine (SVM).

BAB III METODE PENELITIAN. tangan dengan menggunakan metode Support Vector Machine (SVM). BAB III METODE PENELITIAN 3.1 Desain Penelitian Di dalam desain penelitian ini akan menggambarkan proses pengenalan tulisan tangan dengan menggunakan metode Support Vector Machine (SVM). Praproses Input

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang

Lebih terperinci

DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( )

DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( ) Sidang Tugas Akhir September 2009 Implementasi Metode Ant Colony Optimization untuk Pemilihan Fitur pada Kategorisasi Dokumen Teks DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali BAB I PENDAHULUAN 1.1. Latar Belakang Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali objek 3 dimensi. Sistem penglihatan manusia dapat membedakan berbagai macam objek 3 dimensi

Lebih terperinci

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Dini Fakta Sari Teknik Informatika STMIK AKAKOM Yogyakarta dini@akakom.ac.id Abstrak Tenaga

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN 1.1. Rancangan Penelitian Rancangan penelitian adalah rencana dan struktur penyelidikan yang disusun sedemikian rupa sehingga penelitian akan memperoleh jawaban untuk pertanyaan-pertanyaan

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

SKRIPSI. Oleh : PUSPHITA ANNA OCTAVIANI NIM PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM)

SKRIPSI. Oleh : PUSPHITA ANNA OCTAVIANI NIM PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA DATA AKREDITASI SEKOLAH DASAR (SD) DI KABUPATEN MAGELANG SKRIPSI Oleh : PUSPHITA ANNA OCTAVIANI NIM. 24010210120043 JURUSAN STATISTIKA FAKULTAS

Lebih terperinci

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM

BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM 4.1 Implementasi Sistem Tahap implementasi sistem merupakan tahap pembangunan perangkat lunak, tahap lanjut dari tahap perancangan sistem. Tahap yang dilakukan untuk

Lebih terperinci

KLASIFIKASI PENERIMA PROGRAM BERAS MISKIN (RASKIN) DI KABUPATEN WONOSOBO DENGAN METODE SUPPORT VECTOR MACHINE MENGGUNAKAN LibSVM SKRIPSI

KLASIFIKASI PENERIMA PROGRAM BERAS MISKIN (RASKIN) DI KABUPATEN WONOSOBO DENGAN METODE SUPPORT VECTOR MACHINE MENGGUNAKAN LibSVM SKRIPSI KLASIFIKASI PENERIMA PROGRAM BERAS MISKIN (RASKIN) DI KABUPATEN WONOSOBO DENGAN METODE SUPPORT VECTOR MACHINE MENGGUNAKAN LibSVM SKRIPSI Oleh : YOGI SETIYO PAMUJI 24010211130053 JURUSAN STATISTIKA FAKULTAS

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014 ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014 Klasifikasi Informasi, Anjuran dan Larangan pada Hadits Shahih Bukhari menggunakan Metode Support Vector Machine. Andina

Lebih terperinci

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix. yang tidak berarti sebagai pembeda antar dokumen. c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 7 BAB 2 LANDASAN TEORI Pada bab ini akan dibahas mengenai teori pendukung dan penelitian sebelumnya yang berhubungan dengan metode ekstraksi fitur, serta metode klasifikasi Support Vector Machine dalam

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

KLASIFIKASI LAMA STUDI MAHASISWA FSM UNIVERSITAS DIPONEGORO MENGGUNAKAN REGRESI LOGISTIK BINER DAN SUPPORT VECTOR MACHINE (SVM)

KLASIFIKASI LAMA STUDI MAHASISWA FSM UNIVERSITAS DIPONEGORO MENGGUNAKAN REGRESI LOGISTIK BINER DAN SUPPORT VECTOR MACHINE (SVM) ISSN: 2339-2541 JURNAL GAUSSIAN, Volume 4, Nomor 1, Tahun 2015, Halaman 123-132 Online di: http://ejournal-s1.undip.ac.id/index.php/gaussian KLASIFIKASI LAMA STUDI MAHASISWA FSM UNIVERSITAS DIPONEGORO

Lebih terperinci

PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA DATA AKREDITASI SEKOLAH DASAR (SD) DI KABUPATEN MAGELANG

PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA DATA AKREDITASI SEKOLAH DASAR (SD) DI KABUPATEN MAGELANG ISSN: 2339-2541 JURNAL GAUSSIAN, Volume 3, Nomor 4, Tahun 2014, Halaman 811-820 Online di: http://ejournal-s1.undip.ac.id/index.php/gaussian PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI

PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY Arif Munandar *), Achmad Hidayatno, and Teguh Prakoso Departemen Teknik

Lebih terperinci

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail

Lebih terperinci

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE Jurnal Informatika Polinema ISSN: 2407-070X IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE Faisal Rahutomo 1, Pramana Yoga Saputra 2, Miftahul Agtamas

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian klasifikasi dokumen teks. Tujuan dan ruang lingkup dari tugas akhir memberikan penjelasan mengenai hasil yang ingin diketahui dan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

BAB III DATA DAN METODOLOGI

BAB III DATA DAN METODOLOGI 17 BAB III DATA DAN METODOLOGI 3.1 Data Pada penelitian ini, ada dua jenis data yang akan digunakan. Jenis data pertama adalah data curah hujan bulanan dan yang kedua adalah data luaran GCM. 3.1.1 Data

Lebih terperinci

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 12, Desember 2017, hlm. 1725-1732 http://j-ptiik.ub.ac.id Analisis Sentimen Tingkat Kepuasan Pengguna Penyedia Layanan

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

SISTEM DETEKSI PENYAKIT DIABETES MENGGUNAKAN METODE SUPPORT VECTOR MACHINES

SISTEM DETEKSI PENYAKIT DIABETES MENGGUNAKAN METODE SUPPORT VECTOR MACHINES IndoMS Journal on Statistics Vol. 2, No. 2 (2014), pp. 27 36 SISTEM DETEKSI PENYAKIT DIABETES MENGGUNAKAN METODE SUPPORT VECTOR MACHINES Abdul Azis Abdillah 1 dan Suwarno 2 1,2 STKIP Surya, 1 Politeknik

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER ACHMAD FAHRUROZI 1 1 Universitas Gunadarma, achmad.fahrurozi12@gmail.com Abstrak Masalah yang akan diangkat dalam makalah ini adalah bagaimana

Lebih terperinci

BAB III METODE PENELITIAN. dan bahan, agar mendapatkan hasil yang baik dan terstruktur. Processor Intel Core i3-350m.

BAB III METODE PENELITIAN. dan bahan, agar mendapatkan hasil yang baik dan terstruktur. Processor Intel Core i3-350m. BAB III METODE PENELITIAN 3.1 Alat dan Bahan Untuk menunjang penelitian yang akan dilakukan, maka diperlukan alat dan bahan, agar mendapatkan hasil yang baik dan terstruktur. 3.1.1 Alat Penelitian Adapun

Lebih terperinci

Pengantar Support Vector Machine

Pengantar Support Vector Machine Pengantar Support Vector Machine Anto Satriyo Nugroho February 8, 2007 1 Pengantar Pattern Recognition (PR) didefinisikan sebagai proses pemetaan suatu data ke dalam konsep tertentu yang telah didefinisikan

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet memunculkan berbagai metode komunikasi yang mudah, murah, dan cepat. Salah satu media yang paling populer dan sangat cepat berkembang

Lebih terperinci

Analisis Akurasi Support Vector Machine...

Analisis Akurasi Support Vector Machine... ANALISIS AKURASI SUPPORT VECTOR MACHINE DENGAN FUNGSI KERNEL GAUSSIAN RBF UNTUK PRAKIRAAN BEBAN LISTRIK HARIAN SEKTOR INDUSTRI Luqman Assaffat 1 * 1 Jurusan Teknik Elektro, Fakultas Teknik, Universitas

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB Dika R. Yunianto dikarizky66@gmail.com Septyawan R. Wardhana rossywardhana@gmail.com Rizka W. Sholikah rizkaws@gmail.com

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA

PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA Penyusun Tugas Akhir : Astris Dyah Perwita (NRP : 5110.100.178)

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik

Lebih terperinci

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour Information Retrieval Document Classified with K-Nearest Neighbor Endah Purwanti 1 Fakultas Sains dan Teknologi Universitas Airlangga

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75 JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-75 Pendeteksian Malware pada Lingkungan Aplikasi Web dengan Kategorisasi Dokumen Fransiskus Gusti Ngurah Dwika Setiawan, Royyana

Lebih terperinci

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz

i. Perangkat Keras Prosesor Intel Pentium(R) Dual-Core CPU 2.20 GHz Data yang pada awalnya berupa chanel stereo diubah ke dalam chanel mono. Kemudian data tersebut disimpan dengan file berekstensi WAV. Praproses Pada tahap ini dilakukan ekstraksi ciri menggunakan metode

Lebih terperinci

PENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT

PENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT PENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT TUGAS AKHIR Diajukan Untuk Memenuhi Sebagian Prasyarat Mencapai Derajat Teknik Informatika Disusun Oleh

Lebih terperinci