PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

dokumen-dokumen yang mirip
BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB I PENDAHULUAN 1.1. Latar Belakang

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

BAB II LANDASAN TEORI

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB III METODOLOGI PENELITIAN

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

ROCCHIO CLASSIFICATION

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Gambar 1.1 Proses Text Mining [7]

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB 3 LANDASAN TEORI

ABSTRAK. Universitas Kristen Maranatha

BAB III METODELOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB II LANDASAN TEORI

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

SISTEM TEMU KEMBALI INFORMASI

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA DATA AKREDITASI SEKOLAH DASAR (SD) DI KABUPATEN MAGELANG

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB II TINJAUAN PUSTAKA

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB V EKSPERIMEN TEXT CLASSIFICATION

DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( )

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN

Seleksi Fitur Dua Tahap Menggunakan Information Gain dan Artificial Bee Colony untuk Kategorisasi Teks Berbasis Support Vector Machine

KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari

BAB III ANALISIS DAN PERANCANGAN

4 HASIL DAN PEMBAHASAN

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PENDETEKSIAN JENIS DAN KELAS AROMA DENGAN MENGGUNAKAN METODE ONE-VS-ONE DAN METODE ONE-VS-REST

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR

PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB IV HASIL DAN PEMBAHASAN

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM)

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

BAB 2 TINJAUAN PUSTAKA

PENDAHULUAN. 1.1 Latar Belakang

BAB IV PREPROCESSING DATA MINING

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

SUPPORT VECTOR MACHINE (SVM)

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR

PERBANDINGAN ANALISIS PENGENALAN HURUF ARAB MENGGUNAKAN METODE JARINGAN SYARAF TIRUAN BACKPROPAGATION DAN K-NEAREST NEIGHBOR

HASIL DAN PEMBAHASAN

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

BAB I PENDAHULUAN 1.1. Latar Belakang

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Transkripsi:

Vol 2, No 3 Juni 2012 ISSN 2088-2130 PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Devie Rosa Anamisa 1), Eka Mala Sari Rochman 2) 1,2 Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Surabaya, Indonesia 1 devros_gress@yahoo.com ABSTRAK Kategorisasi teks merupakan salah satu solusi untuk mengelola informasi yang berkembang pesat dan tidak terorganisir. Meningkatnya kebutuhan para pengembang tugas akhir untuk mendapatkan informasi yang terkait dengan dokumen yang dibacanya saat ini, maka timbul permasalahan yaitu bagaimana mengelompokan dokumen tugas akhir secara otomatis yang sesuai bidang minat untuk membantu kategorisasi tugas akhir mahasiswa dengan mengusulkan fitur penting dari meta data antara lain dari sisi topik, abstrak, bidang minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen tugas akhir sesuai dengan bidang minat jurusan, yaitu jaringan komputer, kecerdasan buatan dan sistem informasi. Tujuan penelitian ini adalah mengimplementasikan pemilihan fitur optimal menggunakan metode Support Vector Machine (SVM), yang nantinya digunakan sebagai masukkan klasifikasi tugas akhir. Metode SVM dapat meminimalisir tingkat error dengan memilih batas hyperplane yang terbaik. Analisis pengaruh dari pemilihan fitur tersebut dengan melihat performansi dari hasil klasifikasi berdasarkan precision dan recall. Dari percobaan yang telah dilakukan penerapan metode SVM dalam klasifikasi tugas akhir memiliki akurasi yang baik terbukti dengan tingkat presisi sebesar 56% dan recall sebesar 57% dan akurasi 61% untuk kategorisasi teks dengan lima fitur optimal. Kata kunci: Kategorisasi teks, Dokumen tugas akhir, SVM, Feature Selection. ABSTRACT Text Categorization is one of solution to manage the rapidly growing information and disorganized.the increasing needs of the the final project developers to get more information are related the documents, so it raised problems are how to classify documents automatically appropriate with interest to help categorization final project of students with proposed important feature of the meta-data such as from the topic, abstract, field supervisor and the reference interest as the reference in the final document in accordance with their interests majors, namely computer networks, artificial intelligence and information systems.the purpose of the research is to implemention to optimal feature selection using support vector machine (SVM), which will be used as the desired classification of final project in universitas. SVM method can minimized the level of error with selecting the best hyperplane boundarys.analysis of the effect from selection of features by looking at the performance from classification results based on precision and recall. From the experiments have been carried out applying with SVM method in the classification of final project has good accuracy as evidenced by a 56% level of precision and recall by 57% and 61% accuracy for text categorization with an optimal features. Keywords: text categorization, document the final task, SVM, Feature Selection. 350

Vol 2, No 3 Juni 2012 PENDAHULUAN Beberapa penelitian yang terkait dengan kategori teks menyatakan bahwa kateogorisasi teks merupakan salah satu penelitian penting dalam data mining. Untuk mengenali, memahami dan mengelompokkan tipe teks dari sebuah dokumen merupakan unsur penting dalam kategorisasi teks [1]. Kategorisasi teks merupakan sebuah permasalahan pemilihan kategori untuk sebuah teks yang memiliki karakteristik atau tanda-tanda umum yang dimiliki oleh teks, artikel atau dokumen tersebut. Suatu teks, artikel, atau dokumen berita dapat dikategorisasikan oleh beberapa kategori, tepat satu kategori, atau tidak termasuk dalam kategori manapun [2]. Permasalahan yang signifikan dalam kategorisasi teks adalah dimensionalitas data yang sangat tinggi. Dimensionalitas data yang sangat tinggi tersebut menyebabkan waktu pemrosesan menjadi lama dan membutuhkan memori yang lebih besar. Kategorisasi teks pada penelitian ini menggunakan formulasi analisa diskriminan serta untuk mengatasi ketogorisasi teks yang multi-class menggunakan metode SVM. Namun penambahan kriteria pada klasifikasi dokumen masih merupakan permasalahan karena analisa diskriminan menggunakan invers matriks untuk komputasinya sehingga prosesnya lama dan membutuhkan banyak dimensi data. Salah satu cara untuk mengatasi hal tersebut adalah dengan melakukan feature selection terhadap data. Feature selection dilakukan untuk memilih fitur-fitur penting dan relevan terhadap data dan membuang fitur-fitur yang tidak berpengaruh terhadap proses kategorisasi teks. Dengan demikian, dimensionalitas data dapat dikurangi. Namun kemudian muncul permasalahan, berapa banyak fitur yang harus digunakan, dan bagaimana untuk mem-validasi skema pemilihan tersebut. Untuk menjawab pertanyaan tersebut, Tae Yue Wang menggunakan metode klasifikasi teks, yaitu Support Vector Machine. Pemilihan metode tersebut didasarkan pada penelitianpenelitian sebelumnya yang menyebutkan bahwa metode tersebut memiliki performansi yang baik dalam permasalahan kategorisasi teks. Metode SVM (Support Vector Machines) berdasarkan pada prinsip Structural Risk Minimization (SRM) dimana penanganan terhadap error dilakukan terhadap kesalahan pada training-set dan factor yang dipengaruhi oleh dimensi VC(Vapnik-Chervokinensis). Selain itu, pada SVM juga digunakan teknik mapping vektor input pada high dimensional feature space. Pada penelitian sebelumnya, SVM menunjukkan hasil yang baik untuk kategorisasi teks. Metode ini menghindari overfitting. Selain itu, SVM merupakan metode yang generalized, mampu mengklasifikasikan suatu pattern yang tidak termasuk data yang dipakai dalam fase learning. Beberapa studi empiris menunjukkan bahwa pendekatan SVM memberikan error generalisasi yang lebih sedikit dibandingkan metode lain yang menggunakan Empirical Risk Minimization yaitu strategi minimisasi kesalahan pada training-set [3]. Seleksi fitur adalah salah satu metode pengolahan awal data untuk menentukan fiturfitur yang akan diolah pada tahap berikutnya. seleksi fitur mereduksi jumlah fitur dan menghilangkan data yang tidak relevan. Meta data merupakan hal penting dalam kategorisasi teks, banyak penelitian yang membahas tentang content namun jarang sekali penelitian yang membahas tentang meta data. Dalam penelitian ini mengusulkan beberapa fitur penting dari meta data antara lain dari sisi topik, abstrak, bidang minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen tugas akhir. Kategorisasi Teks Pengklasifikasian teks sangat dibutuhkan dalam berbagai macam aplikasi, terutama aplikasi yang jumlah dokumennya bertambah dengan cepat. Ada dua cara dalam penggolongan teks, yaitu clustering teks dan klasifikasi teks. Clustering teks berhubungan dengan menemukan sebuah struktur kelompok yang belum kelihatan (tak terpandu atau unsupervised) dari sekumpulan dokumen. Sedangkan pengklasifikasian teks dapat dianggap sebagai proses untuk membentuk golongan-golongan (kelas-kelas) dari dokumen berdasarkan pada kelas kelompok yang sudah diketahui sebelumnya (terpandu atau supervised) Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu [2], yang pertama fase information retrieval (IR) untuk mendapatkan data numerik dari dokumen teks. Pendekatan yang umum digunakan adalah distribusi 351

Devie Rosa Anamisa dkk, Pemilihan Fitur Optimal... frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tidak ada (biner), atau jumlah kemunculan kata pada awal dokumen. Feature yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus stop-words,stemming, statistical filtering. Sedangkan fase klasifikasi utama ketika suatu algoritma memroses data numerik tersebut untuk memutuskan ke kategori mana teks ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan pada fase ini, di antaranya adalah k-nearest Neighbor, Neural Network, dan Support Vector Machines. Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari [3]. METODE Support Vector Machine (SVM) adalah sistem pembelajaran yang menggunakan ruang hipotesis berupa fungsi-fungsi linier dalam sebuah ruang fitur (feature space) berdimensi tinggi, dipelatihan dengan algoritma pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal dari teori pembelajaran statistic[3]. Teori yang mendasari SVM sendiri sudah berkembang sejak 1960-an, tetapi baru diperkenalkan oleh Vapnik, Boser dan Guyon pada tahun 1992 dan sejak itu SVM berkembang dengan pesat. SVM adalah salah satu teknik yang relatif baru dibandingkan dengan teknik lain, tetapi memiliki performansi yang lebih baik di berbagai bidang aplikasi seperti bioinformatics, pengenalan tulisan tangan, klasifikasi teks dan lain sebagainya. Gambar 2. Tahapan Feature Selection SVM dibangun dengan konsep kebalikan dengan penerapan Neural Network (NN). SVM dibangun bermula dari penyampaian suatu konsep kemudian diekperimenkan dan diterapkan dalam suatu aplikasi, sedangkan NN berdasarkan heuristik (heuristics) yaitu berdasarkan pengalaman, kemudian diaplikasikan kemudian baru dibangun teorinya. Metode yang digunakan adalah Support Vektor Mechine dalam teknik klasifikasi dengan tahapan, ditunjukkan pada Gambar 1. Feature selection dilakukan pada proses feature selection dilakukan pemilihan atau penentuan karakteristik dari masing-masing teks atau dokumen. Terdapat beberapa fitur dalam dokumen tugas akhir berupa topik, abstrak, bidang minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen tugas akhir tersebut. Kemudian sejumlah dokumen tersebut diolah menjadi representasi kata atau string (yang dipisahkan oleh spasi) yang merupakan bagian dari teks atau dokumen tersebut menjadi matrik vektor. Feature selection perlu dikakukan karena karakteristik yang di dapatkan akan menjadi sangat banyak, dapat dilihat pada Gambar 2. Preprocessing adalah Proses untuk mengkonsentrasikan input kepada fitur fitur. Fitur dalam penelitian ini (topik, abstrak, bidang minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen). Fitur tersebut akan menjadi input bagi SVM, yang kemudian akan mengklasifikasinya ke dalam kelas kelasnya [4]. Tahapan yang dilakukan SVM untuk kategorisasi teks dapat dilihat pada Gambar 3. Gambar 1. Diagram Alir Proses Klasifikasi Dokumen Gambar 3. Proses SVM 352

Vol 2, No 3 Juni 2012 Pembentukan model adalah melakukan learning metode terhadap dokumen atau teksteks yang telah dikumpulkan sebagai data uji. data uji secara bersamaan akan diubah menjadi data vektor. Proses pengubahan data teks menjadi data vektor dilakukan dengan membaca kata satu persatu dan menghitung nilai tf-idf. Nilai tf-idf adalah kemunculan kata (term frequency) dalam kalimat dikalikan log jumlah dokumen/record dibagi jumlah dokumen/record yang mengandung kata yang dimaksud. Dinotasikan sebagai berikut [3] : w (1 log tf t d t, d ) log, N / dft (1). tf t,d adalah jumlah kemunculan term t pada dokumen d dibagi dengan jumlah kemunculan semua fitur pada dokumen d, sedangkan df t adalah invers dari frekuensi dokumen dan N adalah jumlah dokumen dalam korpus. HASIL DAN PEMBAHASAN Eksperimen yang dilakukan adalah melihat kinerja dari algoritma klasifikasi dokumen teks yaitu metode SVM. Data eksperimen berupa evaluasi kinerja sebuah algoritma dalam pengkategorian teks antara lain adalah recall dan precision, dapat dilihat pada persamaan (2). Ukuran untuk mengevaluasi kinerja yang digunakan pada eksperimen adalah accuracy. Accuracy merupakan jumlah rata-rata dari hasil recall pada tiap kelasnya. Pada penelitian ini menggunakan proses steaming dan stopword yang dilakukan oleh [5]. (2) TP i (true positive) adalah kumpulan dokumen yang memiliki klasifikasi benar berdasarkan kategori C i, FP i adalah kumpulan dokumen false positive, dan FN i adalah kumpulan dokumen false negative. Model ruang vektor dan pembobotan tfidf digunakan untuk merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu SVM maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar dokumen dihitung menggunakan suatu fungsi ukuran kemiripan (similarity measure). Ukuran ini memungkinkan perankingan dokumen sesuai dengan kemiripan (relevansi)nya terhadap query. Setelah dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada pengguna. Alternatifnya, suatu threshold dapat digunakan untuk memutuskan berapa banyak dokumen akan dikembalikan. Threshold dapat digunakan untuk mengontrol tarik-ulur antara presisi dan recall. Tabel 1. Hasil Implementasi Metode SVM Kategorisasi Akurasi Presisi Recall Semua fitur 60,7 55,6 56,5 Dosen Pembimbing 58,7 84,6 38,9 Daftar Referensi 83,6 81,7 87,5 Beberapa studi empiris menunjukkan bahwa pendekatan SVM memberikan nilai presisi tinggi dan recall rendah dibandingkan metode lain contohnya pada penelitian[1] menyatakan nilai recall 3.6 % untuk SVM dan 8,3% untuk KNN (K-Nearest Neighbour). Sedangkan nilai presisi 99% untuk SVM dan 93% untuk KNN. Tabel 1 merupakan hasil implementasi pemilihan fitur optimal menggunakan metode support vector machine (SVM), yang nantinya digunakan sebagai masukkan klasifikasi tugas akhir. Pada penelitian ini masih terdapat kesalahan pada proses prediksi untuk menentukan tugas akhir yang sesuai dengan bidang minatnya. Dari 116 data yang telah diinputkan terdapat 25 tugas akhir yang tidak sesuai dengan bidang minat. Hal ini dikarenakan banyak terjadi kesamaan pada fitur Dosen pembimbing yaitu tidak sesuai dengan bidang minat. Fitur dosen pembimbing tidak menjadi pembeda yang baik sehingga nilai bobotnya kecil. SIMPULAN DAN SARAN Dengan pengkategorisasian teks secara otomatis ini dapat membantu untuk mengalokasikan dan klasifikasikan dokumen dengan mudah karena dapat memudahkan 353

Devie Rosa Anamisa dkk, Pemilihan Fitur Optimal... mahasiswa dalam mencari tugas akhir yang sesuai dengan bidang minat. Pembobotan pada tiga fitur optimal dalam kategorisasi teks ini dilakukan dengan perankingan pada setiap fitur. Hasil dari perankingan tersebut membuktikan bahwa fitur daftar referensi memiliki nilai ranking yang paling tinggi sedangkan untuk fitur dosen pembimbing berada pada ranking yang rendah. Kategorisasi dokumen tugas akhir dengan metode SVM dapat dikembangkan dengan menambahkan jumlah dokumen hingga lebih dari seratus lima puluh data latih dan menambahkan satu parameter minimum frekuensi untuk menghindari pemakaian kata yang tidak penting dalam percobaan. DAFTAR PUSTAKA [1] Guo. Y, Shao. Z, Hua. N, Automatic Text Categorization Based on Content Analysis with Cognitive Situation Models, www.elsevier.com/locate/ins 180 613 630, 2010 [2] Li. T, Zhu. S, Ogihara. M, Text Categorization Via Generalized Discriminant Analysis, www.elsevier.com/locate/infoproman 44 1684 1697, 2008 [3] Wang. T.Y, Chiang H.M, Fuzzy Support Vector Machine for Multi-Class Text Categorization, www.elsevier.com/locate/infoproman 43 914 929, 2007 [4] Krisantus S, Support Vector Machine, Bandung, S1 Teknik Informatika, Sekolah Teknik Elektro dan Informatika, ITB, 2007. [5] Mahendra I.P.A, Penggunaan Algoritma Semut dan Confix Tripping Steammer untuk Klasifikasi Dokumen Berita Berbahasa Indonesia, Surabaya, Tugas Akhir Jurusan Teknik Informatika ITS, 2008. 354