PEERAPA SETIMET AALYSIS PADA HASIL EVALUASI DOSE DEGA METODE SUPPORT VECTOR MACHIE Valonia Inge Sanoso¹, Gloria Virginia², Yuan Lukio³ Program Sudi Teknik Informaika Fakulas Teknologi Informasi Universias Krisen Dua Wacana valoniainge@i.ukdw.ac.id 1, virginia@saff.ukdw.ac.id 2, yuan@saff.ukdw.ac.id 3 Absrac - The qualiy of lecures can be deermined by some feedbacks from sudens. From he feedbacks, we can give appreciaions for hose lecures who ge good feedback from sudens, and evaluaions for hose who ge bad feedback. The problem is classifying large size of feedbacks manually isn effecive and ook a lo of ime. Therefore, we need a sysem ha can classify feedbacks auomaically. These feedbacks will be classified ino posiive, negaive, and neural, usually called as senimen analysis. Senimen analysis implemenaion can be done by several mehods, one of hem ha has a good accuracy is Suppor Vecor Machine (SVM). SVM performance in his research is measured wih he level of accuracy. The number of accuracy indicae he success level of sysem. The conclusion of his research is facors ha affecs he accuracy. The facors are he range of each classes and number of unique words in he raining documen. Keywords: senimen analysis, suppor vecor machine, inverse marix I. PEDAHULUA Universias Krisen Dua Wacana menerapkan kuesioner online dalam rangka penilaian erhadap dosen. Kuesioner ini diisi oleh mahasiswa dan berisi opini posiif, negaif, aau neral. Saa ini, unuk perekapan dan klasifikasi hasil kuesioner unuk evaluasi dosen ini dilakukan secara manual. Pengklasifikasian secara manual memang menghasilkan daa yang akura karena manusia dapa membedakan dengan epa apakah kaa aau kalima ersebu bermakna posiif, negaif, aau neral, namun hal ini idak efekif dan idak menuup kemungkinan adanya kalima ambigu yang suli diklasifikasi walaupun oleh manusia sekalipun. Selain iu, pengklasifikasian secara manual membuuhkan banyak waku dan enaga. Unuk mengaasi masalah ini, dibuuhkan sisem yang dapa mengklasifikasikan opini ini ke dalam kelas senimen posiif, negaif, aau neral secara oomais. Klasifikasi ke iga kelas senimen ini disebu senimen analysis. Sisem ini menggunakan meode suppor vecor machine (SVM) karena pada peneliian peneliian sebelumnya yang pernah dilakukan, meode ini memiliki nilai akurasi yang cukup inggi. Dengan dierapkannya meode SVM, sisem ini diharapkan dapa melakukan senimen analysis dengan cepa, mudah, dan dengan ingka akurasi sera efekivias yang cukup inggi. II. LADASA TEORI 2.1 Tex Mining dan Senimen Analysis Tex mining mengacu pada proses mengambil informasi berkualias inggi dari eks. Informasi yang diambil biasanya mengacu ke beberapa kombinasi relevansi, kebaruan, dan ineresingness (Saraswai, 2011). Senimen analysis aau yang biasa disebu dengan Opinion mining adalah rise kompuasional dari opini, senimen, dan emosi yang diuangkan secara eksual lalu diklasifikasikan menjadi kelompok senimen posiif dan negaif (Feizar, Indriani, & Yudisira, 2014). Secara umum, senimen analysis dibagi menjadi 2 kaegori besar (Wicaksono, 2011), yaiu: 1. Coarse grained senimen analysis: Proses analisis dan klasifikasi orienasi sebuah dokumen secara keseluruhan. Orienasi ini dibagi menjadi 3 jenis yaiu posiif, neral, dan negaif, akan eapi ada juga yang menjadikan nilai orienasi bersifa koninu / idak diskri. 2. Fined grained senimen analysis: Obyek yang diklasifikasi idak pada level dokumen melainkan pada level kalima dalam sebuah dokumen. Sebagai conoh: a. Cara pengajaran kurang menarik negaif b. Kuliah erlaksana dengan epa waku posiif Senimen analysis erdiri dari 3 subproses (Wicaksono, 2011) yaiu: 1. Subjeciviy Classificaion: menenukan kalima yang merupakan opini. 2. Orienaion Deecion: Pengklasifikasian opini ke dalam kelas posiif, negaif, aau neral. 3. Opinion Holder and Targe Deecion: menenukan bagian yang merupakan opinion holder (pemberi opini) dan bagian yang merupakan arge. 2.2 Pemboboan TF-IDF Bobo TF-IDF merupakan bobo seiap kaa pada seiap dokumen. Unuk memperoleh nilai TF IDF menggunakan Persamaan 2. Unuk mendapakan nilai TF IDF dibuuhkan nilai idf. ilai idf dapa dicari dengan Persamaan 1. idf log10 ( /df ) (1) JURAL TRASFORMATIKA, Volume 14, omor 2, Januari 2017 72
Dimana df adalah jumlah dokumen yang mengandung suau erm dan adalah oal dokumen yang diuji. (2) idf adalah jumlah dokumen yang berisi isilah ersebu. Diambil log dari idf unuk memberikan beberapa penghalusan. Dalam hal ini, seiap dokumen dianggap sebagai vekor dengan 1 komponen yang sesuai dengan seiap erm yang ada di kamus besera dengan bobo dari seiap komponen. Unuk erm yang idak muncul di dokumen, maka bobonya 0. Seelah didapakan bobo TF-IDF pada seiap erm, maka dilakukan normalisasi pada bobo TF-IDF ersebu. ormalisasi cosine dilakukan dengan perhiungan yang diunjukkan pada Persamaan 3 (Crof, Mezler, & Srohman, 2015). 2.3 Suppor Vecor Machine SVM merupakan salah sau meode klasifikasi dengan menggunakan meode machine learning (supervised learning) yang memprediksi kelas berdasarkan pola dari hasil proses raining yang dicipakan oleh Vladimir Vapnik. Klasifikasi dilakukan dengan garis pembaas (hyperlane) yang memisahkan anara kelas opini posiif dan opini negaif. Secara inuiif, suau garis pembaas yang baik adalah yang memiliki jarak erbesar ke iik daa pelaihan erdeka dari seiap kelas, karena pada umumnya semakin besar margin, semakin rendah error generalisasi dari pemilah. Margin adalah jarak dari suau iik vekor di suau kelas erhadap hyperplane. Berdasarkan Gambar 1, dapa diliha bahwa garis pembaas erbaik adalah garis H2 karena memiliki maksimum margin dan membagi menjadi 2 kelas. Sedangkan H3 idak membagi menjadi 2 kelas, dan H1 memang membagi menjadi 2 kelas, namun margin yang dimiliki sanga kecil. Hyperplane yang mewakili pemisahan aau margin erbesar anara dua kelas sehingga jarak iik daa erdeka di seiap sisi dimaksimalkan disebu hyperplane margin maksimum, dan linier classifier yang didefinisikannya dikenal sebagai pengklasifikasi margin maksimal. Maksimum margin hyperplane dan margin unuk SVM dilaih dengan sampel dari 2 kelas yang disebu suppor vecor (Saraswai, 2011). (3) Gambar1. Conoh beberapa hyperlane (Saraswai, 2011) Training pada klasifikasi SVM akan menghasilkan sebuah nilai aau pola yang akan digunakan pada proses esing yang berujuan unuk pemberian label senimen (ovanirani, Sabariah, & Effendy, n.d). Penilaian kemudian dibua dengan menilai score yang merepresenasikan di sisi mana dokumen iu berada (Saraswai, 2011). Proses pengambilan kepuusan dengan SVM besera analisis berupa ingka akurasi dan jumlah dokumen di seiap class posiif, negaif, dan neral digambarkan seperi pada Gambar 2. Gambar 2. Flowchar Klasifikasi dengan SVM dan Analisis 2.4 Evaluasi dan Validasi Evaluasi performansi dilakukan unuk menguji hasil klasifikasi dengan mengukur nilai kebenaran dari sisem. Parameer yang digunakan unuk mengukur nilai kebenaran yaiu akurasi. Akurasi adalah persenase dokumen yang berhasil diklasifikasikan dengan epa oleh sisem. Akurasi diperoleh dari hasil perhiungan yang diunjukkan pada Persamaan 4. A= (4) Semua parameer unuk mendapakan akurasi didapakan dari coincidence marix yang digambarkan seperi Gambar 3. 73 JURAL TRASFORMATIKA, Volume 14, omor 2, Januari 2017
Gambar 3. Coincidence Marix (Manning, Raghavan, & Schuze, 2009) Proses validasi daa laih berguna unuk meningkakan nilai akurasi sisem. Proses validasi ini diharapkan akan menghasilkan baasan yang epa unuk membagi iga kelas senimen secara adil dan memberikan pemboboan yang epa sehingga akurasi dapa meningka. 2.5 Tex Preprocessing Tex preprocessing merupakan ahap awal dari ex mining. Tujuan dari ex preprocessing adalah unuk mempersiapkan dokumen eks yang idak ersrukur menjadi daa ersrukur yang siap digunakan unuk proses selanjunya dengan cara menghilangkan noise, menyeragamkan benuk kaa dan mengurangi volume kaa (Purani & Winarko, 2014). Tahapan ex preprocessing yang digunakan pada peneliian ini anara lain okenisasi, case folding, filering, sopword removal. Tokenisasi digunakan unuk mendapakan semua erm unik yang ada dalam sample daa sekaligus berusaha mengubah daa inpu yang idak menggunakan bahasa baku (misalnya: singkaan dan bahasa asing yang sering muncul) menjadi bahasa Indonesia yang baku dan sesuai dengan KBBI dan EYD. Proses membakukan sebuah kaa dilakukan dengan mendafar kaa kaa ersebu ke dalam sebuah abel. Tabel ini memiliki field kaa idak baku dan kaa baku. Conoh benuk abel disediakan pada Tabel 1. Tabel 1. Tabel Kaa Tidak Baku dan Kaa Baku Kaa Tidak Baku Kaa Baku Tdk Tidak Enggak Tidak Good Baik Tl Terlamba Krg Kurang Case folding digunakan unuk mengubah semua karaker dokumen hasil okenisasi menjadi lowercase agar dapa diurukan secara alfabeik dan diproses selanjunya. Oleh karena sisem ini berpanduan klasifikasi adalah KBBI dan EYD, maka perlu adanya penyaringan agar yang diambil hanya erm berbahasa Indonesia yang baku saja. Unuk kaa yang disingka namun sering muncul akan berusaha dibakukan. Sedangkan kaa yang menggunakan bahasa asing, namun sering muncul, akan dierjemahkan ke dalam bahasa Indonesia. Tahap ini diharapkan dapa membua kinerja sisem semakin akura dan epa sasaran. K yang cukup lama, sehingga perlu adanya pemilahan erm. Term yang spesifik dan sesuai dengan opik dokumen (dalam hal ini kasus evaluasi dosen) dapa membanu kinerja sisem agar lebih efekif dan efisien. III. HASIL DA PEMBAHASA Pada pengujian perama, Penulis menggunakan daa laih sebanyak 307 dokumen. Dokumen laih erdiri dari 103 dokumen bersenimen posiif, 163 bersenimen negaif, dan 41 dokumen bersenimen neral. Pada pengujian ini akan dienukan range yang epa unuk membagi menjadi 3 kelas senimen. Melalui pengujian ini didapakan akurasi eringgi adalah 49,54 %. Akurasi ini didapakan pada range : Posif: > 0 eral: 0 egaif: < 0 Unuk meningkakan akurasi, Penulis mencoba unuk mengubah komposisi daa laih dengan meode k-fold cross validaion dengan k = 7. Melalui pengujian ini, didapakan erjadinya perubahan ingka akurasi yang cukup signifikan di beberapa daase pelaihan. Hal ini membukikan bahwa komposisi daa laih uru mempengaruhi ingka akurasi. Akurasi eringgi didapakan pada daase dengan k = 6 dan akurasi yang dicapai adalah 67,83%. Hasil pengujian diunjukkan pada Tabel 2. Tabel 2. Tabel Hasil Pengujian Penerapan K-fold cross validaion Jumla h erm unik P,P P, Confusion Mariks,,, P P, Akur asi 1 433 24 14 0 29 40 1 3 6 1 58,56 2 416 24 13 3 21 45 1 3 6 3 65,45 3 395 23 20 1 31 39 0 1 5 7 60,00 4 402 23 18 3 21 45 3 4 4 4 61,54 5 413 27 15 1 23 44 1 7 4 3 62,71 6 413 34 6 1 23 43 2 6 8 1 67,83 7 428 24 14 0 29 40 1 5 8 0 56,64,P,, Peningkaan akurasi berdasarkan jumlah erm unik diunjukkan pada Gambar 4. Melalui Gambar 4, dapa disimpulkan bahwa semakin banyak jumlah erm unik, memiliki kecenderungan unuk meningkakan akurasi. Jumlah erm yang erlalu banyak idak efekif karena membuuhkan memory yang besar dan waku pengerjaan JURAL TRASFORMATIKA, Volume 14, omor 2, Januari 2017 74
395 402 413 413 416 428 433 Akurasi Gambar 4. Grafik Akurasi Hasil Pengujian Sisem ini memiliki nilai akurasi yang idak erlalu inggi dikarenakan fakor dari dokumen uji yang dimasukkan. Bila dokumen uji yang dimasukkan semua erm-nya adalah sopwords maka sisem idak dapa melakukan senimen analysis pada dokumen uji ersebu. Hal ini dikarenakan sisem menerapkan preprocessing sopwords removal yang arinya sisem akan membuang semua erm yang ergolong sopwords. Akibanya, dokumen uji ersebu dianggap idak mengandung erm apapun. Fakor lain yang menghamba kinerja sisem adalah adanya dokumen uji yang semua erm-nya idak erdapa di dokumen laih, dengan kaa lain sisem idak pernah mengenal erm ini sebelumnya. Apabila ada erm baru dari dokumen uji, perhiungan idak dapa dilanjukan karena erm ersebu idak memiliki nilai unuk dimasukan ke persamaan hyperplane. Alasan inilah yang membua dokumen uji bersenimen neral suli erdeeksi sebagai kelas senimen neral, karena pada umumnya kalima bersenimen neral memiliki variasi erm yang lebih beragam daripada kelas senimen yang lain. Tidak seperi pada kelas senimen posiif dan negaif, kelas senimen neral cenderung idak memiliki erm yang khas, sehingga suli dikenali. IV. Akurasi Pengujian dengan Daa Uji 70,00 65,00 60,00 55,00 50,00 Jumlah Term Unik KESIMPULA DA SARA Tanpa Bobo Berdasarkan hasil analisis peneliian, maka dapa diarik kesimpulan bahwa sisem sudah dapa melakukan senimen analysis dengan meode SVM erhadap hasil evaluasi dosen FTI UKDW Program Sudi Teknik Informaika ahun ajaran 2014/2015 semeser gasal. Dengan meode SVM, sisem dapa melakukan senimen analysis dengan menggunakan 3 kelas senimen. Akurasi eringgi SVM pada sisem ini yaiu 67,83%. Akurasi eringgi dicapai pada sisem yang idak menerapkan perubahan bobo pada dokumen uji dan menggunakan range > 0 unuk kelas senimen posiif, < 0 unuk kelas senimen negaif, dan 0 unuk kelas senimen neral, sera pelaihan menggunakan se daalaih ke 6. Sisem pengklasifikasian ini sanga memungkinkan unuk dilakukan pengembangan lebih lanju sesuai kebuuhan yang erus berambah, sehingga dapa meningkakan akurasi sisem. Saran yang diajukan Penulis dalam pengembangan sisem kedepannya adalah sebagai beriku: 1. Memperkaya variasi erm unuk proses filering yang mengaasi pembakuan kaa dan menambah maupun mengurangi dafar sopword agar idak erjadi erhapusnya kaa yang merupakan ciri khas dari suau class senimen. 2. Menggunakan meode yang lebih baik unuk sisem penyelesaian persamaan linear agar erbenuk hyperplane yang lebih akura. Akan lebih baik bila menggunakan algorima yang dapa membenuk mariks inverse pada semua mariks (idak hanya mariks persegi) agar sisem dapa mengaasi kasus jumlah dokumen laih lebih banyak dari jumlah erm unik pada dokumen laih. 3. Pada peneliian ini, proses senimen analysis dilakukan hanya berdasarkan pemboboan yang diukur dari angka kemunculan dan mengabaikan makna kaa. Akan lebih baik bila pada peneliian selanjunya dierapkan juga kedekaan suau kaa dengan kaa yang lain (semanic). Misalnya mengkolaborasi abel sinonim dengan abel wordne. 4. Berdasarkan hasil analisis, didapakan hasil bahwa range pembaas anar kelas senimen bisa saja berubah. Akan lebih baik bila sisem memiliki fiur yang memperbolehkan pengguna mengaur sendiri range ersebu. DAFTAR PUSTAKA [1] Crof, W. B., Mezler, D., & Srohman, T. (2015). Search Engines Informaion Rerieval in Pracice. Pearson Educaion, Inc. [2] Feizar, F. H., Indriani, & Yudisira,. (2014). Analisis Senimen Opini Film Berbahasa Indonesia Berbasis Kamus Menggunakan Meode eighbor-weighed K-eares eighbor. Universias Brawijaya, Teknik Informaika. Malang: Universias Brawijaya. [3] Manning, C. D., Raghavan, P., & Schuze, H. (2009). An Inroducion o Informaion Rerieval. Cambridge, England: Cambridge Universiy Press. [4] ovanirani, A., Sabariah, M. K., & Effendy, V. (n.d). Analisis Senimen pada Twier unuk Mengenai Penggunaan Transporasi Umum Dara Dalam Koa dengan Meode Suppor Vecor Machine. Universias Telkom, Teknik Informaika. Bandung: Universias Telkom. [5] Purani,. D., & Winarko, E. (2014, January 15). Analisis Senimen Twier unuk Teks Berbahasa Indonesia dengan Maximum Enropy dan Suppor Vecor Machine. IJCCS, 8, 91-100. 75 JURAL TRASFORMATIKA, Volume 14, omor 2, Januari 2017
[6] Saraswai,. W. (2011). Tex Mining dengan Meode aive Bayes Classifier dan Suppor Vecor Machines unuk Senimen Analysis. Universias UDAYAA, Teknik Elekro. Denpasar: Universias UDAYAA. [7] Wicaksono, A. F. (2011, Januari 20). My Live Journals. Dipeik Sepember 15, 2015, dari Apa iu Senimen Analysis / Opinion Mining?: hp://alfanfarizki.blogspo.co.id/2011/01/apa-iu-senimen-analysisopinion.hml JURAL TRASFORMATIKA, Volume 14, omor 2, Januari 2017 76