PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

Transkripsi

1 PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA Suprianto 1), Sunardi 2), Abdul Fadlil 3) 1 Sistem Informasi STMIK PPKIA Tarakanita Rahmawati 2,3 Magister Teknik Informatika Universitas Ahmad Dahlan 1 Jl. Yos Sudarso 8, Tarakan, 2,3 Jl. Dr. Soepomo Kampus III, Yogyakarta 1 [email protected], 2 [email protected], 3 [email protected] ABSTRAK Pengajaran yang baik sangat membantu mahasiswa dalam mencapai pembelajaran yang baik. Kualitas pengajaran dan standar akademik perlu untuk dievaluasi dan ditingkatkan demi mengantarkan mahasiswa yang berkualitas. Evaluasi dosen digunakan untuk mengidentifikasi kontribusi dosen dalam pencapaian tujuan program studi dan menilai kebutuhan dosen terhadap bimbingan dan pelatihan dalam bidang pengajaran. Pengajaran pada saat kuliah dapat dievaluasi berupa umpan balik mahasiswa yang diisi setiap akhir semester. Dalam meringkas umpan balik mahasiswa secara manual membutuhkan banyak waktu dan tidak efektif. Oleh karena itu, dibutuhkan sistem yang mampu meringkas opini mahasiswa untuk menyajikan informasi yang panjang dalam bentuk singkat. Pemanfaatan Metode Vector Space Model (VSM) digunakan sebagai system pembobotan query relevance dan untuk similarity kalimat. Sistem melakukan penyiapan teks (text preprocessing) dokumen yang terdiri dari tahap peringkasan mulai dari pemecahan kalimat, case folding, tokenisasi, stop world removal, stemming, pembobotan tf/idf, pembobotan antar kalimat menggunakan vector space model yang nantinya diperoleh hasil ringkasan yang baik dan dengan akurasi yang tinggi. Kata kunci : Peringkasan, Angket Penilaian, Vector Space Model (VSM) ABSTRACT Good teaching helps students in achieving good learning. Quality of teaching and academic standards need to be evaluated and improved in order to deliver qualified students. Lecturer's evaluation is used to identify the contribution of lecturers in achieving the objectives of the study program and assess the lecturer's need for guidance and training in the field of teaching. Teaching during college can be evaluated in the form of student feedback filled out at the end of each semester. In summarizing student feedback manually takes a lot of time and is not effective. Therefore, a system that is able to summarize student opinions to present long information in short form. Utilization of Method Vector Space Model (VSM) is used as a system of weighting query relevance and for similarity of sentence. The system performs a text preparation (preprocessing) document consisting of a summary stage ranging from solving sentences, case folding, tokenisasi, stop world removal, stemming, weighting tf / idf, weighting between sentences using vector space model which later obtained a good summary results and with high accuracy. Keywords : Summary, Questionnaire, Vector Space Model (VSM). 1. PENDAHULUAN Pengajaran yang baik merupakan sesuatu yang sulit dan kompleks, sangat tergantung kepada individu dan berkaitan dengan materi yang diberikan. Pada dasarnya, evaluasi dosen digunakan untuk mengidentifikasi kontribusi dosen dalam pencapaian tujuan program studi dan menilai kebutuhan dosen akan bimbingan dan pelatihan dalam bidang pengajaran. Angket penilaian adalah salah satu alat evaluasi yang umum digunakan untuk melakukan penilaian terhadap pengajaran perkuliahan yang berisikan sejumlah pertanyaan. Salah satu angket perkuliahan di STMIK PPKIA Tarakanita Rahmawati digunakan untuk melakukan penilaian dosen pada saat perkuliahan. Setiap akhir semester pada saat sebelum ujian UAS, mahasiswa diwajibkan untuk menilai kinerja dosen pada 251

2 setiap pengajaran yang dilakukan selama satu semester. Ada 3 sub penilaian yang dilakukan, di antaranya penilaian dalam hal pengajaran dosen, pelayanan kampus dan pelayanan asisten laboratorium yang bertugas membantu dosen selama mengajar di laboratorium. Ada sekitar 800 jumlah responden yang melakukan pengisian angket selama 1 semester dan hanya mahasiswa aktif saja yang boleh melakukan pengisian angket. Perekapan secara manual diinputkan pada aplikasi angket penilaian menggunakan aplikasi PHP yang dapat diakses secara lokal hanya di dalam kampus. Perekapan angket secara manual membutuhkan waktu yang sangat lama dan tidak efektif untuk meringkas hasil angket penilaian mahasiswa. Data yang sangat banyak dan jumlah orang yang sangat sedikit dalam meringkas data angket penilaian itu menjadi kendala tersendiri. Pemikiran dasar dari metode VSM ini adalah merepresentasikan setiap kata independen dan setiap dokumen dinyatakan dalam sebuah vektor sehingga kompleksitas hubungan kata-kata menjadi sederhana dan dapat dihitung. Sistem melakukan penyiapan teks (text preprocessing) dokumen yang terdiri dari tahap peringkasan mulai dari pemecahan kalimat, case folding, tokenisasi, stop world removal, stemming, pembobotan tf/idf, pembobotan antar kalimat menggunakan vector space model yang nantinya diperoleh hasil ringkasan. LANDASAN TEORI 1.1. Text Mining Text mining mengacu pada proses mengambil informasi berkualitas tinggi dari teks. Informasi yang diambil biasanya mengacu ke beberapa kombinasi relevansi, kebaruan dan interestingness (Saraswati, 2011) Pembobotan TF-IDF Bobot TF-IDF merupakan bobot setiap kata pada setiap dokumen. Untuk memperoleh nilai TF-IDF menggunakan Persamaan 2. Untuk mendapatkan nilai TF-IDF dibutuhkan nilai idft. Nilai idft dapat dicari dengan Persamaan (1) Dft adalah jumlah dokumen yang mengandung suatu term dan N adalah total dokumen yang diuji.... (2) idf adalah jumlah dokumen yang berisi istilah tersebut. Diambil log dari idf untuk memberikan beberapa penghalusan. Dalam hal ini, setiap dokumen dianggap sebagai vektor dengan 1komponen yang sesuai dengan setiap term yang ada di kamus beserta dengan bobot dari setiapkomponen. Untuk term yang tidak muncul di dokumen, maka bobotnya 0. Setelah didapatkan bobot TF-IDF pada setiap term, maka dilakukan normalisasi pada bobot TF-IDF tersebut.normalisasi cosine dilakukan dengan perhitungan yang ditunjukkan pada Persamaan 3 (Croft,Metzler, & Strohman, 2015).... (3) 1.3 Vector Space Model (VSM) Model ruang vektor adalah salah satu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen dianggap sebagai vektorvektor pada ruang n-dimensi, dimana n adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Salah satu cara untuk mengatasi hal tersebut dalam model ruang vektor adalah dengan melakukan perluasan vektor. Proses perluasan dapat dilakukan pada vektor query, vektor dokumen, atau pada kedua vektor tersebut. Hubungan antara kata pada database, dokumen dan kata kunci (Jade, 2008).... (4) 252

3 t merupakan kata pada database, d merupakan dokumen hasil pemecahan kalimat, dan q merupakan kata kunci pada abstraksi.... (5) 1.4 Text Preprocessing Text preprocessing merupakan tahap awal dari text mining. Tujuan dari text preprocessing adalah untuk mempersiapkan dokumen teks yang tidak terstruktur menjadi data terstruktur yang siap digunakan untuk proses selanjutnya dengan cara menghilangkan noise, menyeragamkan bentuk kata dan mengurangi volume kata (Putranti & Winarko, 2014). Tahapan text preprocessing yang digunakan pada penelitian ini antara lain tokenisasi, case folding, filtering, stopword removal. 2. METODE PENELITIAN Metodologi Penelitian Penelitian ini menggunakan metode VSM dan dilakukan pemisahan kalimat hingga mendapat kata yang bisa diringkas. 1. Angket Mahasiswa Pada tahap ini, mahasiswa diwajibkan untuk melakukan pengisian angket penilaian dosen pada saat sebelum ujian UAS. 2. Case Folding Tahap ini melakukan konversi keseluruhan teks dalam dokumen menjadi huruf kecil. 3. Tokenisasi/Filtering Pada tahap ini akan dilakukan proses pembagian teks yang dapat berupa kalimat, paragraph atau dokumen menjadi bagian-bagian tertentu 4. Stemming Tahapan ini dilakukan untuk melakukan pemotongan kata menjadi kata dasar. 5. TF-IDF Tahap ini akan dilakukan pembobotan kata. 6. Pembobotan Vector Space Model Tahapan terakhir untuk pembobotan antar kalimat, nilai tertinggi akan digunakan untuk mengambil hasil ringkasan. Alat dan Bahan Untuk menyelesaikan penelitian ini, digunakan alat dan bahan seperti ditunjukkan pada Tabel 2.1. Tabel 2.1. Alat dan Bahan Penelitian No Nama Alat dan Bahan Deskripsi / Spesifikasi Ket 1. Laptop OS Windows 10 Perangkat Keras 2. Angket Mahasiswa Form Angket mahasiswa yang digunakan Form Angket untuk menilai dosen. 3. Adobe Dreamwaver Aplikasi yang digunakan untuk membuat aplikasi dari penelitian ini Perangkat Lunak 4. Sql Essential Aplikasi yang digunakan sebagai database Perangkat Lunak 5. Aplikasi Rekap Angket Mahasiswa 3. HASIL DAN PEMBAHASAN untuk penyimpanan Aplikasi berbasis web local yang digunakan untuk mengambil hasil perekapan yang telah dilakukan sebelumnya Hasil Perancangan Perancangan proses alur ringkasan data angket mahasiswa dapat dilihat pada Gambar 4.1. Perangkat Lunak 253

4 Gambar 4.1 Alur Ringkasan Data Angket Mahasiswa Pembahasan Pembahasan ini mengenai proses mengurangi dokumen teks untuk membuat ringkasan yang mempertahankan poin yang paling penting dari dokumen asli. Untuk mengatasi informasi yang berlebihan dan jumlah data yang meningkat, sehingga perlu dalam peringkasan. Peringkasan data pada penelitian ini menggunakan data yang diambil dari pengisian angket mahasiswa pada STMIK PPKIA Tarakanita Rahmawati yang kemudian diolah untuk menghasilkan sebuah ringkasan. Dengan memanfaatkan vector space model sebagai model untuk pembobotan query relevance, cosine similarity untuk memperoleh hasil ringkasan sistem. Hasil ringkasan diambil dari satu atau dua kalimat asli (bisa lebih dari dua) merupakan kelemahan karena maknanya bisa terjadi tidak integrated dikarenakan hasil ringkasan diambil secara berurut dari nilai tertinggi ke nilai terendah. 4.1 Case Folding Case folding merupakan tahapan merubah huruf dokumen teks menjadi huruf kecil semua, Hanya huruf abjad a sampai z saja yang diterima dan dapat dirubah. Karakter selain huruf dihilangkan dan dianggap delimiter (pembatas) (Triawati, 2009).Contoh case folding dapat dilihat pada Gambar 4.2. Gambar 4.2 Contoh Case Folding 4.2 Tokenisasi / Filtering Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya(triawati, 2009). Selain itu, spasi digunakan untuk memisahkan antar kata tersebut. Contoh Tokenisasi dapat dilihat pada Gambar

5 Gambar 4.3 Contoh Tokenisasi 4.3 Stemming Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu (Agusta, 2009). Stemming kebanyakan digunakan pada teks berbahasa inggris dikarenakan teks berbahasa inggris memiliki struktur imbuhan yang tetap dan mudah untuk diolah sementara stemming untuk proses bahasa Indonesia memiliki struktur imbuhan yang rumit / kompleks sehingga agak lebih susah untuk diolah. Algoritma stemming untuk teks berbahasa Indonesia, diantaranya: Algortima Porter, Algoritma Nazief & Adriani. Berdasarkan hasil penelitian yang dilakukan (Agusta, 2009), kesimpulan dari perbandingan antara Algoritma Porter dengan Algoritma Nazief & Adriani, adalah: 1. Proses stemming dokumen teks berbahasa Indonesia menggunakan Algoritma Porter membutuhkan waktu yang lebih singkat dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani. 2. Proses stemming dokumen teks berbahasa Indonesia menggunakan Algoritma Porter memiliki prosentase keakuratan (presisi) lebih kecil dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani. 3. Pada proses stemming menggunakan Algoritma Nazief & Adriani, kamus yang digunakan sangat mempengaruhi hasil stemming. Semakin lengkap kamus yang digunakan maka semakin akurat pula hasil stemming. Kamus yang digunakan mempengaruhi perhitungan presisi. Semakin lengkap kamus yang digunakan maka semakin akurat pula nilai presisinya. Contoh penggunaan stemming: Contoh stemming dapat dilihat pada Gambar 4.4. Gambar 4.4 contoh Stemming 4.3 TF-IDF 1. Term Frequency (TF) TF (Term Frequency) adalah frekuensi dari kemunculan sebuah term dalam dokumen yang bersangkutan. Semakin besar jumlah kemunculan suatu term (TF tinggi) dalam dokumen, semakin besar pula bobotnya atau akan memberikan nilai kesesuaian yang semakin besar. Pada Term Frequency (TF), terdapat beberapa jenis formula yang dapat digunakan : a. TF biner (binary TF), hanya memperhatikan apakah suatu kata atau term ada atau tidak dalam dokumen, jika ada diberi nilai satu (1), jika tidak diberi nilai nol (0). b. TF murni (raw TF), nilai TF diberikan berdasarkan jumlah kemunculan suatu term di dokumen. Contohnya, jika muncul lima (5) kali maka kata tersebut akan bernilai lima (5). c. TF logaritmik, hal ini untuk menghindari dominansi dokumen yang mengandung sedikit term dalam query, namun mempunyai frekuensi yang tinggi. Dimana nilai ft,d adalah frekuensi term (t) pada document (d). Jadi jika suatu kata atau term terdapat dalam suatu dokumen sebanyak 5 kali maka diperoleh bobot = 1 + log (5) = Tetapi jika term tidak terdapat dalam dokumen tersebut, bobotnya adalah nol (0). d. TF normalisasi, menggunakan perbandingan antara frekuensi sebuah term dengan nilai maksimum dari keseluruhan atau kumpulan frekuensi term yang ada pada suatu dokumen. 255

6 2. Inverse Document Frequency (IDF) IDF (Inverse Document Frequency) merupakan sebuah perhitungan dari bagaimana term didistribusikan secara luas pada koleksi dokumen yang bersangkutan. IDF menunjukkan hubungan ketersediaan sebuah term dalam seluruh dokumen. Semakin sedikit jumlah dokumen yang mengandung term yang dimaksud, maka nilai IDF semakin besar. 4. PENUTUP Dari hasil rancangan penerapan peringkasan yang dibuat berdasarkan data angket mahasiswa sebagai salah satu dari penilaian dosen dalam perkuliahan, terdapat beberapa kesimpulan yaitu : 1) Dibutuhkan perekapan data angket penilaian secara manual dan akan diringkas otomatis untuk mendapatkan poin yang lebih penting. 2) Untuk memudahkan perekapan angket agar tidak dilakukan penginputan manual, dibutuhkan sistem pengisian secara komputerisasi. 3) Angket penilaian diharapkan menjadi lebih maksimal dan cepat dalam memberikan hasil untuk setiap dosen pengajar yang dinilai. 4) Diharapkan hasil peringkasan angket penilaian mudah dibaca dan dicetak untuk diberikan kepada dosen pengajar yang dinilai. 5) Peringkasan hasil angket penilaian nantinya dapat digunakan sebagai faktor penentu keberhasilan dalam pengajaran diperkuliahan. Hasil ringkasan yang diambil dari satu atau dua kalimat asli (bisa lebih dari dua) merupakan kelemahan yang dapat terjadi karena maknanya bisa tidak terintegrasi dikarenakan hasil ringkasan diambil secara berurut dari nilai tertinggi ke nilai terendah. Harapannya agar dokumen yang diringkas bisa mendapatkan tingkat akurasi yang tinggi. Untuk pengembangan lebih lanjut disarankan hal-hal sebagai berikut : 1) Diharapkan dapat mengembangkan metode dengan kasus yang berbeda. 2) Dalam melakukan pengisian angket mahasiswa disarankan menggunakan aplikasi agar tidak dilakukan penginputan ulang. 3) Hasil peringkasan dapat dilanjutkan dengan melakukan analisis sentimen untuk mengklasifikasikan komentar angket mahasiswa. 5. DAFTAR PUSTAKA [1]. Agusta, Ledy Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia. Makalah pada Konferensi Nasional Sistem dan Informatika, Bali. [2]. Croft, W. B., Metzler, D., & Strohman, T. (2015). Search Engines Information Retrieval in Practice. Pearson Education, Inc. [3]. Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and trends in informationretrieval, 2(1-2), Putranti, N. D., & Winarko, E. (2014, January 15). Analisis Sentimen Twitter untuk Teks Berbahasa Indonesia dengan Maximum Entropy dan Support Vector Machine. IJCCS, 8, [4]. Sumartini Saraswati, N. W. (2011). Text Mining dengan Metode Naive Bayes Classifier dan Support Vector Machines untuk Sentiment Analysis. Denpasar, Bali, Indonesia. [5]. Triawati, Chandra (2009). Metode Pembobotan Statistical Concept Based untuk Klastering dan Kategorisasi Dokumen Berbahasa Indonesia, Institut Teknologi Telkom Bandung. 256