3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal pada buku seperti Psikotes dan Lembar Kerja Siswa (LKS). Selain itu sebagai penunjang literatur pengambilan data yang lain, data kalimat tanya juga diambil dari situs bukusekolahdigital.com. Data yang terkumpul kemudian diklasifikasikan secara manual terlebih dahulu untuk mengetahui setiap target kelas dari masing-masing kalimat tanya. Jumlah data yang digunakan dalam penelitian ± 600 data kalimat tanya. Data Kalimat Tanya disimpan dalam format Comma Separated Value (CSV). Berikut contoh dari data tugas akhir seperti pada Tabel 3.1. Tabel 3.1 Data Kalimat Tanya Identifikasikan sebab terjadinya kemajemukan oleh beragam suku bangsa yang tersebar di wilayah Indonesia? Mengapa sifat unsur non logam semakin bertambah pada pergeseran dari kiri ke kanan dalam tabel periodik? Jelaskan! Apakah situasi dan kondisi kehidupan masyarakat Indonesia dari hari ke hari kian memburuk merupakan salah satu dampak dari globalisasi? Kemukakan pendapatmu! Temukan perbedaan pelaksanaan Politik Bebas Aktif Indonesia sejak masa awal kemerdekaan hingga masa Reformasi! Buktikan pernyataan bahwa Sosiologi merupakan ilmu sosial, bersifat heterogen, ilmu murni, dan abstrak! Kelompokkan tumbuhan-tumbuhan dikotil dan monokotil berdasarkan persamaan dan perbedaan ciri yang dimiliki! Dalam sistem klasifikasi, data yang telah diperoleh kemudian dilakukan pembagian data yaitu data latih (Data Train) dan data uji (Data Testing). Pembagian data tersebut akan dibagi menjadi 80% sebagai data latih dan 20% sebagai data uji yang didalam data tersebut mengandung 6 level ranah kognitif berdasarkan Taksonomi Bloom. 6 level aspek kognitif dalam Taksonomi Bloom antara lain Mengingat, Memahami, Menerapkan, Menganalisis, Mengevaluasi, dan Membuat. Berikut contoh data kalimat tanya aspek kognitif berdasarkan 19
Taksonomi Bloom pada Tabel 3.2. Tabel 3.2 Kalimat Tanya Aspek Kognitif berdasarkan Taksonomi Bloom KALIMAT TANYA Identifikasikan sebab terjadinya kemajemukan oleh beragam suku bangsa yang tersebar di wilayah Indonesia? Mengapa sifat unsur non logam semakin bertambah pada pergeseran dari kiri ke kanan dalam tabel periodik? Jelaskan! Apakah situasi dan kondisi kehidupan masyarakat Indonesia dari hari ke hari kian memburuk merupakan salah satu dampak dari globalisasi? Kemukakan pendapatmu! Temukan perbedaan pelaksanaan Politik Bebas Aktif Indonesia sejak masa awal kemerdekaan hingga masa Reformasi! Buktikan pernyataan bahwa Sosiologi merupakan ilmu sosial, bersifat heterogen, ilmu murni, dan abstrak! Kelompokkan tumbuhan-tumbuhan dikotil dan monokotil berdasarkan persamaan dan perbedaan ciri yang dimiliki! TARGET KELAS Mengingat Memahami Menerapkan Menganalisis Mengevaluasi Membuat 3.2 Analisis Data Pada pengerjaan tugas akhir ini, peneliti akan merancang sebuah sistem klasifikasi dari suatu kalimat tanya menggunakan algoritma Support Vector Machine. Dalam sistem klasifikasi ini terdapat 6 target kelas berdasarkan Taksonomi Bloom untuk aspek kognitif. Proses awal dalam melakukan klasifikasi yaitu, proses labelisasi data kalimat tanya ke dalam target kelas pada masingmasing data kalimat tanya. Proses labelisasi tersebut nantinya akan dibagi menjadi 2 jenis data yaitu data latih (Data Train) dan data uji (Data Testing). Dari data latih tersebut kemudian dilakukan penentuan fitur. Penentuan fitur tersebut bertujuan untuk proses pengklasifikasian kalimat tanya sehingga dalam setiap feature memiliki masing-masing target kelas. Setelah proses penentuan fitur dilakukan, tahap selanjutnya adalah proses pembuatan model klasifikasi menggunakan algoritma Support Vector Machine menggunakan open source WEKA. Data latih (Data Train) dan data uji (Data Testing) kemudian diinputkan ke dalam sistem untuk dilakukan proses klasifikasi yang bertujuan mengetahui target kelas dari kalimat tanya. 20
Dari hasil pengujian klasifikasi kalimat tanya menggunakan algoritma Support Vector Machine tersebut akan diperoleh tingkat akurasi (accuracy), presisi (precision) dan recall. 3.3 Preprocessing Data Pada tahapan preprocessing yang digunakan penelitian yaitu meliputi remove number & punctuation, case folding, dan tokenisasi. Berikut merupakan gambaran sistem pada tahap preprocessing pada Gambar 3.1. Gambar 3.1 Preprocessing Data 3.3.1 Case Folding Pada Gambar 3.3 merupakan tahap dalam penyamaan sebuah case dalam data kalimat tersebut kemudian diubah menjadi huruf kecil. Gambar 3.2 Proses Case Folding 3.3.2 Remove Number & Punctuation Pada Gambar 3.2 merupakan proses menghilangkan karakter berupa nomor, tanda baca, dan spasi. Jika data kalimat mengandung karakter nomor, tanda baca, dan spasi, maka karakter tersebut akan dihapus. Gambar 3.3 Proses Remove Number & Punctuation 21
3.3.3 Tokenisasi Pada Gambar 3.3 merupakan tahap pemisahan data string setelah proses penginputan kalimat sehingga kalimat menjadi token atau potongan kata tunggal. Gambar 3.4 Proses Tokenisasi 3.4 Perancangan Pelatihan Klasifikasi SVM Pada perancangan model klasifikasi pengerjaan tugas akhir ini menggunakan model algoritma Support Vector Machine. Adapun proses pelatihan dilakukan dengan menginputkan data hasil preprocessing yang kemudian disesuaikan dengan format yang ada pada WEKA sebagai software SVM yang digunakan. Berikut merupakan tahapan dalam melakukan pelatihan klasifikasi SVM pada Gambar 3.5. Gambar 3.5 Proses Perancangan Klasifikasi SVM Proses ekstraksi fitur perlu dilakukan guna hasil dari proses pengklasifikasian lebih akurat. Berikut merupakan tabel ekstraksi fitur. 22
Tabel 3.3 Daftar Ekstraksi Fitur No Fitur Deskripsi 1 WH <true, false> Kunci 5W + 1H 2 Kerja <true, false> Kunci Kerja 3 Perbandingan <true, false> Kunci Perbandingan 4 Definisi <true, false> Kunci Definisi 5 Kausalitas <true, false> Kunci Kausalitas 6 Penyebutan <true, false> Kunci Penyebutan 7 Preposisi <true, false> Kunci Preposisi 8 Penjelas <true, false> Kunci Penjelas 9 Pilihan <true, false> Kunci Pilihan 10 Tujuan <true, false> Kunci Tujuan 11 Cara <true, false> Kunci Cara 12 Waktu <true, false> Kunci Waktu 13 Tambahan <true, false> Kunci Tambahan 14 Mengingat <true, false> Kunci Mengingat 15 Memahami <true, false> Kunci Memahami 16 Menerapkan <true, false> Kunci Menerapkan 17 Menganalisis <true, false> Kunci Menganalisis 18 Mengevaluasi <true, false> Kunci Mengevaluasi 19 Membuat <true, false> Kunci Membuat 20 Class <nominal> Untuk mendefinisikan target kelas Dari proses ekstraksi feature yang telah dilakukan, selanjutnya adalah proses pemodelan berdasarkan data latih yang sudah ada. Pada saat proses pembentukan model dilakukan menggunakan open source WEKA. Dengan WEKA, data latih tersebut kemudian akan diproses untuk menghasilkan model klasifikasi berdasarkan algoritma yang dipakai yaitu algoritma Support Vector Machine. Setelah proses pemodelan selesai dibangun, kemudian sistem akan melakukan pengujian untuk memberikan informasi berupa keakuratan presentasi data uji dari model yang telah dibuat. Jika nilai yang diperoleh sama dengan nilai yang ada pada data uji, maka proses klasifikasi yang dilakukan oleh sistem sudah benar atau berhasil. 3.5 Perancangan Pengujian Perancangan pengujian dalam penelitian ini yaitu meliputi berbagai tahap yang dilakukan sistem nantinya sebagai gambaran dari proses pengujian yang 23
akan dilakukan saat sistem sudah siap digunakan dan hasil dari klasifikasi sesuai target yang diinginkan. Berikut merupakan perancangan pengujian: 3.5.1 Preprocessing Pada tahap preprocessing data kalimat diinputkan dengan format *.csv kemudian sistem akan melakukan preprocessing pada data tersebut, yang meliputi tahap case folding yaitu mengubah huruf menjadi kecil, remove number & puntuation yaitu penghilangan nomor, tanda baca dan spasi, dan tahap terakhir adalah tokenisasi yaitu proses pemisahan data menjadi token atau potongan kata tunggal. Berikut merupakan contoh dari proses sebelum dan sesudah dilakukan preprocessing terdapat pada Tabel 3.5 dan Tabel 3.6. Tabel 3.4 Data Kalimat Tanya Sebelum Proses Preprocessing Tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas ekonomi yang dominan berkembang di daerah tempat tinggalmu? Identifikasilah hal apa saja yang diperlukan untuk mengatasi berbagai masalah yang muncul dalam kehidupan bermasyarakat! Deskripsikan akibat yang terjadi jika kemerdekaan dalam menyampaikan pendapat tidak ada peraturan? Bagaimana persamaan kalor untuk menaikkan suhu benda dan kalor untuk mengubah wujud benda? Coba jelaskan! Tabel 3.5 Data Kalimat Tanya Sesudah Proses Preprocessing tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas ekonomi yang dominan berkembang di daerah tempat tinggalmu identifikasilah hal apa saja yang diperlukan untuk mengatasi berbagai masalah yang muncul dalam kehidupan bermasyarakat deskripsikan akibat yang terjadi jika kemerdekaan dalam menyampaikan pendapat tidak ada peraturan bagaimana persamaan kalor untuk menaikkan suhu benda dan kalor untuk mengubah wujud benda coba jelaskan 3.5.2 Ekstraksi Fitur Selesai tahap preprocessing, kemudian dilakukan tahap ekstraksi fitur yang sebelum diinputkan, data kalimat tersebut sudah dilakukan pelabelan secara manual dan disimpan dalam format *.csv. Proses ekstraksi fitur dilakukan dengan 2 jenis ekstraksi yaitu untuk fitur sintaktik dan fitur bag-of-word. Pada tahap ekstraksi dilakukan bertujuan untuk memberikan nilai biner pada setiap kata yang 24
memiliki nilai fitur masing-masing untuk memudahkan proses penargetan kelas. a. Fitur Sintaktik Fitur sintaktik adalah fitur dari sebuah soal yang diekstrak berdasarkan susunan kata pada soal tersebut [22]. Berikut merupakan tabel proses dari ektraksi fitur sintaktik, dimana jika pada kata tersebut mengandung nilai fitur maka kata tersebut akan bernilai 1 dan jika tidak bernilai fitur maka akan bernilai 0. Pada penilaian ekstraksi fitur ini penilaian untuk fitur menggunakan biner. Tabel 3.6 Proses Ekstraksi Fitur Sintaktik Kalimat Tanya tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas ekonomi yang dominan berkembang di daerah tempat tinggalmu WH Kerja Perbandingan Definisi Kausalitas Penyebutan Preposisi Penjelas Pilihan 0 1 0 0 0 0 1 0 0 0 Cara Waktu Tambahan Mengingat Memahami Menerapkan Menganalisis Mengevaluasi Membuat Tujuan 0 0 1 1 1 1 0 0 0 Mengingat Kalimat Tanya identifikasilah hal apa saja yang diperlukan untuk mengatasi berbagai masalah yang muncul dalam kehidupan bermasyarakat Label WH Kerja Perbandingan Definisi Kausalitas Penyebutan Preposisi Penjelas Pilihan 1 1 0 0 0 0 1 0 0 0 Cara Waktu Tambahan Mengingat Memahami Menerapkan Menganalisis Mengevaluasi Membuat Tujuan 0 0 1 1 1 1 0 0 0 Mengingat Kalimat Tanya deskripsikan akibat yang terjadi jika kemerdekaan dalam menyampaikan pendapat tidak ada peraturan Label WH Kerja Perbandingan Definisi Kausalitas Penyebutan Preposisi Penjelas Pilihan 0 1 0 0 1 0 1 0 0 0 Cara Waktu Tambahan Mengingat Memahami Menerapkan Menganalisis Mengevaluasi Membuat Tujuan 0 0 1 0 1 1 0 0 1 Memahami Kalimat Tanya bagaimana persamaan kalor untuk menaikkan suhu benda dan kalor untuk mengubah wujud benda coba jelaskan Label WH Kerja Perbandingan Definisi Kausalitas Penyebutan Preposisi Penjelas Pilihan Tujuan 25
1 1 1 0 0 0 1 0 0 0 Cara Waktu Tambahan Mengingat Memahami Menerapkan Menganalisis Mengevaluasi Membuat 0 0 1 0 1 1 0 0 0 Memahami b. Fitur Bag-of-Words (BoW) Semua dokumen dapat dipresentasikan secara sederhana menggunakan Bag-ofwords (BoW). BoW adalah sebuah model yang merepresentasikan objek secara global misalnya kalimat teks atau dokumen sebagai bag (multiset) kata tanpa memperdulikan tata bahasa bahkan urutan kata untuk menjaga keanekaragamannya [23]. Dengan kata lain, BoW merupakan kumpulan kata-kata unik dalam teks dokumen untuk membentuk urutan yang berbeda kemudian dihitung frekuensi kemunculannya. Pada proses ekstraksi fitur Bag-of-Words untuk setiap kata dihitung jumlah kata yang muncul pada berdasarkan panjang kalimat. Berikut merupakan contoh proses ekstraksi untuk fitur sintaktik. Tabel 3.7 Proses Ekstraksi Fitur Bag-of-Words tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas ekonomi yang dominan berkembang di daerah tempat tinggalmu Hasil Ekstraksi tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai 1 1 1 2 1 1 1 1 aktivitas ekonomi dominan berkembang di daerah tempat tinggalmu 1 1 1 1 1 1 1 1 identifikasilah hal apa saja yang diperlukan untuk mengatasi berbagai masalah yang muncul dalam kehidupan bermasyarakat Hasil Ekstraksi identifikasilah hal apa saja yang diperlukan untuk 1 1 1 1 2 1 1 mengatasi berbagai masalah muncul dalam kehidupan bermasyarakat 1 1 1 1 1 1 1 deskripsikan akibat yang terjadi jika kemerdekaan dalam menyampaikan pendapat tidak ada peraturan deskripsi kan Hasil Ekstraksi akibat yang terjadi jika kemerdekaan 1 1 1 2 1 1 dalam menyampaikan pendapat tidak ada peraturan 1 1 1 1 1 1 bagaimana persamaan kalor untuk menaikkan suhu benda dan kalor untuk mengubah wujud benda coba jelaskan Label 26
Hasil Ekstraksi bagaimana persamaan kalor untuk menaikkan suhu benda 1 1 2 2 1 1 1 dan mengubah wujud benda coba jelaskan 1 1 1 1 1 1 3.5.3 Pemodelan Klasifikasi SVM Setelah didapatkan fitur yang terdapat pada Tabel 3.6 maka fitur ini nantinya akan digunakan sebagai masukan dalam klasifikasi menggunakan algoritma SVM dengan metode one-against-all (OAA). Sebagai contoh dalam dataset terdapat 2 kelas seperti diatas, yang terdiri dari kelas 1 = Mengingat, dan 2 = Memahami Langkah awal adalah melakukan pembuatan model klasifikasi biner, pada penelitian ini menggunakan SVM OAA. Langkah selanjutnya setiap model klasifikasi ke-i di latih dengan menggunakan keseluruhan data, kemudian di lakukan pencarian untuk mendapatkan fungsi optimasi klasifikasi. Tabel 3.8 merupakan contoh 2 SVM biner dengan metode one-against-all beserta fungsi hasil pelatihan. Tabel 3.8 Contoh 2 SVM biner Yi = 1 Yj = -1 Fungsi Hasil Pelatihan Kelas 1 Bukan Kelas 1 ( ) ( ) Kelas 2 Bukan Kelas 2 ( ) ( ) Langkah selanjutnya adalah hasil ekstraksi fitur Tabel 3.6 di masukkan ke dalam fungsi hasil pelatihan untuk setiap model klasifikasi biner yang sudah dibuat. Jika hasil dari klasifikasi data baru tersebut menyatakan bahwa data tersebut bukan kelas i maka data baru tersebut di masukkan ke dalam fungsi hasil pelatihan berikutnya, sampai hasil dari klasifikasi menyatakan bahwa data baru tersebut adalah kelas i. Gambar 3.6 Ilustrasi Klasifikasi dengan Metode one-against-all 27
3.6 Perhitungan SVM X1 X2 Yi 6 7 1 7 7 1 4 4 1 2 3 1 5 5 1 Perhitungan SVM dengan OAA 28
3.7 Skenario Pengujian Skenario pengujian dalam penelitian ini yaitu pengujian terhadap hasil dari klasifikasi kalimat tanya berdasarkan target kelas berupa pembagian data yang berjumlah 600 kalimat dengan 6 kelas yaitu sebagai berikut: 1. Data akan dibagi menjadi 2 kelompok, kelompok pertama sebagai data latih dan kelompok kedua sebagai data uji. 2. Terdapat porsi pembagian data latih dan data uji, porsi pembagian data sebagai berikut: 1. 80 % : 20% dimana 480 data digunakan sebagai data latih dan 120 data digunakan sebagai data uji. 2. Untuk setiap klasifikasi SVM di hitung nilai akurasinya dengan persamaan sebagai berikut: Akurasi = TP + TN TP + TN + FP + FN Presisi = TP TP + FP Recall = TP TP + FN 3. Setelah mendapatkan parameter dalam klasifikasi SVM yang memiliki akurasi terbesar maka parameter tersebut digunakan dalam pengujian menggunakan teknik Cross Validation. 3.8 Pengujian Klasifikasi Pengujian sistem klasifikasi dilakukan menggunakan confusion matrix yang bertujuan untuk mengetahui tingkat keberhasilan suatu sistem dalam melakukan proses pengklasifikasian. Berikut merupakan contoh dari perancangan pengujian sistem terdapat pada Tabel 3.9. 29
Tabel 3.9 Perancangan Pengujian Klasifikasi Data Uji bersama dengan anggota kelompok identifikasilah satu jenis kelainan atau penyakit yang menyerang sistem transportasi jelaskan perbedaan antara pelaksanaan usaha swasta dengan munculnya kapitalisme dan imperialisme modern di indonesia berilah contoh peristiwa peleburan pembekuan penguapan dan pengembunan apakah dalam peristiwa itu memerlukan atau melepaskan kalor buatlah poster yang berkaitan dengan salah satu penyakit yang disebabkan oleh virus sebutkan provinsi di indonesia yang memiliki tingkat kepadatan penduduk yang tinggi Hasil Aktual Prediksi Ket. Mengingat Mengingat T Memahami Memahami T Memahami Memahami T Membuat Membuat T Mengingat Membuat F Dari Tabel 3.9 maka diperoleh sebuah confusion matrix yang menggambarkan hasil mengenai sistem klasifikasi seperti pada Tabel 3.10. Tabel 3.10 Perancangan Confusion Matrix Aktual Prediksi Mengingat Memahami Membuat Mengingat TMeng = 1 FMema = 0 FMem = 0 Memahami FMeng = 0 TMema = 2 FMem = 0 Membuat FMeng = 0 FMema = 0 TMem = 1 Berikut merupakan perhitungan nilai akurasi, presisi, dan recall untuk masing-masing kelas : 1. Akurasi Akurasi = ( ) Akurasi = 1 + 2 + 1 1 + 2 + 1 + 0 + 0 + 0 30
Akurasi = = 1 100% = 100% 2. Presisi Presisi = ( + ) 3 Presisi = ( ( ) ( ) ( ) ) 3 Presisi = (1 + 1 + 1) 3 Presisi = 1 100% = 100% 3. Recall Recall= ( + ) 3 Recall = ( ) 3 Recall = (0,5 + 1 + 1) 3 Recall = (2,5 3) 100% = 0,8333 100% = 83,33% 31