PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO

Transkripsi

1 PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juni 2013 Septiandi Wibowo NIM G

4 ABSTRAK SEPTIANDI WIBOWO. Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes. Dibimbing oleh AHMAD RIDHA. Penelitian ini meringkas dokumen teks bahasa Indonesia dengan metode klasifikasi Naive Bayes (NB). Segmentasi dokumen menjadi beberapa kalimat dan penghitungan fitur kalimat merupakan tahap awal pelatihan sistem untuk menentukan kalimat yang diklasifikasi sebagai ringkasan. Klasifikasi menggunakan 11 fitur (f1-f11). Fitur-fitur kalimat dipilih dengan decision tree C4.5 untuk menentukan fitur-fitur kalimat yang berpengaruh pada hasil ringkasan, mengurangi jumlah fitur, dan mempercepat peringkasan dokumen. Akurasi hasil ringkasan dengan 10 fitur kalimat (f1-f10) adalah 34.63%, 37.96%, dan 28.14% untuk masing-masing Compression Rate (CR) 10%, 20%, dan 30%. Penambahan f11 dan pemilihan fitur C4.5 menghasilkan akurasi 52.45%, 51.49%, dan 51.35% untuk masing-masing CR 10%, 20%, dan 30%. Peringkasan teks menggunakan klasifikasi NB, pemilihan fitur C4.5, dan penambahan fitur f11 menghasilkan akurasi ringkasan yang lebih baik dan waktu peringkasan yang lebih cepat. Kata kunci: C4.5, naive bayes, pemilihan fitur, peringkasan teks ABSTRACT SEPTIANDI WIBOWO. Indonesian Teks Summarization Using C4.5 Feature Selection and Naive Bayes Classification. Supervised by AHMAD RIDHA. This research summarized Indonesian text documents using naive bayes (NB) classification method. Segmentation of the documents into sentences and feature computation are the initial stages of training the system to determine which sentences are classified as summary. The classification used 11 features (f1-f11). The features are selected using C4.5 decision tree to determine the features that affect the summary, reduce the number of features and speed up the summarization. The accuracy of summarization using 10 features (f1-f10) was 34.63%, 37.96%, and 28.14% for compression rate (CR) of 10%, 20%, and 30%, respectively. Adding f11 and C4.5 produced an accuracy of 52.45%, 51.49% and 51.35% for CR 10%, 20%, and 30%, respectively. Text summarization using NB classification, C4.5 feature selection, and additional f11 feature produced better accuracy and faster summarization. Keyword: C4.5, feature selection, naive bayes, text summarization

5 PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

6

7 Judul Skripsi : Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes Nama : Septiandi Wibowo NIM : G Disetujui oleh Ahmad Ridha, SKom MS Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Alhamdulillahi rabbil a lamin karya ilmiah ini telah berhasil diselesaikan oleh penulis. Judul karya ilmiah ini adalah Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes. Penulis mengucapkan terima kasih kepada Sumedi dan Ani Sri Dharmawati sebagai orang tua dan keluarga besar yang selalu mendoakan dan memberi dukungan kepada penulis. Shinta Bela Dewanti sebagai teman dekat yang memberi dukungan kepada penulis. Serta tak lupa bapak Ahmad Ridha, SKom MS sebagai pembimbing yang selalu mengarahkan penulis saat penelitian beserta teman seperjuangan alih jenis ilmu komputer yang menjadi pelengkap suksesnya penulis menyelesaikan karya ilmiah ini. Bogor, Juni 2013 Septiandi Wibowo

9 DAFTAR ISI DAFTAR TABEL viii DAFTAR GAMBAR viii DAFTAR LAMPIRAN viii PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 1 Ruang Lingkup 2 Manfaat Penelitian 2 METODE PENELITIAN 2 Pengumpulan Dokumen Teks 3 Segmentasi Dokumen 3 Ekstraksi Fitur Teks 3 Klasifikasi Naive Bayes 6 Pemilihan Fitur C4.5 7 Pengujian N-gram 7 Spesifikasi Perangkat Lunak dan Perangkat Keras 7 HASIL DAN PEMBAHASAN 8 Penghitungan Fitur Kalimat 8 Naive Bayes 8 Pemilihan Fitur 9 Implementasi Program 10 Evaluasi Hasil Ringkasan 11 SIMPULAN DAN SARAN 14 Simpulan 14 Saran 14 DAFTAR PUSTAKA 15 LAMPIRAN 16

10 DAFTAR TABEL 1 Contoh ekstraksi fitur dan pemberian kelas pada sebuah dokumen 8 2 Rata-rata dan varian 11 fitur dengan CR 10% dan kelas masuk ringkasan 9 3 Fitur kalimat yang terpilih di setiap compression rate 10 4 Fitur kalimat terpilih menggunakan data uji 10 DAFTAR GAMBAR 1 Metode penelitian peringkasan teks 2 2 Diagram alir kode program peringkasan teks 11 3 Akurasi ringkasan menggunakan fitur f1-f Waktu peringkasan menggunakan fitur f1-f Akurasi ringkasan menggunakan fitur f1-f Waktu peringkasan menggunakan fitur f1-f11 13 DAFTAR LAMPIRAN 1 Contoh data korpus berformat XML 16 2 Penghitungan fitur teks 17 3 Nilai rata-rata dan varian setiap kelas dan CR 18 4 Hasil pengujian akurasi peringkasan dengan 11 fitur pada CR 30% 19 5 Hasil pengujian waktu peringkasan dengan 11 fitur pada CR 30% 20

11 1 PENDAHULUAN Latar Belakang Pemahaman dokumen teks secara utuh memerlukan waktu yang lama jika dibandingkan dengan dokumen teks yang sudah diringkas. Ringkasan teks idealnya terdiri atas kalimat-kalimat yang diperlukan saja untuk mengurangi waktu pemahaman. Tidak semua kalimat menunjukkan intisari dari dokumen secara utuh. Peringkasan teks merupakan proses mengurangi panjang atau kompleksitas dokumen teks asli tanpa kehilangan pikiran utama dari dokumen teks tersebut. Hasil ringkasan perlu diuji ketepatannya karena setiap kalimat yang masuk dalam ringkasan harus memiliki nilai penting dalam pemahaman dokumen. Hasil ringkasan teks berdasarkan bentuk terdiri dari ekstraksi dan abstraksi. Bentuk ekstraksi meringkas dokumen teks dengan cara memenggal dokumen menjadi beberapa kalimat yang penting dan informatif, sedangkan abstraksi meringkas dokumen teks dengan mengambil intisarinya kemudian menciptakan kalimat-kalimat baru dalam bentuk berbeda (Jezek dan Steinberger 2008). Keuntungan bentuk ekstraksi adalah kemudahan saat proses pembuatan ringkasan, tetapi kekurangannya adalah hasil ringkasan dapat menghasilkan kalimat yang tidak bersesuaian dengan intisari dokumen. Oleh sebab itu penelitian ini menggunakan bentuk ringkasan yang mudah dalam peringkasan yaitu bentuk ekstraksi. Fattah dan Ren (2008) melakukan peringkasan dengan 10 fitur yang dia ajukan untuk menghitung fitur di setiap kalimat dan genetic algorithm (GA) digunakan untuk menentukan kalimat ringkasan. Kemudian penelitian Aristoteles (2011) melakukan hal yang sama dengan Fattah dan Ren (2008) dengan penambahan fitur kalimat semantik. Pemodelan GA membutuhkan waktu yang lama untuk menciptakan nilai kromosom untuk pembobotan fitur. Marlina (2012) melakukan hal yang sama tetapi menggunakan metode regresi logistik biner untuk menghasilkan model pengujian. Hasil penelitian-penelitian sebelumnya membutuhkan waktu komputasi yang lama pada tahap pelatihan karena melibatkan GA untuk pemilihan fitur. Oleh sebab itu, penelitian ini mengajukan pemilihan fitur lain dengan metode decision tree C4.5 dan klasifikasi naive Bayes untuk menghasilkan ringkasan dokumen teks. Tujuan Penelitian Tujuan dari penelitian ini adalah: 1 Menghasilkan ringkasan dari dokumen teks utuh. 2 Mencari beberapa fitur teks yang paling berpengaruh. 3 Mengetahui kinerja peringkasan teks menggunakan metode naive Bayes.

12 2 Ruang Lingkup Batasan atau ruang lingkup dari penelitian ini adalah sebagai berikut: 1 Peringkasan yang dilakukan hanya pada dokumen bahasa Indonesia. 2 Dokumen yang diringkas hanya berjenis teks. Manfaat Penelitian Manfaat dari penelitian ini adalah mengoptimalkan hasil ringkasan teks dan mempersingkat waktu peringkasan. METODE PENELITIAN Penelitian ini menggunakan 3 tahap yaitu tahap pengumpulan dokumen teks, tahap pelatihan dokumen, dan tahap pengujian dokumen. Secara terperinci dapat dilihat pada Gambar 1. Dokumen Latih Dokumen Uji Penghitungan fitur kalimat Pelatihan Pengujian Pelabelan Kelas Ringkasan Ringkasan Manual Penghitungan fitur kalimat Penghitungan Naive Bayes Model Ringkasan Dokumen Gambar 1 Metode penelitian peringkasan teks

13 3 Pengumpulan Dokumen Teks Penelitian ini menggunakan 100 dokumen teks yang digunakan oleh Aristoteles (2011) dan Marlina (2012) yaitu dokumen teks yang berasal dari dokumen berita nasional. Dokumen tersebut berasal dari berita online Kompas yang didapat dari korpus penelitian Ridha et al. (2002). Tahap pelatihan menggunakan 50 dokumen dan tahap pengujian menggunakan 50 dokumen. Seluruh dokumen terdapat ringkasan manualnya masing-masing. Ringkasan manual dilakukan secara individual pada penelitian sebelumnya. Salah satu contoh dokumen teks berformat XML dapat dilihat pada Lampiran 1. Segmentasi Dokumen Segmentasi atau pemenggalan dokumen diperlukan untuk menghasilkan ringkasan. Penelitian ini menggunakan bentuk ringkasan ekstraksi, maka hasil ringkasan merupakan kumpulan beberapa kalimat yang ada pada dokumen teks yang diuji. Sebuah kalimat ditentukan sebagai deretan kata yang diakhiri tanda titik (.). Beberapa tanda titik (.) dianggap bukan akhir dari kalimat yaitu: Ungkapan waktu Contoh: Saya akan pergi pada pukul dengan dia. Nama gelar Contoh: Ir. Soekarno memproklamasikan kemerdekaan Indonesia. Rangkaian angka Contoh: Harga beras bulan ini adalah Rp per Kg. Kalimat langsung Contoh: Jadi, saya katakan masalah radikalisme di Indonesia punya kaitan dengan masalah ekonomi. Maka saya yakin bila masalah ekonomi ini bisa dipulihkan di Indonesia." kata Hamzah Haz. Ekstraksi Fitur Teks Ekstraksi fitur teks dihasilkan dari penghitungan 11 fitur yang digunakan, yaitu posisi kalimat setiap paragraf (f1), positive keyword (f2), negative keyword (f3), kemiripan antarkalimat (f4), kalimat yang menyerupai judul dokumen (f5), kalimat yang mengandung entitas bernama (f6), kalimat yang mengandung data numerik (f7), panjang kalimat (f8), koneksi antar kalimat (f9), penjumlahan bobot koneksi antar kalimat (f10), dan posisi kalimat setiap dokumen (f11). Persamaan 10 fitur kalimat pertama merupakan persamaan yang diajukan Fattah dan Ren (2008). Fitur f11 merupakan tambahan fitur dari penelitian sebelumnya. Ekstraksi fitur dilakukan setelah segmentasi dokumen. Penghitungan fitur dilakukan di setiap kalimat pada seluruh dokumen. Berikut 10 fitur dan 1 fitur tambahan yang digunakan. Posisi Kalimat Setiap Paragraf (f1) Posisi kalimat setiap paragraf adalah letak kalimat dalam sebuah paragraf. Kalimat yang berada pada posisi pertama merupakan kalimat yang paling penting.

14 4 Penghitungan nilai pada kalimat kedua memiliki nilai yang menurun dari kalimat pertama, begitu pun selanjutnya. Variabel x pada Persamaan 1 menandakan posisi kalimat, N adalah banyaknya kalimat yang ada pada sebuah paragraf, dan s adalah kalimat dalam ringkasan dokumen. Jika kalimat pada posisi pertama maka nilai variabel x sama dengan N, jika kalimat kedua variabel x = N-1, begitupun selanjutnya. Nilai f1 (s) = x N (1) Positive Keyword (f2) Kata yang paling banyak muncul pada suatu dokumen adalah pengertian dari positive keyword. Keyword dibentuk dari kata-kata dalam dokumen yang sudah dibuang berdasarkan stoplist. Daftar stoplist dihasilkan dari penelitian sebelumnya. Nilai f2 (s) = 1 length(s) n i=1 tf i *P s S keyword i ) (2) Jika s adalah kalimat dalam ringkasan dokumen, S adalah kalimat dalam dokumen, fitur f2 adalah fitur positive keyword, n adalah jumlah keyword dalam kalimat, tf i adalah banyak keyword yang muncul ke-i yang muncul dalam kalimat. P s S keyword i ) = P keyword i s S) P(s S ) P(keyword i ) P keyword i s S) = (Jumlah kalimat dalam ringkasan yang mengandung keyword i ) (Jumlah kalimat dalam ringkasan) P s S = (Jumlah kalimat dalam korpus pelatihan dan dalam ringkasan) (Jumlah kalimat dalam korpus pelatihan) P(keyword i ) = (Jumlah kalimat dalam korpus pelatihan yang mengadung keyword i ) (Jumlah kalimat dalam korpus pelatihan) (3) (4) (5) (6) P s S keyword i ) adalah penghitungan dari korpus pelatihan (ringkasan manual), tf i, n dan panjang kalimat dihitung menggunakan kalimat s pada tahap pengujian. Persamaan 2 dihitung dengan menggunakan Persamaan 3-6. Negative Keyword (f3) Negative keyword adalah kata yang sedikit muncul pada sebuah dokumen. Jika s adalah kalimat dalam ringkasan dokumen, S adalah kalimat dalam dokumen (lihat Persamaan 7). Fitur f3 adalah fitur teks negative keyword, n adalah jumlah keyword dalam kalimat, dan tf i adalah banyaknya keyword ke-i yang muncul dalam kalimat. Nilai f3 (s) = 1 length(s) n i=1 tf i * P s S keyword i ) (7) Kemiripan Antarkalimat (f4) Kemiripan antarkalimat adalah munculnya kata pada kalimat dan kalimat lain dalam sebuah dokumen. Jumlah keyword yang beririsan dengan kalimat yang

15 lain dibagi dengan jumlah gabungan keyword yang ditemukan, hasilnya adalah merupakan nilai f4 pada kalimat itu sendiri (lihat Persamaan 8). 5 Nilai f4 (s) = Keyword dalam s Keyword dalam antarkalimat Keyword dalam s Keyword dalam antarkalimat (8) Kalimat yang Menyerupai Judul Dokumen (f5) Kalimat yang menyerupai judul dokumen adalah kalimat memiliki kata yang menyerupai judul dokumen. Keyword yang berada ditubuh dokumen beririsan dengan keyword di judul dokumen dibagi dengan jumlah keyword yang ditemukan, hasilnya untuk nilai kalimat itu sendiri (lihat Persamaan 9). Nilai f5 (s) = Keyword dalam s Keyword dalam judul Keyword dalam s Keyword dalam judul (9) Kalimat yang Mengandung Entitas Bernama (f6) Kalimat yang mengandung entitas bernama adalah kalimat yang memiliki sekumpulan kata yang memiliki makna nama sebuah institusi, nama orang, nama pulau, dan nama lainnya. Jumlah entitas bernama dibagi panjang s merupakan nilai f6 (lihat Persamaan 10) dengan panjang s merupakan banyaknya kata dalam sebuah kalimat yang tidak termasuk di dalam stoplist. Entitas bernama diperoleh dari data entitas bernama penelitian sebelumnya yang disimpan di fail terpisah dengan kode program utama. Nilai f6 (s) = Jumlah entitas bernama dalam s Panjang s (10) Kalimat yang Mengandung Data Numerik (f7) Peringkasan teks yang mengandung data numerik dapat dianggap penting karena memiliki informasi yang detail di sisi pemahaman dan mengandung nilai statistik dari informasi dalam dokumen. Jumlah data numerik dalam s dibagi dengan panjang s merupakan nilai f7 (lihat Persamaan 11). Nilai f7 (s) = Jumlah data numerik dalam s Panjang s (11) Panjang Kalimat (f8) Panjang kalimat pada sebuah dokumen dapat diukur dengan membandingkan jumlah kata unik yang tidak termasuk stoplist dibagi dengan total kata unik yang berada sebuah dokumen (lihat Persamaan 12). Nilai f8 (s) = Jumlah kata dalam s Kata unik dalam dokumen (12) Koneksi Antarkalimat (f9) Koneksi antarkalimat adalah banyaknya kalimat yang memiliki kata yang sama dengan kalimat lain pada 1 dokumen (lihat Persamaan 13). Nilai dari fitur ini harus dinormalisasi menjaga nilai tetap di antara 0 atau 1. Nilai f9 (s)= #jumlah koneksi antarkalimat (13)

16 6 Penjumlahan Bobot Koneksi Antarkalimat (f10) Fitur ini adalah menjumlahkan bobot koneksi antarkalimat. Jika s adalah kalimat, f10 adalah fitur teks penjumlahan bobot koneksi antarkalimat (lihat Persamaan 14). Nilai f10 (s) = koneksi antarkalimat (14) Posisi Kalimat Setiap Dokumen (f11) Posisi kalimat setiap dokumen adalah penghitungan posisi kalimat pertama di setiap dokumen merupakan kalimat penting dan terus menurun nilainya hingga kalimat terakhir di setiap dokumen. Variabel x pada Persamaan 15 menandakan posisi kalimat dan NN adalah banyaknya kalimat yang ada pada sebuah dokumen. Jika kalimat pada posisi pertama, nilai variabel x sama dengan NN, jika kalimat kedua variabel x = NN-1, begitupun selanjutnya. Nilai f11 (s) = x NN (15) Klasifikasi Naive Bayes Klasifikasi naive Bayes merupakan klasifikasi statistik yang dapat memprediksi kelas suatu anggota data. Naive Bayes mengasumsikan bahwa seluruh fitur yang dihitung tidak berhubungan dengan fitur lainnya (Manning et al. 2008). Setiap fitur-fitur kalimat dijadikan sebagai parameter penghitungan naive Bayes. Parameter naive Bayes pada penelitian ini memiliki data bersifat kontinu yang terkait terhadap masing-masing kelas yang didistribusikan menggunakan distribusi Gaussian. Klasifikasi kalimat masuk ringkasan atau tidak menggunakan data latih sebagai pengetahuan sebelumnya untuk menentukan kelas dari suatu kalimat (lihat Persamaan 16). Nilai P(C) merupakan jumlah kalimat di setiap kelas dan compression rate (CR) pada dokumen latih. Variabel f 1 -f n merupakan nilai fiturfitur kalimat. Distribusi Gaussian menggunakan informasi rata-rata dan varian untuk mendapatkan nilai kemungkinan setiap kalimat (lihat Persamaan 17). Rata-rata setiap fitur kalimat dilambangkan oleh μ c dan varian setiap fitur kalimat 2 dilambangkan oleh σ c untuk proses penghitungan nilai kemungkinan setiap kalimat. P C f 1,,f n ) = P C P f 1,, f n C (16) P(f 1,, f n ) P x = v C ) = 1 2πσ c 2 e - (v- 2 μ c) 2σ2 c Dalam tahap pertama (pelatihan), dokumen teks dipecah menjadi beberapa kalimat, kemudian kalimat-kalimat tersebut dihitung 11 fitur kalimatnya. Penghitungan 11 fitur ini akan berpengaruh terhadap hasil ringkasan. Nilai ratarata dan varian untuk setiap fitur pada dokumen latih dihitung. Saat pelatihan (17)

17 dengan menggunakan naive bayes menghasilkan model yang digunakan untuk proses pengujian dokumen. Dalam tahap kedua (pengujian), semua kalimat pada setiap dokumen dihitung nilai kemungkinan kelas masuk ringkasannya lalu diurutkan dari yang terbesar kemudian diambil beberapa kalimat teratas sesuai besar CR-nya. Kalimat-kalimat yang diambil tersebut merupakan hasil ringkasan di setiap pengujian. 7 Pemilihan Fitur C4.5 Peringkasan teks mengandung tahapan proses penghitungan fitur-fitur kalimat yang memiliki waktu komputasi di setiap proses penghitungannya. Proses pemilihan beberapa fitur bertujuan mempersingkat waktu sistem untuk menghitung nilai fitur di setiap kalimat. Jika waktu penghitungan fitur bisa ditekan menjadi lebih cepat maka berimplikasi kepada total waktu peringkasan di setiap dokumen. Decision tree C4.5 menghasilkan diagram pohon keputusan yang terdiri dari node dan leaf node (Quinlan 1993), node sebagai fitur teks dan leaf node sebagai kelas klasifikasi. Fitur kalimat yang termasuk ke dalam node-node pada pemilihan fitur C4.5 akan menjadi parameter terpilih untuk proses penghitungan klasifikasi. Fitur kalimat yang tidak termasuk pada node tree tidak berguna untuk dijadikan suatu parameter (Martinez dan Fuentes 2005). Fitur-fitur yang berada pada node C4.5 merupakan fitur-fitur terpilih yang akan menjadi parameter penghitungan naive bayes. Pengujian N-gram Hasil ringkasan dapat diukur ketepatannya dengan metode N-gram. Dice coefficient salah satu metode untuk membandingkan dua hasil, yaitu banyaknya kalimat yang dihasilkan sistem dan banyaknya kalimat yang diringkas secara manual. Dice coefficient dihitung dengan Persamaan 18. Dice = 2 X Y X + Y (18) Variabel X pada Persamaan 18 adalah banyaknya kalimat yang dihasilkan oleh sistem dan Y adalah banyaknya kalimat yang diringkas secara manual. Spesifikasi Perangkat Lunak dan Perangkat Keras Lingkungan perangkat lunak yang digunakan pada penelitian ini adalah Windows 7 32-bit sebagai sistem operasi, Notepad++ sebagai text editor, XAMPP sebagai perangkat server web, dan Weka dan Matlab (R2008b) sebagai alat bantu hitung untuk pelatihan sistem. Perangkat keras yang digunakan pada penelitian ini adalah AMD Phenom II X3 Triple-Core N830, RAM 4GB, dan harddisk dengan kapasitas 320GB.

18 8 HASIL DAN PEMBAHASAN Penghitungan Fitur Kalimat Penghitungan fitur dokumen latih dan uji menghasilkan data statistik fitur setiap kalimat. Contoh hasil penghitungan fitur kalimat dapat dilihat pada Tabel 1. Label R pada Tabel 1 merupakan kelas ringkasan di setiap kalimat. Kolom R diberi nilai 1 menunjukkan bahwa kalimat tersebut masuk dalam ringkasan manual, jika diberi nilai 0 maka kalimat tersebut tidak masuk ke dalam ringkasan manual. Contoh lengkap penghitungan fitur terdapat pada Lampiran 2. Tabel 1 Contoh ekstraksi fitur dan pemberian kelas pada sebuah dokumen Kalimat f1 f2 f3 f4 f5. f9 f10 R Naive Bayes Proses pelatihan naive bayes menghasilkan rata-rata dan varian yang berbeda-beda setiap kelas dan CR. Tabel 2 menunjukkan hasil rata-rata dan varian untuk 11 fitur dan kelas masuk ringkasan dengan CR 10%, secara lengkap dapat dilihat pada Lampiran 3. Persamaan naive bayes untuk pengujian 11 fitur terdapat di Persamaan 19. Variabel X merupakan kelas dari kalimat. Peluang jumlah kalimat berdasarkan CR yang dihitung dari semua dokumen disimbolkan oleh P(C=X). P f 1,, f 11 C = X mencari nilai kemungkinan 11 fitur berdasarkan hasil operasi Gaussian di setiap kelas X yang dihitung. Pembagian dengan seluruh kemungkinan P(f 1,, f 11 ) berfungsi menormalisasi nilai kemungkinan. P C = X f 1,,f 11 ) = P C = X P f 1,, f 11 C = X P(f 1,, f 11 ) (19) Persamaan naive Bayes yang dibentuk setelah pemilihan fitur akan menghasilkan persamaan yang berbeda. Perbedaan terdapat pada fitur-fitur kalimat yang digunakan. Fitur-fitur kalimat yang dihasilkan oleh proses pemilihan fitur merupakan fitur-fitur yang akan digunakan klasifikasi naive Bayes untuk penghitungan nilai kemungkinan kalimat masuk ringkasan.

19 9 Tabel 2 Rata-rata dan varian 11 fitur dengan CR 10% dan kelas masuk ringkasan Fitur Rata-rata Varian f f f f f f f f f f f Pemilihan Fitur Pemilihan fitur decision tree C4.5 menghasilkan beberapa fitur yang menjadi parameter klasifikasi naive bayes. Setiap pemilihan fitur dengan kandidat dan compression rate yang berbeda akan menghasilkan fitur terpilih yang berbeda pula. Tabel 3 merupakan penghitungan C4.5 untuk kandidat f1 sampai dengan f10 menghasilkan fitur terpilih fitur f1, f4, f5, f7, dan f9 untuk CR 10%, fitur f2, f5, f6, f8, dan f10 untuk CR 20%, dan fitur f1, f4, f5,dan f6 untuk CR 30%. Kandidat dari fitur f1 sampai dengan f11 menghasilkan fitur terpilih yang berbeda yaitu f1,f2,dan f11 untuk CR 10%, fitur f1, f2, f5, f8, f9, dan f11 untuk CR 20%, dan fitur f1, f2, f3, f5, f6, f7, f8, f9 dan f11 untuk CR 30%. Pengujian sistem akan menggunakan pemilihan fitur tersebut. Percobaan selanjutnya adalah menggunakan dokumen uji untuk proses pemilihan fitur. Pertukaran data latih dengan data uji pada proses pemilihan fitur bertujuan untuk melihat pola data korpus yang diperoleh. Seluruh dokumen uji dihitung fitur teksnya kemudian dilakukan pelabelan kelas R berdasarkan ringkasan manual dokumen uji. Pembuatan pohon keputusan C4.5 dengan data dokumen uji menghasilkan fitur terpilih pada Tabel 4. Fitur-fitur yang terpilih dipengaruhi oleh statistik data fitur kalimat dan kelas ringkasan manual. Statistik data fitur kalimat dihasilkan dari penghitungan 11 fitur pada tahap sebelum pemilihan fitur. Kemudian kelas ringkasan manual dihasilkan oleh pembuat ringkasan manual dan CR. Pemilihan fitur C4.5 dengan pertukaran data latih dengan data uji menunjukkan hasil yang berbeda. Berdasarkan hasil pada Tabel 4, pola data korpus yang didapat belum menghasilkan pemilihan fitur yang maksimal, maka diperlukan penambahan ratusan data korpus lagi untuk penelitian selanjutnya saat proses pelatihan sistem. Penambahan data korpus bertujuan untuk meminimalkan bias yang terjadi.

20 10 Tabel 3 Fitur kalimat yang terpilih di setiap compression rate Fitur terpilih pada CR Kandidat fitur 10% 20% 30% f1, f2, f3, f4, f5, f6, f7, f8, f9, dan f10 f1, f4, f5, f7, dan f9 f2, f5, f6, f8, dan f10 f1, f4, f5, dan f6 f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, dan f11 f1, f2, dan f11 f1, f2, f5, f8, f9, dan f11 f1, f2, f3, f5, f6, f7, f8, f9, dan f11 Tabel 4 Fitur kalimat terpilih menggunakan data uji Fitur terpilih pada CR Kandidat fitur 10% 20% 30% f1, f2, f3, f4, f5, f6, f7, f8, f9, dan f10 f1, f2, f4, f5, f6 f7, f8, dan f9 f2, f4, f5, f6, f7, f8, dan f9 f2, f4, f5, f7 dan f9 f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, dan f11 f1, f2, f4, f5, f7, f8, f10, dan f11 f1, f2, f4, f5, f6, f7, f8, f9, dan f11 f1, f2, f4, f5, f6, f7, f8, f9, dan f11 Faktor lain yang mempengaruhi hasil pemilihan fitur setelah pertukaran data latih dengan data uji adalah ringkasan manual pada data uji yang tidak konsisten. Dokumen uji memiliki ringkasan manual yang tidak inklusif di setiap CR. Ringkasan manual pada CR 10% belum tentu masuk ke dalam ringkasan CR 20% maupun CR 30%. Ringkasan manual yang tidak konsisten ini mempengaruhi data statistik penghitungan fitur kalimat beserta kelas ringkasannya. Implementasi Program Aplikasi peringkasan dokumen teks bahasa Indonesia ditulis menggunakan bahasa pemograman Perl. Kode program penghitungan fitur kalimat berasal dari penelitian Aristoteles (2011). Penghitungan fitur f1 dan f5 tidak sesuai dengan definisi fitur kalimat yang dijelaskan Fattah dan Ren (2008). Oleh sebab itu, pada penelitian ini dilakukan evaluasi kode dari kode program sebelumnya. Penghitungan kemungkinan kalimat masuk atau tidak masuk ringkasan dengan metode naive Bayes dilakukan setelah penghitungan rata-rata dan varian fitur-fitur kalimat pada dokumen uji. Setiap jenis CR menghasilkan rata-rata dan varian yang berbeda. Peringkasan dimulai dengan membaca dokumen sampai dengan menghasilkan ringkasan dokumen. Gambar 2 menunjukkan diagram alir kode program yang telah diimplementasikan.

21 11 Mulai Pengurutan Terbesar Berdasarkan Nilai Kemungkinan Kelas Masuk Ringkasan Membaca Dokumen Kalimat Ringkasan Segmentasi Dokumen Penghitungan fitur Pengurutan Kalimat Berdasarkan Urutan Kalimat Hasil Ringkasan Penghitungan Naive Bayes Selesai Gambar 2 Diagram alir kode program peringkasan teks Evaluasi Hasil Ringkasan Peringkasan dokumen uji menggunakan fitur f1 sampai dengan f10 sebagai parameter penghitungan naive Bayes menghasilkan nilai akurasi ringkasan 34.63% pada CR 30%, 37.96% pada CR 20%, dan 28.14% pada CR 10%. Waktu peringkasan 50 dokumen yang diuji pada CR 30%, CR 20%, dan CR 10% masing-masing adalah , , dan detik. Kemudian menggunakan fitur terpilih dengan kandidat f1 sampai dengan f10 menghasilkan ringkasan dengan akurasi ringkasan 39.40% pada CR 30%, 24.41% pada CR 20%, dan 28.06% pada CR 10%. Hasil skenario ini tidak menunjukkan pola akurasi ringkasan yang konsisten. Akurasi ringkasan mengalami peningkatan setelah pemilihan fitur pada CR 30% tetapi terjadi penurunan pada CR 20% dan CR 10%. Penghitungan fitur terpilih pada CR 30%, CR 20%, dan CR 10% memerlukan waktu masing masing , , dan detik. Waktu peringkasan tidak berubah secara signifikan setelah pemilihan fitur untuk kandidat f1 sampai dengan f10. Skenario ini mempengaruhi hasil akurasi peringkasan tetapi tidak mempengaruhi waktu peringkasan secara signifikan. Waktu peringkasan menggunakan f1-f10 dengan fitur terpilih tidak berbeda jauh, disebabkan oleh penghitungan beberapa fitur bergantung pada fitur lain seperti f4 dengan f9 dan f10 saling ketergantungan karena beberapa struktur kode program penghitungan f9 dan f10 secara inklusif dilakukan pada fungsi penghitungan f4. Perbandingan akurasi dan waktu peringkasan dapat dilihat pada Gambar 3 dan Gambar 4.

22 12 Akurasi ringaksan (%) Semua fitur Fitur terpilih 0 CR 30 CR 20 CR 10 Compression rate (%) Gambar 3 Akurasi ringkasan menggunakan fitur f1-f Semua fitur Fitur terpilih Waktu peringkasan (detik) CR 30 CR 20 CR 10 Compression rate (%) Gambar 4 Waktu peringkasan menggunakan fitur f1-f10 Pengajuan fitur ke-11 berpengaruh terhadap fitur terpilih yang dihasilkan. Gambar 5 menunjukkan hasil akurasi ringkasan mengalami peningkatan dibandingkan dengan peringkasan yang menggunakan 10 fitur saja. Akurasi ringkasan mengalami peningkatan 14.37% pada CR 10%, 13.42% pada CR 20%, dan 17.84% pada CR 30%. Akurasi ringkasan untuk CR 30% dapat dilihat pada Lampiran 4. Gambar 6 menunjukkan waktu peringkasan yang melibatkan 11 fitur mengalami penambahan waktu peringkasan untuk CR 30%, CR 20%, dan CR 10% masing masing , , dan detik.

23 13 70 Semua fitur Fitur terpilih Akurasi Ringaksan (%) CR 30 CR 20 CR 10 Compression Rate (%) Gambar 5 Akurasi ringkasan menggunakan fitur f1-f Semua fitur Fitur terpilih Waktu Peringkasan (detik) CR 30 CR 20 CR 10 Compression Rate (%) Gambar 6 Waktu peringkasan menggunakan fitur f1-f11 Percobaan selanjutnya melakukan pemilihan fitur dari 11 kandidat fitur. Akurasi ringkasan pada CR 30%, CR 20%, dan CR 10% masing-masing menghasilkan akurasi 51.35%, 51.49%, dan 52.45%. Tidak ada peningkatan yang berarti untuk CR 30% dan CR 20% tetapi, pada CR 10% mengalami peningkatan yang signifikan. CR 10% mengalami peningkatan sebesar 9.95%. Waktu peringkasan mengalami penurunan setelah dilakukan pemilihan fitur. CR 30% mengalami penurunan waktu peringkasan menjadi detik (lihat Lampiran 5), CR 20% membutuhkan detik, dan CR 10% hanya

24 14 membutuhkan detik untuk meringkas 50 dokumen uji. Akurasi ringkasan pada CR 10% dengan fitur terpilih dari 11 fitur kalimat merupakan akurasi tertinggi kedua setelah akurasi ringkasan pada CR 30% tanpa pemilihan 10 fitur. Waktu peringkasan tercepat dimiliki oleh CR 10% setelah pemilihan 11 fitur. Waktu peringkasan pada CR 30% tidak mengalami penurunan setelah pemilihan fitur, karena fitur yang terpilih cukup banyak yaitu berjumlah 9 fitur dari 11 kandidat fitur. Faktor selanjutnya adalah penghitungan pada 11 fitur terpilih, f9 melibatkan fungsi penghitungan f4 pada implementasi program, meskipun f4 tidak termasuk ke dalam fitur terpilih. Skenario percobaan terbaik adalah peringkasan teks menggunakan pemilihan 11 fitur kalimat pada CR 10%. Akurasi ringkasan yang dihasilkan mencapai 52.45% dengan waktu peringkasan hanya detik. Skenario terburuk adalah peringkasan teks menggunakan 10 fitur dengan pemilihan fitur pada CR 20%. Akurasi ringkasan yang dihasilkan 24.41% dengan waktu peringkasan mencapai detik. Penambahan fitur f11 mempengaruhi hasil akurasi peringkasan dan waktu peringkasan di setiap CR-nya. SIMPULAN DAN SARAN Simpulan Penelitian ini berhasil menghasilkan aplikasi peringkasan dokumen teks bahasa Indonesia. Nilai kemungkinan masuk ringkasan yang digunakan untuk memilih kalimat ringkasan dipengaruhi oleh data statistik nilai fitur kalimat dan CR saat proses pelatihan. Klasifikasi naive bayes dapat digunakan untuk menentukan kalimat ringkasan. Pemilihan fitur C4.5 dapat memilih kombinasi fitur kalimat yang menghasilkan akurasi yang baik. Pemilihan fitur C4.5 menghasilkan fitur-fitur terpilih bergantung pada kandidat awal fitur kalimat dan jenis CR-nya. Kombinasi klasifikasi naive bayes, pemilihan fitur C4.5, dan penambahan fitur f11 dapat mengoptimalkan hasil ringkasan dokumen dan waktu peringkasan. Saran Saran untuk penelitian selanjutnya adalah sebagai berikut : 1 Memperbaiki dokumen ringkasan manual supaya tidak bersifat subjektif. 2 Melakukan stemming pada setiap kata di setiap dokumen untuk mencari kesamaan kata berdasarkan kata dasarnya. 3 Menggunakan metode peringkasan lainnya untuk dibandingkan hasilnya dengan klasifikasi naive Bayes.

25 15 DAFTAR PUSTAKA Aristoteles Pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika [tesis]. Bogor (ID): Institut Pertanian Bogor. Fattah MA, Ren F Automatic text summarization. Di dalam: Proceeding of Word Academic of Science, Engineering and Technology; 2008 Apr 25; Roma (IT). hlm Jezek K, Steinberger J Automatic text summarization (the state of the art 2007 and new challenges). Di dalam: Proceeding Znalosti 2008; 2008 Feb 13-15; Bratislave (SK). hlm Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. Cambridge (GB): Cambridge University Press. Marlina M Sistem peringkasan dokumen berita bahasa Indonesia menggunakan metode regresi linear [skripsi]. Bogor (ID): Institut Pertanian Bogor. Martinez J, Fuentes O Using C4.5 as variable selection criterion in classification tasks. Di dalam: Proceeding of the Ninth IASTED International Conference; 2005 Sep 12-14; Benidorm (ES). hlm Quinlan JR C4.5: Programs for Machine Learning. California (US): Morgan Kaufmann. Ridha A, Adisantoso J, Bukhari F Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa Indonesia. Di dalam: Prosiding Seminar Nasional Ilmu Komputer V (SNIKTI V); 2004 Sep 2-3; Bogor (ID). hlm

26 16 Lampiran 1 Contoh data korpus berformat XML <TITLE> Akil Mochtar Persoalkan Kasasi Praperadilan Ginandjar. </TITLE> <TEXT> Jakarta, Kompas - Anggota Komisi II Dewan Perwakilan Rakyat (DPR) M Akil Mochtar mempersoalkan putusan kasasi Mahkamah Agung (MA) yang diberikan kepada Kejaksaan Agung atas penahanan mantan Menteri Pertambangan dan Energi Ginandjar Kartasasmita. Akil menilai MA telah menimbulkan kekacauan dalam penegakan hukum. "Menjadi pertanyaan saya dan menjadi problem hukum ketika yang kalah di tingkat pengadilan itu tersangka, MA harus menerima juga kasasi. Maksud saya, konsistensi kita terhadap hukum acara pidana sudah tidak ada sama sekali. MA ikut memberikan kontribusi dalam kekacauan di bidang penegakan hukum," kata Akil kepada wartawan usai rapat intern Fraksi Partai Golkar dengan Dewan Pimpinan Pusat (DPP) Partai Golkar di DPR, Kamis (28/3) lalu. Akil membantah memberikan pernyataan ini, mengingat yang terkena kasus adalah Ginandjar Kartasasmita yang juga anggota penasihat Partai Golkar. Menurut dia, dalam Kitab Undang-undang Hukum Acara Pidana (KUHAP) sudah jelas bahwa praperadilan tidak bisa dikasasi dalam soal penangkapan/penahanan sah atau tidak, tidak bisa dimintakan upaya hukum karena adalah proses acara cepat. Kalau penahanan itu berkaitan dengan berkas yang sudah dilimpahkan ke pengadilan, maka konsekuensi hukumnya praperadilan gugur. "Tetapi, ini kan tidak. Dia masuk terus ke pengadilan, ke MA, diputuskan. Kebetulan saja kasusnya Ginandjar Kartasasmita. Menurut saya, keputusan itu cacat hukum. Tidak bisa dieksekusi karena melampaui kewenangan hakim. Hakim pidana tidak boleh melampaui kewenangan," kata Ketua Tim Advokasi F-PG DPR itu. Setelah membaca putusan MA itu, menurut Akil, majelis hakim agung ternyata tidak memberi pertimbangan hukum, mengapa melampaui kewenangan itu boleh. "Mestinya majelis hakim agung memberikan pertimbangan hukum, baru ke soal perkaranya. Kalau itu dia berikan, ada pendapat hukum di masyarakat," katanya. LAMPIRAN

27 17 Lampiran 2 Penghitungan fitur teks kalimat f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 f11 R

28 18 Lampiran 3 Nilai rata-rata dan varian setiap kelas dan CR Kelas tidak masuk ringkasan dan CR 10% Fitur Rata-rata Varian f f f f f f f f f f f Kelas masuk ringkasan dan CR 30% Fitur Rata-rata Varian f f f f f f f f f f f Kelas masuk ringkasan dan CR 20% Fitur Rata-rata Varian f f f f f f f f f f f Kelas tidak masuk ringkasan dan CR 30% Fitur Rata-rata Varian f f f f f f f f f f f Kelas tidak masuk ringkasan dan CR 20% Fitur Rata-rata Varian f f f f f f f f f f f

29 Lampiran 4 Hasil pengujian akurasi peringkasan dengan 11 fitur pada CR 30% Dokumen Jumlah Kalimat Sistem Manual S ᴖ M N-gram Hasil n-gram

30 20 Lampiran 5 Hasil pengujian waktu peringkasan dengan 11 fitur pada CR 30% Dokumen Jumlah Rata-rata Waktu 1 Waktu 2 Waktu 3 Kalimat waktu Total waktu peringkasan

31 21 RIWAYAT HIDUP Septiandi Wibowo dilahirkan pada tanggal 19 September 1990 di Sukabumi Jawa barat. Putra pertama dari pasangan Sumedi dan Ani Sri Dharmawati. Penulis mengawali pendidikan dasar di SD Islam Al-Azhar 7 Sukabumi, SMP Negeri 1 Sukabumi, dan SMA Negeri 3 Sukabumi. Penulis meneruskan ke jenjang Diploma III di Institut Pertanian Bogor (IPB) jurusan Teknik Komputer pada tahun 2007, lalu penulis melanjutkan ke Alih Jenis Ilmu Komputer IPB pada tahun 2010.