PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO

Ukuran: px
Mulai penontonan dengan halaman:

Download "PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO"

Transkripsi

1 PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juni 2013 Septiandi Wibowo NIM G

4 ABSTRAK SEPTIANDI WIBOWO. Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes. Dibimbing oleh AHMAD RIDHA. Penelitian ini meringkas dokumen teks bahasa Indonesia dengan metode klasifikasi Naive Bayes (NB). Segmentasi dokumen menjadi beberapa kalimat dan penghitungan fitur kalimat merupakan tahap awal pelatihan sistem untuk menentukan kalimat yang diklasifikasi sebagai ringkasan. Klasifikasi menggunakan 11 fitur (f1-f11). Fitur-fitur kalimat dipilih dengan decision tree C4.5 untuk menentukan fitur-fitur kalimat yang berpengaruh pada hasil ringkasan, mengurangi jumlah fitur, dan mempercepat peringkasan dokumen. Akurasi hasil ringkasan dengan 10 fitur kalimat (f1-f10) adalah 34.63%, 37.96%, dan 28.14% untuk masing-masing Compression Rate (CR) 10%, 20%, dan 30%. Penambahan f11 dan pemilihan fitur C4.5 menghasilkan akurasi 52.45%, 51.49%, dan 51.35% untuk masing-masing CR 10%, 20%, dan 30%. Peringkasan teks menggunakan klasifikasi NB, pemilihan fitur C4.5, dan penambahan fitur f11 menghasilkan akurasi ringkasan yang lebih baik dan waktu peringkasan yang lebih cepat. Kata kunci: C4.5, naive bayes, pemilihan fitur, peringkasan teks ABSTRACT SEPTIANDI WIBOWO. Indonesian Teks Summarization Using C4.5 Feature Selection and Naive Bayes Classification. Supervised by AHMAD RIDHA. This research summarized Indonesian text documents using naive bayes (NB) classification method. Segmentation of the documents into sentences and feature computation are the initial stages of training the system to determine which sentences are classified as summary. The classification used 11 features (f1-f11). The features are selected using C4.5 decision tree to determine the features that affect the summary, reduce the number of features and speed up the summarization. The accuracy of summarization using 10 features (f1-f10) was 34.63%, 37.96%, and 28.14% for compression rate (CR) of 10%, 20%, and 30%, respectively. Adding f11 and C4.5 produced an accuracy of 52.45%, 51.49% and 51.35% for CR 10%, 20%, and 30%, respectively. Text summarization using NB classification, C4.5 feature selection, and additional f11 feature produced better accuracy and faster summarization. Keyword: C4.5, feature selection, naive bayes, text summarization

5 PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

6

7 Judul Skripsi : Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes Nama : Septiandi Wibowo NIM : G Disetujui oleh Ahmad Ridha, SKom MS Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Alhamdulillahi rabbil a lamin karya ilmiah ini telah berhasil diselesaikan oleh penulis. Judul karya ilmiah ini adalah Peringkasan Teks Bahasa Indonesia dengan Pemilihan Fitur C4.5 dan Klasifikasi Naive Bayes. Penulis mengucapkan terima kasih kepada Sumedi dan Ani Sri Dharmawati sebagai orang tua dan keluarga besar yang selalu mendoakan dan memberi dukungan kepada penulis. Shinta Bela Dewanti sebagai teman dekat yang memberi dukungan kepada penulis. Serta tak lupa bapak Ahmad Ridha, SKom MS sebagai pembimbing yang selalu mengarahkan penulis saat penelitian beserta teman seperjuangan alih jenis ilmu komputer yang menjadi pelengkap suksesnya penulis menyelesaikan karya ilmiah ini. Bogor, Juni 2013 Septiandi Wibowo

9 DAFTAR ISI DAFTAR TABEL viii DAFTAR GAMBAR viii DAFTAR LAMPIRAN viii PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 1 Ruang Lingkup 2 Manfaat Penelitian 2 METODE PENELITIAN 2 Pengumpulan Dokumen Teks 3 Segmentasi Dokumen 3 Ekstraksi Fitur Teks 3 Klasifikasi Naive Bayes 6 Pemilihan Fitur C4.5 7 Pengujian N-gram 7 Spesifikasi Perangkat Lunak dan Perangkat Keras 7 HASIL DAN PEMBAHASAN 8 Penghitungan Fitur Kalimat 8 Naive Bayes 8 Pemilihan Fitur 9 Implementasi Program 10 Evaluasi Hasil Ringkasan 11 SIMPULAN DAN SARAN 14 Simpulan 14 Saran 14 DAFTAR PUSTAKA 15 LAMPIRAN 16

10 DAFTAR TABEL 1 Contoh ekstraksi fitur dan pemberian kelas pada sebuah dokumen 8 2 Rata-rata dan varian 11 fitur dengan CR 10% dan kelas masuk ringkasan 9 3 Fitur kalimat yang terpilih di setiap compression rate 10 4 Fitur kalimat terpilih menggunakan data uji 10 DAFTAR GAMBAR 1 Metode penelitian peringkasan teks 2 2 Diagram alir kode program peringkasan teks 11 3 Akurasi ringkasan menggunakan fitur f1-f Waktu peringkasan menggunakan fitur f1-f Akurasi ringkasan menggunakan fitur f1-f Waktu peringkasan menggunakan fitur f1-f11 13 DAFTAR LAMPIRAN 1 Contoh data korpus berformat XML 16 2 Penghitungan fitur teks 17 3 Nilai rata-rata dan varian setiap kelas dan CR 18 4 Hasil pengujian akurasi peringkasan dengan 11 fitur pada CR 30% 19 5 Hasil pengujian waktu peringkasan dengan 11 fitur pada CR 30% 20

11 1 PENDAHULUAN Latar Belakang Pemahaman dokumen teks secara utuh memerlukan waktu yang lama jika dibandingkan dengan dokumen teks yang sudah diringkas. Ringkasan teks idealnya terdiri atas kalimat-kalimat yang diperlukan saja untuk mengurangi waktu pemahaman. Tidak semua kalimat menunjukkan intisari dari dokumen secara utuh. Peringkasan teks merupakan proses mengurangi panjang atau kompleksitas dokumen teks asli tanpa kehilangan pikiran utama dari dokumen teks tersebut. Hasil ringkasan perlu diuji ketepatannya karena setiap kalimat yang masuk dalam ringkasan harus memiliki nilai penting dalam pemahaman dokumen. Hasil ringkasan teks berdasarkan bentuk terdiri dari ekstraksi dan abstraksi. Bentuk ekstraksi meringkas dokumen teks dengan cara memenggal dokumen menjadi beberapa kalimat yang penting dan informatif, sedangkan abstraksi meringkas dokumen teks dengan mengambil intisarinya kemudian menciptakan kalimat-kalimat baru dalam bentuk berbeda (Jezek dan Steinberger 2008). Keuntungan bentuk ekstraksi adalah kemudahan saat proses pembuatan ringkasan, tetapi kekurangannya adalah hasil ringkasan dapat menghasilkan kalimat yang tidak bersesuaian dengan intisari dokumen. Oleh sebab itu penelitian ini menggunakan bentuk ringkasan yang mudah dalam peringkasan yaitu bentuk ekstraksi. Fattah dan Ren (2008) melakukan peringkasan dengan 10 fitur yang dia ajukan untuk menghitung fitur di setiap kalimat dan genetic algorithm (GA) digunakan untuk menentukan kalimat ringkasan. Kemudian penelitian Aristoteles (2011) melakukan hal yang sama dengan Fattah dan Ren (2008) dengan penambahan fitur kalimat semantik. Pemodelan GA membutuhkan waktu yang lama untuk menciptakan nilai kromosom untuk pembobotan fitur. Marlina (2012) melakukan hal yang sama tetapi menggunakan metode regresi logistik biner untuk menghasilkan model pengujian. Hasil penelitian-penelitian sebelumnya membutuhkan waktu komputasi yang lama pada tahap pelatihan karena melibatkan GA untuk pemilihan fitur. Oleh sebab itu, penelitian ini mengajukan pemilihan fitur lain dengan metode decision tree C4.5 dan klasifikasi naive Bayes untuk menghasilkan ringkasan dokumen teks. Tujuan Penelitian Tujuan dari penelitian ini adalah: 1 Menghasilkan ringkasan dari dokumen teks utuh. 2 Mencari beberapa fitur teks yang paling berpengaruh. 3 Mengetahui kinerja peringkasan teks menggunakan metode naive Bayes.

12 2 Ruang Lingkup Batasan atau ruang lingkup dari penelitian ini adalah sebagai berikut: 1 Peringkasan yang dilakukan hanya pada dokumen bahasa Indonesia. 2 Dokumen yang diringkas hanya berjenis teks. Manfaat Penelitian Manfaat dari penelitian ini adalah mengoptimalkan hasil ringkasan teks dan mempersingkat waktu peringkasan. METODE PENELITIAN Penelitian ini menggunakan 3 tahap yaitu tahap pengumpulan dokumen teks, tahap pelatihan dokumen, dan tahap pengujian dokumen. Secara terperinci dapat dilihat pada Gambar 1. Dokumen Latih Dokumen Uji Penghitungan fitur kalimat Pelatihan Pengujian Pelabelan Kelas Ringkasan Ringkasan Manual Penghitungan fitur kalimat Penghitungan Naive Bayes Model Ringkasan Dokumen Gambar 1 Metode penelitian peringkasan teks

13 3 Pengumpulan Dokumen Teks Penelitian ini menggunakan 100 dokumen teks yang digunakan oleh Aristoteles (2011) dan Marlina (2012) yaitu dokumen teks yang berasal dari dokumen berita nasional. Dokumen tersebut berasal dari berita online Kompas yang didapat dari korpus penelitian Ridha et al. (2002). Tahap pelatihan menggunakan 50 dokumen dan tahap pengujian menggunakan 50 dokumen. Seluruh dokumen terdapat ringkasan manualnya masing-masing. Ringkasan manual dilakukan secara individual pada penelitian sebelumnya. Salah satu contoh dokumen teks berformat XML dapat dilihat pada Lampiran 1. Segmentasi Dokumen Segmentasi atau pemenggalan dokumen diperlukan untuk menghasilkan ringkasan. Penelitian ini menggunakan bentuk ringkasan ekstraksi, maka hasil ringkasan merupakan kumpulan beberapa kalimat yang ada pada dokumen teks yang diuji. Sebuah kalimat ditentukan sebagai deretan kata yang diakhiri tanda titik (.). Beberapa tanda titik (.) dianggap bukan akhir dari kalimat yaitu: Ungkapan waktu Contoh: Saya akan pergi pada pukul dengan dia. Nama gelar Contoh: Ir. Soekarno memproklamasikan kemerdekaan Indonesia. Rangkaian angka Contoh: Harga beras bulan ini adalah Rp per Kg. Kalimat langsung Contoh: Jadi, saya katakan masalah radikalisme di Indonesia punya kaitan dengan masalah ekonomi. Maka saya yakin bila masalah ekonomi ini bisa dipulihkan di Indonesia." kata Hamzah Haz. Ekstraksi Fitur Teks Ekstraksi fitur teks dihasilkan dari penghitungan 11 fitur yang digunakan, yaitu posisi kalimat setiap paragraf (f1), positive keyword (f2), negative keyword (f3), kemiripan antarkalimat (f4), kalimat yang menyerupai judul dokumen (f5), kalimat yang mengandung entitas bernama (f6), kalimat yang mengandung data numerik (f7), panjang kalimat (f8), koneksi antar kalimat (f9), penjumlahan bobot koneksi antar kalimat (f10), dan posisi kalimat setiap dokumen (f11). Persamaan 10 fitur kalimat pertama merupakan persamaan yang diajukan Fattah dan Ren (2008). Fitur f11 merupakan tambahan fitur dari penelitian sebelumnya. Ekstraksi fitur dilakukan setelah segmentasi dokumen. Penghitungan fitur dilakukan di setiap kalimat pada seluruh dokumen. Berikut 10 fitur dan 1 fitur tambahan yang digunakan. Posisi Kalimat Setiap Paragraf (f1) Posisi kalimat setiap paragraf adalah letak kalimat dalam sebuah paragraf. Kalimat yang berada pada posisi pertama merupakan kalimat yang paling penting.

14 4 Penghitungan nilai pada kalimat kedua memiliki nilai yang menurun dari kalimat pertama, begitu pun selanjutnya. Variabel x pada Persamaan 1 menandakan posisi kalimat, N adalah banyaknya kalimat yang ada pada sebuah paragraf, dan s adalah kalimat dalam ringkasan dokumen. Jika kalimat pada posisi pertama maka nilai variabel x sama dengan N, jika kalimat kedua variabel x = N-1, begitupun selanjutnya. Nilai f1 (s) = x N (1) Positive Keyword (f2) Kata yang paling banyak muncul pada suatu dokumen adalah pengertian dari positive keyword. Keyword dibentuk dari kata-kata dalam dokumen yang sudah dibuang berdasarkan stoplist. Daftar stoplist dihasilkan dari penelitian sebelumnya. Nilai f2 (s) = 1 length(s) n i=1 tf i *P s S keyword i ) (2) Jika s adalah kalimat dalam ringkasan dokumen, S adalah kalimat dalam dokumen, fitur f2 adalah fitur positive keyword, n adalah jumlah keyword dalam kalimat, tf i adalah banyak keyword yang muncul ke-i yang muncul dalam kalimat. P s S keyword i ) = P keyword i s S) P(s S ) P(keyword i ) P keyword i s S) = (Jumlah kalimat dalam ringkasan yang mengandung keyword i ) (Jumlah kalimat dalam ringkasan) P s S = (Jumlah kalimat dalam korpus pelatihan dan dalam ringkasan) (Jumlah kalimat dalam korpus pelatihan) P(keyword i ) = (Jumlah kalimat dalam korpus pelatihan yang mengadung keyword i ) (Jumlah kalimat dalam korpus pelatihan) (3) (4) (5) (6) P s S keyword i ) adalah penghitungan dari korpus pelatihan (ringkasan manual), tf i, n dan panjang kalimat dihitung menggunakan kalimat s pada tahap pengujian. Persamaan 2 dihitung dengan menggunakan Persamaan 3-6. Negative Keyword (f3) Negative keyword adalah kata yang sedikit muncul pada sebuah dokumen. Jika s adalah kalimat dalam ringkasan dokumen, S adalah kalimat dalam dokumen (lihat Persamaan 7). Fitur f3 adalah fitur teks negative keyword, n adalah jumlah keyword dalam kalimat, dan tf i adalah banyaknya keyword ke-i yang muncul dalam kalimat. Nilai f3 (s) = 1 length(s) n i=1 tf i * P s S keyword i ) (7) Kemiripan Antarkalimat (f4) Kemiripan antarkalimat adalah munculnya kata pada kalimat dan kalimat lain dalam sebuah dokumen. Jumlah keyword yang beririsan dengan kalimat yang

15 lain dibagi dengan jumlah gabungan keyword yang ditemukan, hasilnya adalah merupakan nilai f4 pada kalimat itu sendiri (lihat Persamaan 8). 5 Nilai f4 (s) = Keyword dalam s Keyword dalam antarkalimat Keyword dalam s Keyword dalam antarkalimat (8) Kalimat yang Menyerupai Judul Dokumen (f5) Kalimat yang menyerupai judul dokumen adalah kalimat memiliki kata yang menyerupai judul dokumen. Keyword yang berada ditubuh dokumen beririsan dengan keyword di judul dokumen dibagi dengan jumlah keyword yang ditemukan, hasilnya untuk nilai kalimat itu sendiri (lihat Persamaan 9). Nilai f5 (s) = Keyword dalam s Keyword dalam judul Keyword dalam s Keyword dalam judul (9) Kalimat yang Mengandung Entitas Bernama (f6) Kalimat yang mengandung entitas bernama adalah kalimat yang memiliki sekumpulan kata yang memiliki makna nama sebuah institusi, nama orang, nama pulau, dan nama lainnya. Jumlah entitas bernama dibagi panjang s merupakan nilai f6 (lihat Persamaan 10) dengan panjang s merupakan banyaknya kata dalam sebuah kalimat yang tidak termasuk di dalam stoplist. Entitas bernama diperoleh dari data entitas bernama penelitian sebelumnya yang disimpan di fail terpisah dengan kode program utama. Nilai f6 (s) = Jumlah entitas bernama dalam s Panjang s (10) Kalimat yang Mengandung Data Numerik (f7) Peringkasan teks yang mengandung data numerik dapat dianggap penting karena memiliki informasi yang detail di sisi pemahaman dan mengandung nilai statistik dari informasi dalam dokumen. Jumlah data numerik dalam s dibagi dengan panjang s merupakan nilai f7 (lihat Persamaan 11). Nilai f7 (s) = Jumlah data numerik dalam s Panjang s (11) Panjang Kalimat (f8) Panjang kalimat pada sebuah dokumen dapat diukur dengan membandingkan jumlah kata unik yang tidak termasuk stoplist dibagi dengan total kata unik yang berada sebuah dokumen (lihat Persamaan 12). Nilai f8 (s) = Jumlah kata dalam s Kata unik dalam dokumen (12) Koneksi Antarkalimat (f9) Koneksi antarkalimat adalah banyaknya kalimat yang memiliki kata yang sama dengan kalimat lain pada 1 dokumen (lihat Persamaan 13). Nilai dari fitur ini harus dinormalisasi menjaga nilai tetap di antara 0 atau 1. Nilai f9 (s)= #jumlah koneksi antarkalimat (13)

16 6 Penjumlahan Bobot Koneksi Antarkalimat (f10) Fitur ini adalah menjumlahkan bobot koneksi antarkalimat. Jika s adalah kalimat, f10 adalah fitur teks penjumlahan bobot koneksi antarkalimat (lihat Persamaan 14). Nilai f10 (s) = koneksi antarkalimat (14) Posisi Kalimat Setiap Dokumen (f11) Posisi kalimat setiap dokumen adalah penghitungan posisi kalimat pertama di setiap dokumen merupakan kalimat penting dan terus menurun nilainya hingga kalimat terakhir di setiap dokumen. Variabel x pada Persamaan 15 menandakan posisi kalimat dan NN adalah banyaknya kalimat yang ada pada sebuah dokumen. Jika kalimat pada posisi pertama, nilai variabel x sama dengan NN, jika kalimat kedua variabel x = NN-1, begitupun selanjutnya. Nilai f11 (s) = x NN (15) Klasifikasi Naive Bayes Klasifikasi naive Bayes merupakan klasifikasi statistik yang dapat memprediksi kelas suatu anggota data. Naive Bayes mengasumsikan bahwa seluruh fitur yang dihitung tidak berhubungan dengan fitur lainnya (Manning et al. 2008). Setiap fitur-fitur kalimat dijadikan sebagai parameter penghitungan naive Bayes. Parameter naive Bayes pada penelitian ini memiliki data bersifat kontinu yang terkait terhadap masing-masing kelas yang didistribusikan menggunakan distribusi Gaussian. Klasifikasi kalimat masuk ringkasan atau tidak menggunakan data latih sebagai pengetahuan sebelumnya untuk menentukan kelas dari suatu kalimat (lihat Persamaan 16). Nilai P(C) merupakan jumlah kalimat di setiap kelas dan compression rate (CR) pada dokumen latih. Variabel f 1 -f n merupakan nilai fiturfitur kalimat. Distribusi Gaussian menggunakan informasi rata-rata dan varian untuk mendapatkan nilai kemungkinan setiap kalimat (lihat Persamaan 17). Rata-rata setiap fitur kalimat dilambangkan oleh μ c dan varian setiap fitur kalimat 2 dilambangkan oleh σ c untuk proses penghitungan nilai kemungkinan setiap kalimat. P C f 1,,f n ) = P C P f 1,, f n C (16) P(f 1,, f n ) P x = v C ) = 1 2πσ c 2 e - (v- 2 μ c) 2σ2 c Dalam tahap pertama (pelatihan), dokumen teks dipecah menjadi beberapa kalimat, kemudian kalimat-kalimat tersebut dihitung 11 fitur kalimatnya. Penghitungan 11 fitur ini akan berpengaruh terhadap hasil ringkasan. Nilai ratarata dan varian untuk setiap fitur pada dokumen latih dihitung. Saat pelatihan (17)

17 dengan menggunakan naive bayes menghasilkan model yang digunakan untuk proses pengujian dokumen. Dalam tahap kedua (pengujian), semua kalimat pada setiap dokumen dihitung nilai kemungkinan kelas masuk ringkasannya lalu diurutkan dari yang terbesar kemudian diambil beberapa kalimat teratas sesuai besar CR-nya. Kalimat-kalimat yang diambil tersebut merupakan hasil ringkasan di setiap pengujian. 7 Pemilihan Fitur C4.5 Peringkasan teks mengandung tahapan proses penghitungan fitur-fitur kalimat yang memiliki waktu komputasi di setiap proses penghitungannya. Proses pemilihan beberapa fitur bertujuan mempersingkat waktu sistem untuk menghitung nilai fitur di setiap kalimat. Jika waktu penghitungan fitur bisa ditekan menjadi lebih cepat maka berimplikasi kepada total waktu peringkasan di setiap dokumen. Decision tree C4.5 menghasilkan diagram pohon keputusan yang terdiri dari node dan leaf node (Quinlan 1993), node sebagai fitur teks dan leaf node sebagai kelas klasifikasi. Fitur kalimat yang termasuk ke dalam node-node pada pemilihan fitur C4.5 akan menjadi parameter terpilih untuk proses penghitungan klasifikasi. Fitur kalimat yang tidak termasuk pada node tree tidak berguna untuk dijadikan suatu parameter (Martinez dan Fuentes 2005). Fitur-fitur yang berada pada node C4.5 merupakan fitur-fitur terpilih yang akan menjadi parameter penghitungan naive bayes. Pengujian N-gram Hasil ringkasan dapat diukur ketepatannya dengan metode N-gram. Dice coefficient salah satu metode untuk membandingkan dua hasil, yaitu banyaknya kalimat yang dihasilkan sistem dan banyaknya kalimat yang diringkas secara manual. Dice coefficient dihitung dengan Persamaan 18. Dice = 2 X Y X + Y (18) Variabel X pada Persamaan 18 adalah banyaknya kalimat yang dihasilkan oleh sistem dan Y adalah banyaknya kalimat yang diringkas secara manual. Spesifikasi Perangkat Lunak dan Perangkat Keras Lingkungan perangkat lunak yang digunakan pada penelitian ini adalah Windows 7 32-bit sebagai sistem operasi, Notepad++ sebagai text editor, XAMPP sebagai perangkat server web, dan Weka dan Matlab (R2008b) sebagai alat bantu hitung untuk pelatihan sistem. Perangkat keras yang digunakan pada penelitian ini adalah AMD Phenom II X3 Triple-Core N830, RAM 4GB, dan harddisk dengan kapasitas 320GB.

18 8 HASIL DAN PEMBAHASAN Penghitungan Fitur Kalimat Penghitungan fitur dokumen latih dan uji menghasilkan data statistik fitur setiap kalimat. Contoh hasil penghitungan fitur kalimat dapat dilihat pada Tabel 1. Label R pada Tabel 1 merupakan kelas ringkasan di setiap kalimat. Kolom R diberi nilai 1 menunjukkan bahwa kalimat tersebut masuk dalam ringkasan manual, jika diberi nilai 0 maka kalimat tersebut tidak masuk ke dalam ringkasan manual. Contoh lengkap penghitungan fitur terdapat pada Lampiran 2. Tabel 1 Contoh ekstraksi fitur dan pemberian kelas pada sebuah dokumen Kalimat f1 f2 f3 f4 f5. f9 f10 R Naive Bayes Proses pelatihan naive bayes menghasilkan rata-rata dan varian yang berbeda-beda setiap kelas dan CR. Tabel 2 menunjukkan hasil rata-rata dan varian untuk 11 fitur dan kelas masuk ringkasan dengan CR 10%, secara lengkap dapat dilihat pada Lampiran 3. Persamaan naive bayes untuk pengujian 11 fitur terdapat di Persamaan 19. Variabel X merupakan kelas dari kalimat. Peluang jumlah kalimat berdasarkan CR yang dihitung dari semua dokumen disimbolkan oleh P(C=X). P f 1,, f 11 C = X mencari nilai kemungkinan 11 fitur berdasarkan hasil operasi Gaussian di setiap kelas X yang dihitung. Pembagian dengan seluruh kemungkinan P(f 1,, f 11 ) berfungsi menormalisasi nilai kemungkinan. P C = X f 1,,f 11 ) = P C = X P f 1,, f 11 C = X P(f 1,, f 11 ) (19) Persamaan naive Bayes yang dibentuk setelah pemilihan fitur akan menghasilkan persamaan yang berbeda. Perbedaan terdapat pada fitur-fitur kalimat yang digunakan. Fitur-fitur kalimat yang dihasilkan oleh proses pemilihan fitur merupakan fitur-fitur yang akan digunakan klasifikasi naive Bayes untuk penghitungan nilai kemungkinan kalimat masuk ringkasan.

19 9 Tabel 2 Rata-rata dan varian 11 fitur dengan CR 10% dan kelas masuk ringkasan Fitur Rata-rata Varian f f f f f f f f f f f Pemilihan Fitur Pemilihan fitur decision tree C4.5 menghasilkan beberapa fitur yang menjadi parameter klasifikasi naive bayes. Setiap pemilihan fitur dengan kandidat dan compression rate yang berbeda akan menghasilkan fitur terpilih yang berbeda pula. Tabel 3 merupakan penghitungan C4.5 untuk kandidat f1 sampai dengan f10 menghasilkan fitur terpilih fitur f1, f4, f5, f7, dan f9 untuk CR 10%, fitur f2, f5, f6, f8, dan f10 untuk CR 20%, dan fitur f1, f4, f5,dan f6 untuk CR 30%. Kandidat dari fitur f1 sampai dengan f11 menghasilkan fitur terpilih yang berbeda yaitu f1,f2,dan f11 untuk CR 10%, fitur f1, f2, f5, f8, f9, dan f11 untuk CR 20%, dan fitur f1, f2, f3, f5, f6, f7, f8, f9 dan f11 untuk CR 30%. Pengujian sistem akan menggunakan pemilihan fitur tersebut. Percobaan selanjutnya adalah menggunakan dokumen uji untuk proses pemilihan fitur. Pertukaran data latih dengan data uji pada proses pemilihan fitur bertujuan untuk melihat pola data korpus yang diperoleh. Seluruh dokumen uji dihitung fitur teksnya kemudian dilakukan pelabelan kelas R berdasarkan ringkasan manual dokumen uji. Pembuatan pohon keputusan C4.5 dengan data dokumen uji menghasilkan fitur terpilih pada Tabel 4. Fitur-fitur yang terpilih dipengaruhi oleh statistik data fitur kalimat dan kelas ringkasan manual. Statistik data fitur kalimat dihasilkan dari penghitungan 11 fitur pada tahap sebelum pemilihan fitur. Kemudian kelas ringkasan manual dihasilkan oleh pembuat ringkasan manual dan CR. Pemilihan fitur C4.5 dengan pertukaran data latih dengan data uji menunjukkan hasil yang berbeda. Berdasarkan hasil pada Tabel 4, pola data korpus yang didapat belum menghasilkan pemilihan fitur yang maksimal, maka diperlukan penambahan ratusan data korpus lagi untuk penelitian selanjutnya saat proses pelatihan sistem. Penambahan data korpus bertujuan untuk meminimalkan bias yang terjadi.

20 10 Tabel 3 Fitur kalimat yang terpilih di setiap compression rate Fitur terpilih pada CR Kandidat fitur 10% 20% 30% f1, f2, f3, f4, f5, f6, f7, f8, f9, dan f10 f1, f4, f5, f7, dan f9 f2, f5, f6, f8, dan f10 f1, f4, f5, dan f6 f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, dan f11 f1, f2, dan f11 f1, f2, f5, f8, f9, dan f11 f1, f2, f3, f5, f6, f7, f8, f9, dan f11 Tabel 4 Fitur kalimat terpilih menggunakan data uji Fitur terpilih pada CR Kandidat fitur 10% 20% 30% f1, f2, f3, f4, f5, f6, f7, f8, f9, dan f10 f1, f2, f4, f5, f6 f7, f8, dan f9 f2, f4, f5, f6, f7, f8, dan f9 f2, f4, f5, f7 dan f9 f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, dan f11 f1, f2, f4, f5, f7, f8, f10, dan f11 f1, f2, f4, f5, f6, f7, f8, f9, dan f11 f1, f2, f4, f5, f6, f7, f8, f9, dan f11 Faktor lain yang mempengaruhi hasil pemilihan fitur setelah pertukaran data latih dengan data uji adalah ringkasan manual pada data uji yang tidak konsisten. Dokumen uji memiliki ringkasan manual yang tidak inklusif di setiap CR. Ringkasan manual pada CR 10% belum tentu masuk ke dalam ringkasan CR 20% maupun CR 30%. Ringkasan manual yang tidak konsisten ini mempengaruhi data statistik penghitungan fitur kalimat beserta kelas ringkasannya. Implementasi Program Aplikasi peringkasan dokumen teks bahasa Indonesia ditulis menggunakan bahasa pemograman Perl. Kode program penghitungan fitur kalimat berasal dari penelitian Aristoteles (2011). Penghitungan fitur f1 dan f5 tidak sesuai dengan definisi fitur kalimat yang dijelaskan Fattah dan Ren (2008). Oleh sebab itu, pada penelitian ini dilakukan evaluasi kode dari kode program sebelumnya. Penghitungan kemungkinan kalimat masuk atau tidak masuk ringkasan dengan metode naive Bayes dilakukan setelah penghitungan rata-rata dan varian fitur-fitur kalimat pada dokumen uji. Setiap jenis CR menghasilkan rata-rata dan varian yang berbeda. Peringkasan dimulai dengan membaca dokumen sampai dengan menghasilkan ringkasan dokumen. Gambar 2 menunjukkan diagram alir kode program yang telah diimplementasikan.

21 11 Mulai Pengurutan Terbesar Berdasarkan Nilai Kemungkinan Kelas Masuk Ringkasan Membaca Dokumen Kalimat Ringkasan Segmentasi Dokumen Penghitungan fitur Pengurutan Kalimat Berdasarkan Urutan Kalimat Hasil Ringkasan Penghitungan Naive Bayes Selesai Gambar 2 Diagram alir kode program peringkasan teks Evaluasi Hasil Ringkasan Peringkasan dokumen uji menggunakan fitur f1 sampai dengan f10 sebagai parameter penghitungan naive Bayes menghasilkan nilai akurasi ringkasan 34.63% pada CR 30%, 37.96% pada CR 20%, dan 28.14% pada CR 10%. Waktu peringkasan 50 dokumen yang diuji pada CR 30%, CR 20%, dan CR 10% masing-masing adalah , , dan detik. Kemudian menggunakan fitur terpilih dengan kandidat f1 sampai dengan f10 menghasilkan ringkasan dengan akurasi ringkasan 39.40% pada CR 30%, 24.41% pada CR 20%, dan 28.06% pada CR 10%. Hasil skenario ini tidak menunjukkan pola akurasi ringkasan yang konsisten. Akurasi ringkasan mengalami peningkatan setelah pemilihan fitur pada CR 30% tetapi terjadi penurunan pada CR 20% dan CR 10%. Penghitungan fitur terpilih pada CR 30%, CR 20%, dan CR 10% memerlukan waktu masing masing , , dan detik. Waktu peringkasan tidak berubah secara signifikan setelah pemilihan fitur untuk kandidat f1 sampai dengan f10. Skenario ini mempengaruhi hasil akurasi peringkasan tetapi tidak mempengaruhi waktu peringkasan secara signifikan. Waktu peringkasan menggunakan f1-f10 dengan fitur terpilih tidak berbeda jauh, disebabkan oleh penghitungan beberapa fitur bergantung pada fitur lain seperti f4 dengan f9 dan f10 saling ketergantungan karena beberapa struktur kode program penghitungan f9 dan f10 secara inklusif dilakukan pada fungsi penghitungan f4. Perbandingan akurasi dan waktu peringkasan dapat dilihat pada Gambar 3 dan Gambar 4.

22 12 Akurasi ringaksan (%) Semua fitur Fitur terpilih 0 CR 30 CR 20 CR 10 Compression rate (%) Gambar 3 Akurasi ringkasan menggunakan fitur f1-f Semua fitur Fitur terpilih Waktu peringkasan (detik) CR 30 CR 20 CR 10 Compression rate (%) Gambar 4 Waktu peringkasan menggunakan fitur f1-f10 Pengajuan fitur ke-11 berpengaruh terhadap fitur terpilih yang dihasilkan. Gambar 5 menunjukkan hasil akurasi ringkasan mengalami peningkatan dibandingkan dengan peringkasan yang menggunakan 10 fitur saja. Akurasi ringkasan mengalami peningkatan 14.37% pada CR 10%, 13.42% pada CR 20%, dan 17.84% pada CR 30%. Akurasi ringkasan untuk CR 30% dapat dilihat pada Lampiran 4. Gambar 6 menunjukkan waktu peringkasan yang melibatkan 11 fitur mengalami penambahan waktu peringkasan untuk CR 30%, CR 20%, dan CR 10% masing masing , , dan detik.

23 13 70 Semua fitur Fitur terpilih Akurasi Ringaksan (%) CR 30 CR 20 CR 10 Compression Rate (%) Gambar 5 Akurasi ringkasan menggunakan fitur f1-f Semua fitur Fitur terpilih Waktu Peringkasan (detik) CR 30 CR 20 CR 10 Compression Rate (%) Gambar 6 Waktu peringkasan menggunakan fitur f1-f11 Percobaan selanjutnya melakukan pemilihan fitur dari 11 kandidat fitur. Akurasi ringkasan pada CR 30%, CR 20%, dan CR 10% masing-masing menghasilkan akurasi 51.35%, 51.49%, dan 52.45%. Tidak ada peningkatan yang berarti untuk CR 30% dan CR 20% tetapi, pada CR 10% mengalami peningkatan yang signifikan. CR 10% mengalami peningkatan sebesar 9.95%. Waktu peringkasan mengalami penurunan setelah dilakukan pemilihan fitur. CR 30% mengalami penurunan waktu peringkasan menjadi detik (lihat Lampiran 5), CR 20% membutuhkan detik, dan CR 10% hanya

24 14 membutuhkan detik untuk meringkas 50 dokumen uji. Akurasi ringkasan pada CR 10% dengan fitur terpilih dari 11 fitur kalimat merupakan akurasi tertinggi kedua setelah akurasi ringkasan pada CR 30% tanpa pemilihan 10 fitur. Waktu peringkasan tercepat dimiliki oleh CR 10% setelah pemilihan 11 fitur. Waktu peringkasan pada CR 30% tidak mengalami penurunan setelah pemilihan fitur, karena fitur yang terpilih cukup banyak yaitu berjumlah 9 fitur dari 11 kandidat fitur. Faktor selanjutnya adalah penghitungan pada 11 fitur terpilih, f9 melibatkan fungsi penghitungan f4 pada implementasi program, meskipun f4 tidak termasuk ke dalam fitur terpilih. Skenario percobaan terbaik adalah peringkasan teks menggunakan pemilihan 11 fitur kalimat pada CR 10%. Akurasi ringkasan yang dihasilkan mencapai 52.45% dengan waktu peringkasan hanya detik. Skenario terburuk adalah peringkasan teks menggunakan 10 fitur dengan pemilihan fitur pada CR 20%. Akurasi ringkasan yang dihasilkan 24.41% dengan waktu peringkasan mencapai detik. Penambahan fitur f11 mempengaruhi hasil akurasi peringkasan dan waktu peringkasan di setiap CR-nya. SIMPULAN DAN SARAN Simpulan Penelitian ini berhasil menghasilkan aplikasi peringkasan dokumen teks bahasa Indonesia. Nilai kemungkinan masuk ringkasan yang digunakan untuk memilih kalimat ringkasan dipengaruhi oleh data statistik nilai fitur kalimat dan CR saat proses pelatihan. Klasifikasi naive bayes dapat digunakan untuk menentukan kalimat ringkasan. Pemilihan fitur C4.5 dapat memilih kombinasi fitur kalimat yang menghasilkan akurasi yang baik. Pemilihan fitur C4.5 menghasilkan fitur-fitur terpilih bergantung pada kandidat awal fitur kalimat dan jenis CR-nya. Kombinasi klasifikasi naive bayes, pemilihan fitur C4.5, dan penambahan fitur f11 dapat mengoptimalkan hasil ringkasan dokumen dan waktu peringkasan. Saran Saran untuk penelitian selanjutnya adalah sebagai berikut : 1 Memperbaiki dokumen ringkasan manual supaya tidak bersifat subjektif. 2 Melakukan stemming pada setiap kata di setiap dokumen untuk mencari kesamaan kata berdasarkan kata dasarnya. 3 Menggunakan metode peringkasan lainnya untuk dibandingkan hasilnya dengan klasifikasi naive Bayes.

25 15 DAFTAR PUSTAKA Aristoteles Pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika [tesis]. Bogor (ID): Institut Pertanian Bogor. Fattah MA, Ren F Automatic text summarization. Di dalam: Proceeding of Word Academic of Science, Engineering and Technology; 2008 Apr 25; Roma (IT). hlm Jezek K, Steinberger J Automatic text summarization (the state of the art 2007 and new challenges). Di dalam: Proceeding Znalosti 2008; 2008 Feb 13-15; Bratislave (SK). hlm Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. Cambridge (GB): Cambridge University Press. Marlina M Sistem peringkasan dokumen berita bahasa Indonesia menggunakan metode regresi linear [skripsi]. Bogor (ID): Institut Pertanian Bogor. Martinez J, Fuentes O Using C4.5 as variable selection criterion in classification tasks. Di dalam: Proceeding of the Ninth IASTED International Conference; 2005 Sep 12-14; Benidorm (ES). hlm Quinlan JR C4.5: Programs for Machine Learning. California (US): Morgan Kaufmann. Ridha A, Adisantoso J, Bukhari F Pengindeksan otomatis dengan istilah tunggal untuk dokumen berbahasa Indonesia. Di dalam: Prosiding Seminar Nasional Ilmu Komputer V (SNIKTI V); 2004 Sep 2-3; Bogor (ID). hlm

26 16 Lampiran 1 Contoh data korpus berformat XML <TITLE> Akil Mochtar Persoalkan Kasasi Praperadilan Ginandjar. </TITLE> <TEXT> Jakarta, Kompas - Anggota Komisi II Dewan Perwakilan Rakyat (DPR) M Akil Mochtar mempersoalkan putusan kasasi Mahkamah Agung (MA) yang diberikan kepada Kejaksaan Agung atas penahanan mantan Menteri Pertambangan dan Energi Ginandjar Kartasasmita. Akil menilai MA telah menimbulkan kekacauan dalam penegakan hukum. "Menjadi pertanyaan saya dan menjadi problem hukum ketika yang kalah di tingkat pengadilan itu tersangka, MA harus menerima juga kasasi. Maksud saya, konsistensi kita terhadap hukum acara pidana sudah tidak ada sama sekali. MA ikut memberikan kontribusi dalam kekacauan di bidang penegakan hukum," kata Akil kepada wartawan usai rapat intern Fraksi Partai Golkar dengan Dewan Pimpinan Pusat (DPP) Partai Golkar di DPR, Kamis (28/3) lalu. Akil membantah memberikan pernyataan ini, mengingat yang terkena kasus adalah Ginandjar Kartasasmita yang juga anggota penasihat Partai Golkar. Menurut dia, dalam Kitab Undang-undang Hukum Acara Pidana (KUHAP) sudah jelas bahwa praperadilan tidak bisa dikasasi dalam soal penangkapan/penahanan sah atau tidak, tidak bisa dimintakan upaya hukum karena adalah proses acara cepat. Kalau penahanan itu berkaitan dengan berkas yang sudah dilimpahkan ke pengadilan, maka konsekuensi hukumnya praperadilan gugur. "Tetapi, ini kan tidak. Dia masuk terus ke pengadilan, ke MA, diputuskan. Kebetulan saja kasusnya Ginandjar Kartasasmita. Menurut saya, keputusan itu cacat hukum. Tidak bisa dieksekusi karena melampaui kewenangan hakim. Hakim pidana tidak boleh melampaui kewenangan," kata Ketua Tim Advokasi F-PG DPR itu. Setelah membaca putusan MA itu, menurut Akil, majelis hakim agung ternyata tidak memberi pertimbangan hukum, mengapa melampaui kewenangan itu boleh. "Mestinya majelis hakim agung memberikan pertimbangan hukum, baru ke soal perkaranya. Kalau itu dia berikan, ada pendapat hukum di masyarakat," katanya. LAMPIRAN

27 17 Lampiran 2 Penghitungan fitur teks kalimat f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 f11 R

28 18 Lampiran 3 Nilai rata-rata dan varian setiap kelas dan CR Kelas tidak masuk ringkasan dan CR 10% Fitur Rata-rata Varian f f f f f f f f f f f Kelas masuk ringkasan dan CR 30% Fitur Rata-rata Varian f f f f f f f f f f f Kelas masuk ringkasan dan CR 20% Fitur Rata-rata Varian f f f f f f f f f f f Kelas tidak masuk ringkasan dan CR 30% Fitur Rata-rata Varian f f f f f f f f f f f Kelas tidak masuk ringkasan dan CR 20% Fitur Rata-rata Varian f f f f f f f f f f f

29 Lampiran 4 Hasil pengujian akurasi peringkasan dengan 11 fitur pada CR 30% Dokumen Jumlah Kalimat Sistem Manual S ᴖ M N-gram Hasil n-gram

30 20 Lampiran 5 Hasil pengujian waktu peringkasan dengan 11 fitur pada CR 30% Dokumen Jumlah Rata-rata Waktu 1 Waktu 2 Waktu 3 Kalimat waktu Total waktu peringkasan

31 21 RIWAYAT HIDUP Septiandi Wibowo dilahirkan pada tanggal 19 September 1990 di Sukabumi Jawa barat. Putra pertama dari pasangan Sumedi dan Ani Sri Dharmawati. Penulis mengawali pendidikan dasar di SD Islam Al-Azhar 7 Sukabumi, SMP Negeri 1 Sukabumi, dan SMA Negeri 3 Sukabumi. Penulis meneruskan ke jenjang Diploma III di Institut Pertanian Bogor (IPB) jurusan Teknik Komputer pada tahun 2007, lalu penulis melanjutkan ke Alih Jenis Ilmu Komputer IPB pada tahun 2010.

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks 4 2 TINJAUAN PUSTAKA 2.1 Peringkasan Teks Peringkasan teks adalah proses pemampatan teks sumber ke dalam versi lebih pendek namun tetap mempertahankan informasi yang terkandung didalamnya (Barzilay & Elhadad

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Membaca adalah salah satu aktifitas yang dilakukan oleh seseorang untuk mendapatkan intisari dari sebuah teks, misalnya teks berita. Untuk mendapatkan intisari dari

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA MENGGUNAKAN METODE REGRESI LOGISTIK BINER MERI MARLINA

SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA MENGGUNAKAN METODE REGRESI LOGISTIK BINER MERI MARLINA SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA MENGGUNAKAN METODE REGRESI LOGISTIK BINER MERI MARLINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES

PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI LUH GEDE PUTRI SUARDANI NIM. 1208605018 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika 1 Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika Zulkifli 1, Agung Toto Wibowo 2, Gia Septiana 3 123 Fakultas Informatika, Universitas Telkom, Bandung,

Lebih terperinci

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6481 1 Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika Zulkifli 1, Agung Toto

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN LOGIKA FUZZY R. AHMAD SOMADI GERBAWANI

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN LOGIKA FUZZY R. AHMAD SOMADI GERBAWANI PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN LOGIKA FUZZY R. AHMAD SOMADI GERBAWANI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Matematika dan Ilmu Pengetahuan

Lebih terperinci

BAB 1 PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE TESIS PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE PERIANTU MARHENDRI SABUNA No. Mhs.: 155302367/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

Crossover Probability = 0.5 Mutation Probability = 0.1 Stall Generation = 5

Crossover Probability = 0.5 Mutation Probability = 0.1 Stall Generation = 5 oleh pengguna sistem adalah node awal dan node tujuan pengguna. Lingkungan Pengembangan Sistem Implementasi Algoritme Genetika dalam bentuk web client menggunakan bahasa pemrograman PHP dan DBMS MySQL.

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III BAB 3 METODE PENELITIAN 3.1. Tahap pengumpulan data Data awal dalam penelitian ini adalah dokumen berupa artikel teks berita online dalam bahasa Indonesia yang dikumpulkan secara acak dari portal

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA

PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA PERINGKAS DOKUMEN BERBAHASA INDONESIA BERBASIS KATA BENDA DENGAN BM25 RENDY RIVALDI PINANDHITA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Media massa memiliki berbagai jenis media penyiaran seperti televisi dan radio dan media cetak seperti surat kabar, majalah dan tabloid. Namun, dengan kemajuan teknologi

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika Siti Mutrofin 1, Arrie Kurniawardhani 2, Abidatul Izzah 3, Mukhamad Masrur 4 Universitas Pesantren Tinggi Darul Ulum

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE Castaka Agus Sugianto Program Studi Teknik lnformatika Politeknik TEDC Bandung

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari 2017 50 APLIKASI KLASIFIKASI ALGORITMA C4.5 (STUDI KASUS MASA STUDI MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS MULAWARMAN

Lebih terperinci

METODE PENELITIAN HASIL DAN PEMBAHASAN

METODE PENELITIAN HASIL DAN PEMBAHASAN 5. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemotongan tree secara umum. Untuk itu diberikan 2 (dua) buah threshold yang harus dipenuhi

Lebih terperinci

Jurnal Politeknik Caltex Riau

Jurnal Politeknik Caltex Riau 1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani

Lebih terperinci

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

1.2. Latar Belakang Masalah

1.2. Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1. Pengantar Dewasa ini fungsi komputer semakin dimanfaatkan dalam segala bidang. Baik di bidang pendidikan, bisnis, ataupun penelitian. Komputer dimanfaatkan dalam segala bidang dikarenakan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan BAB I PENDAHULUAN Sebagai negara berkembang, perekonomian Indonesia didorong untuk tumbuh dengan pesat. Salah satu indikator pertumbuhan perekonomian yang baik adalah tingginya daya beli masyarakat. Tingginya

Lebih terperinci

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan adanya perkembangan dan pertumbuhan yang secara cepat dalam hal informasi elektronik sangat diperlukan suatu proses untuk menyelesaikan suatu permasalahan itu

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat BAB III LANDASAN TEORI 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat memahami dengan cepat isi dari bacaan tersebut. Memahami isi bacaan melalui

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Instrumen Penelitian Pada penelitian ini bahan dan peralatan yang diperlukan sebagai berikut: 3.1.1 Bahan Dalam penelitian ini bahan yang dibutuhkan adalah data siswa kelas

Lebih terperinci

UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR

UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR oleh: MOH. KHAWARIZMIE ALIM F14101030 2006 FAKULTAS TEKNOLOGI PERTANIAN INSTITUT

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem

Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem Manajemen Surat Ahmad Najibullah 1, Wang Mingyan 2 1,2 Fakultas Teknologi Informasi, Universitas Nanchang, Nanchang, Republik Rakyat Tiongkok E-mail:

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI Techno.COM, Vol. 15, No. 3, Agustus 2016: 241-245 PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI Didik Srianto 1, Edy Mulyanto 2 1,2 Teknik Informatika,

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Berkembangnya teknologi telah membuat banyak informasi bermunculan. Informasi-informasi tersebut tertuang dalam bentuk dokumen terutama dokumen digital. Semakin

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED

DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED Tugas Akhir Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Imam Sutoyo AMIK BSI JAKARTA e-mail: imam.ity@bsi.ac.id Abstrak - Klasifikasi peserta didik merupakan kegiatan yang sangat penting

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes

Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes Jurnal... Vol. XX, No. X, Bulan 20XX, XX-XX 1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes Abraham Koroh 1, Kartina Diah

Lebih terperinci

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk Eka Retnawiyati 1, Fatoni, M.M.,M.Kom 2., Edi Surya Negara, M.Kom 3 1) Mahasiswa Informatika Universitas Bina Darma

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

Mencapai Tujuan Penerapan Sistem Kamar yang Ideal

Mencapai Tujuan Penerapan Sistem Kamar yang Ideal Mencapai Tujuan Penerapan Sistem Kamar yang Ideal Diskusi Publik Memperkuat Sistem Kamar untuk Meningkatkan Kualitas dan Konsistensi Putusan Pengadilan Lembaga Kajian & Advokasi untuk Independensi Peradilan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

PERANCANGAN PROTOKOL PENYEMBUNYIAN INFORMASI TEROTENTIKASI SHELVIE NIDYA NEYMAN

PERANCANGAN PROTOKOL PENYEMBUNYIAN INFORMASI TEROTENTIKASI SHELVIE NIDYA NEYMAN PERANCANGAN PROTOKOL PENYEMBUNYIAN INFORMASI TEROTENTIKASI SHELVIE NIDYA NEYMAN SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA Optimization Techniques Modi ed k Nearest Neighbor Classi cation Using Genetic Algorithm Siti Mutro n 1, Abidatul

Lebih terperinci

BAB IV EKSPERIMEN. 4.1 Tujuan

BAB IV EKSPERIMEN. 4.1 Tujuan BAB IV EKSPERIMEN Pada bab ini dibahas mengenai eksperimen penggunaan SVM dalam pendeteksian intrusi pada jaringan. Pembahasan ini meliputi tujuan yang ingin dicapai melalui eksperimen ini, parameter evaluasi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan sebuah informasi berbanding lurus dengan tingginya laju teknologi pada saat ini, ketersediaan dan perkembangan dari informasi yang berbentuk text digital

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang 1 1.1 Latar Belakang BAB I PENDAHULUAN Dalam Peraturan Menteri Agama Republik Indonesia Nomor 30 Tahun 2014 tentang Biaya Kuliah Tunggal dan Uang Kuliah Tunggal pada Perguruan Tinggi Keagamaan Negeri di

Lebih terperinci

KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI

KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI Disusun Oleh : ATIKA ELSADINING TYAS 24010211120013 JURUSAN STATISTIKA

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pendidikan merupakan salah satu aspek penting di dalam kehidupan. Oleh karena itu, pendidikan mendapat perhatian besar dalam kehidupan masyarakat dan negara. Pendidikan

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

SISTEM PREDIKSI PENGUNDURAN DIRI PESERTA DIDIK MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER

SISTEM PREDIKSI PENGUNDURAN DIRI PESERTA DIDIK MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER SISTEM PREDIKSI PENGUNDURAN DIRI PESERTA DIDIK MENGGUNAKAN METODE NAIVE BAYES CLASSIFIER ARTIKEL SKRIPSI Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom) Pada Program

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci