PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA

Ukuran: px
Mulai penontonan dengan halaman:

Download "PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA"

Transkripsi

1 PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Desember 2015 Yozi Sukmatul Ahda G

4 ABSTRAK YOZI SUKMATUL AHDA. Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat. Dibawah bimbingan JULIO ADISANTOSO. Membaca dokumen yang panjang memerlukan waktu yang lama untuk menemukan isi penting dari bacaan tersebut, sehingga diperlukan suatu ringkasan untuk memudahkan dalam memahami isi dokumen. Ringkasan dokumen otomatis dapat digunakan untuk menemukan ringkasan dokumen dengan cepat. Penelitian ini menggunakan sembilan fitur kalimat untuk pembobotan kalimat sebagai penentu hasil ringkasan. Hasil ringkasan tersebut menggunakan CR 10%, CR 20% dan CR 30%. Untuk mengetahui keakuratan hasil ringkasan maka dilakukan evaluasi menggunakan precision, recall, f-measure dan akurasi. Untuk hasil perhitungan precision didapatkan hasil tertinggi 60.99% pada CR 10%, recall tertinggi 41.16% pada CR 30%, f-measure tertinggi 45.42% pada CR 30%, dan hasil akurasi tertinggi 64.18% pada CR 10%. Kata kunci: fitur kalimat, pembobotan kalimat, ringkasan dokumen ABSTRACT YOZI SUKMATUL AHDA. Indonesian Text Summarization by Using Weighting of Sentence Features. Supervised by JULIO ADISANTOSO. Reading long document needs a long time to find the important contents of the reading, so summary is needed to make it easier to understand. Automatic text summarization can be used to find text summarization quickly. This research used 9 sentences features of weighting the sentences as determinant of the summary results. The result of the summary uses CR 10%, 20% and 30%. The accuracy of the summary is calculated using precision, recall, f-measure and accuracy. The highest precision results is 60.99% in CR 10%, the highest recall results is 41.16% in CR 30%, the highest f-measure results is 45.42% in CR 30% and the highest accuracy results is 64.18% in CR 10%. Keywords: sentence feature, text summarization, weighting of sentence

5 PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

6 Penguji: 1 Irman Hermadi, SKom, MS, PhD 2 Husnul Khotimah, SKomp, MKom

7 Judul Skripsi : Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat Nama : Yozi Sukmatul Ahda NIM : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi, MKom Ketua Departemen Tanggal Lulus :

8 PRAKATA Puji syukur penulis panjatkan kehadirat Allah Subhanahu wa ta ala yang telah memberikan rahmat dan hidayah-nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat. Skripsi ini disusun sebagai syarat mendapat gelar Sarja Komputer (SKomp) pada Program Studi Ilmu Komputer di Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor (IPB). Terima kasih penulis ucapkan kepada Bapak Julio Adisantoso selaku pembimbing, serta Bapak Irman Hermadi dan Ibu Husnul Khotimah yang telah banyak memberi saran. Ungkapan terima kasih juga penulis ucapkan kepada kedua orang tua dan seluruh keluarga, atas doa, dukungan dan kasih sayangnya, serta semua pihak yang telah banyak membantu dalam menyelesaikan skripsi ini. Tak lupa juga penulis ucapkan terima kasih kepada rekan-rekan satu bimbingan, Lutfia dan Rheza, atas bantuan dan kerjasamanya dalam melakukan penelitian ini, serta kepada rekanrekan seperjuangan di Ekstensi Ilmu Komputer angkatan 8, atas dukungan, bantuan, dan kebersamaannya selama menjalani masa studi. Semoga skripsi ini dapat memberikan kontribusi yang bermakna bagi pengembangan wawasan para pembaca, khususnya mahasiswa dan masyarakat pada umumnya. Semoga karya ilmiah ini bermanfaat. Bogor, Desember 2015 Yozi Sukmatul Ahda

9 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 METODE 2 Pengumpulan Dokumen 2 Parsing Kalimat 3 Fitur Kalimat 4 Seleksi Kalimat 8 Evaluasi 9 HASIL DAN PEMBAHASAN 10 Pengumpulan Dokumen 10 Parsing Kalimat 10 Fitur Kalimat 10 Seleksi Kalimat 13 Evaluasi 13 SIMPULAN DAN SARAN 16 Simpulan 16 Saran 16 DAFTAR PUSTAKA 17 RIWAYAT HIDUP 18

10 DAFTAR TABEL 1 Matrix confusion 9 2 Dokumen yang memiliki kalimat yang bernilai 0 12 DAFTAR GAMBAR 1 Tahapan proses penelitian 3 2 Pemisahan kalimat dan case folding 4 3 Filtering kata 4 4 Grafik nilai rata-rata precision 14 5 Grafik nilai rata-rata recall 15 6 Grafik nilai rata-rata f-measure 15 7 Grafik nilai rata-rata akurasi 16

11 1 PENDAHULUAN Latar Belakang Membaca dokumen dengan isi yang panjang memerlukan waktu yang lama untuk menemukan intisari dari dokumen tersebut. Sehingga dibutuhkan suatu ringkasan yang memuat intisari dari keseluruhan isi dokumen. Ringkasan dokumen memudahkan untuk memahami isi dokumen. Peringkasan dokumen merupakan proses mendapatkan informasi penting dari tiap-tiap subbagian dari keseluruhan dokumen. Peringkasan dokumen dapat dilakukan secara manual maupun otomatis. Peringkasan dokumen yang jumlahnya banyak, apabila dilakukan secara manual membutuhkan waktu yang lama dibandingkan dengan peringkasan teks secara otomatis (Aristoteles et al. 2012). Ada beberapa teknik untuk melakukan peringkasan dokumen diantaranya teknik ekstraksi dan teknik abstraksi (Jezek dan Steiberger 2008). Teknik ekstraksi yaitu menyalin semua teks tanpa mengubah kalimat teks aslinya, sedangkan teknik abstraksi yaitu membuat kalimat baru dari isi dokumen aslinya, namun makna kalimat tetap sama dengan teks dokumen aslinya (Jezek dan Steiberger 2008). Peringkasan dengan teknik ekstraksi membutuhkan fitur karena fitur digunakan untuk merepresentasikan dokumen (Zaman dan Winarko 2011). Peringkasan dokumen otomatis dengan teknik ekstraksi telah banyak dilakukan diantaranya Fattah dan Ren (2008) membandingkan algoritme genetika dengan regresi matematika. Hasil penelitian Fattah dan Ren (2008) menunjukkan akurasi peringkasan teks dengan algoritme genetika 44.94% lebih baik dibandingkan akurasi menggunakan regresi matematika 43.82%. Aristoteles et al. (2012) membuat pembobotan fitur teks pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika. Pembobotan fitur teks mengindikasikan pentingnya suatu teks dalam dokumen. Pada penelitian Aristoteles et al. (2012) ada 11 fitur teks yang digunakan yaitu posisi kalimat, positive keyword, negative keyword, kemiripan antarkalimat, kalimat yang menyerupai judul dokumen, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, panjang relatif kalimat, koneksi antarkalimat, penjumlahan bobot koneksi antar-kalimat, dan kalimat semantik. Hasil penelitian tersebut menunjukkan bahwa penggunaan 4 fitur teks dengan penambahan kalimat semantik merepresentasikan hasil akurasi 11 fitur teks sebesar 46.44%. Selain itu, Marlina (2012) melakukan penelitian untuk menghitung pembobotan fitur teks menggunakan regresi logistik biner. Penelitian tersebut menghasilkan akurasi sebesar 42.84% pada compression rate 30%. Dokumen yang digunakan pada penelitian sebelumnya merupakan dokumen pendek seperti dokumen berita, sedangkan penggunaan dokumen panjang seperti karya ilmiah belum digunakan. Oleh karena itu, penelitian ini akan menggunakan pembobotan fitur kalimat untuk peringkasan dokumen secara ekstraksi pada dokumen skripsi berbahasa Indonesia.

12 2 Perumusan Masalah Perumusan masalah dalam penelitian ini yaitu: 1 Bagaimanakah pengembangan pembobotan kalimat berdasarkan fitur kalimat untuk peringkasan dokumen otomatis? 2 Apakah pembobotan kalimat dengan fitur kalimat tersebut tepat digunakan untuk peringkasan dokumen? 3 Bagaimana implementasi dari fitur kalimat tersebut untuk dokumen skripsi berbahasa Indonesia? Tujuan Penelitian Penelitian ini bertujuan untuk: 1 Mengembangkan peringkasan dokumen otomatis menggunakan pembobotan kalimat berdasarkan fitur kalimat. 2 Menganalisis ketepatan penggunaan pembobotan kalimat dengan fitur kalimat untuk peringkasan dokumen. 3 Mengimplementasikan fitur kalimat untuk dokumen skripsi berbahasa Indonesia. Manfaat Penelitian Manfaat dari penelitian ini yaitu menghasilkan ringkasan yang relevan dan melakukan peringkasan dokumen secara cepat sehingga dapat digunakan oleh mahasiswa untuk mencari dokumen skripsi untuk dijadikan acuan penelitiannya. Ruang Lingkup Penelitian Ruang lingkup penelitian ini adalah: 1 Dokumen yang digunakan yaitu skripsi Ilmu Komputer berbahasa Indonesia. 2 Menggunakan fitur kalimat untuk pembobotan kalimat dengan teknik ekstraksi. METODE Penelitian ini dilakukan dengan beberapa tahap yaitu pengumpulan dokumen, parsing kalimat, hitung fitur kalimat dan pemilihan fitur kalimat, pembobotan kalimat, seleksi kalimat, dan evaluasi yang dapat dilihat pada Gambar 1. Pengumpulan Dokumen Penelitian ini menggunakan dokumen skripsi mahasiswa Departemen Ilmu Komputer Institut Pertanian Bogor yang berjumlah 100 dokumen yang diambil dari

13 3 Gambar 1 Tahapan proses penelitian repository.ipb.ac.id. Dokumen ini digunakan untuk membandingkan ringkasan manual dengan ringkasan sistem. Dokumen dikumpulkan dalam format f ile.txt dan diberikan tanda pemisah sebagai berikut: 1 {{bab-pendahuluan}} {{/bab-pendahuluan}} untuk pendahuluan. 2 {{bab-metode}} {{/bab-metode}} untuk metode. 3 {{bab-hasil}} {{/bab-hasil}} untuk hasil dan pembahasan. 4 {{bab-penutup}} {{/bab-penutup}} untuk penutup. 5 {{{subbab1}}} {{{/subbab1}}} untuk subbab. 6 {{{kesimpulan}}} {{{/kesimpulan}}} untuk kesimpulan. 7 {{{{paragraf1}}}} {{{{/paragraf1}}}} untuk paragraf. Ada beberapa aturan yang digunakan untuk pengumpulan dokumen sebagai berikut: 1 Tabel, gambar, persamaan, algoritme beserta isinya dihapus dari dokumen. 2 Bukan berupa list pendek, kecuali pada bagian kesimpulan dan saran. 3 Tinjauan pustaka yang ada di dalam dokumen dihilangkan. 4 Judul bab dan subbab dihilangkan. 5 Catatan kaki dihilangkan. Parsing Kalimat Dalam parsing kalimat dilakukan pemisahan kalimat, case folding, dan filtering kata. Dalam pemisahan kalimat memperhatikan tanda baca seperti tanda titik (.), tanda tanya (?), dan tanda seru (!). Untuk kalimat kutipan yang menggunakan tanda baca kutip dua ( ), apabila berada sebelum tanda titik, tanda tanya, dan tanda seru, maka dianggap satu kalimat. Tahap case folding merupakan tahapan mengubah huruf dalam kalimat menjadi huruf yang sama. Dalam penelitian ini semua huruf dalam kalimat akan diubah menjadi huruf kecil (lower case). Contoh pemisahan kalimat dan case folding dapat dilihat pada Gambar 2.

14 4 Gambar 2 Pemisahan kalimat dan case folding Tahap selanjutnya melakukan filtering kata. Dalam filtering kata dilakukan pembuangan kata-kata yang sering muncul tapi tidak punya makna yang penting, disebut juga dengan stopword (Kogilavani dan Balasubramani 2010). Contoh filtering kata dapat dilihat pada Gambar 3. Gambar 3 Filtering kata Fitur Kalimat Penelitian ini mengacu pada penelitian Aristoteles et al. (2012) yang menggunakan fitur kalimat sebagai berikut posisi kalimat, kemiripan antarkalimat, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, kalimat yang menyerupai judul dokumen, dan panjang kalimat. Posisi Kalimat ( f 1 ) Fitur kalimat berdasarkan posisi kalimat terdiri atas posisi kalimat dalam pendahuluan, posisi kalimat dalam metode, posisi kalimat dalam hasil dan pembahasan, dan posisi kalimat dalam kesimpulan.

15 5 Posisi Kalimat dalam Pendahuluan ( f 1a ) Posisi kalimat S dalam setiap subbab pada pendahuluan dapat dihitung dengan: Skor f 1a = P (1) N dengan P adalah posisi paragraf di mana kalimat S berada, dan N adalah jumlah paragraf. Berikut ini contoh fitur kalimat berdasarkan posisi kalimat dalam pendahuluan. Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang. Berdasarkan contoh tersebut diasumsikan posisi paragraf adalah paragraf pertama dengan jumlah paragraf pada subbab pertama adalah 4, maka perhitungan skor fitur kalimat berdasarkan posisi kalimat dalam pendahuluan untuk seluruh kalimat pada paragraf pertama adalah 4 1, skor untuk seluruh kalimat pada paragraf kedua adalah 2 4, skor untuk seluruh kalimat pada paragraf ketiga adalah 3 4, dan skor untuk seluruh kalimat pada paragraf keempat adalah 4 4. Posisi Kalimat dalam Metode ( f 1b ) Posisi kalimat S dalam setiap subbab pada metode dapat dihitung dengan: Skor f 1b = (K (M 1)) K dengan K adalah jumlah kalimat dalam paragraf, dan M adalah posisi kalimat S dalam paragraf. Berikut contoh fitur kalimat berdasarkan posisi kalimat dalam metode. Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang. Berdasarkan contoh tersebut jumlah kalimat adalah 2, maka skor kalimat pertama adalah 2 2, dan skor kalimat kedua adalah 1 2. Posisi Kalimat dalam Hasil dan Pembahasan ( f 1c ) Posisi kalimat S dalam setiap subbab hasil dan pembahasan dapat dihitung dengan: (2) Skor f 1c = M n (3) dengan n adalah jumlah kalimat dalam paragraf, dan M adalah posisi kalimat S dalam paragraf. Berikut contoh fitur kalimat berdasarkan posisi kalimat dalam hasil dan pembahasan.

16 6 Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang. Berdasarkan contoh tersebut skor kalimat pertama adalah 1 2, dan skor kalimat kedua adalah 2 2. Posisi Kalimat dalam Kesimpulan ( f 1d ) Posisi kalimat S dalam kesimpulan dapat dihitung dengan: Skor f 1d = ( j (Z 1)) j dengan j adalah jumlah kalimat dalam paragraf, dan Z adalah posisi kalimat S dalam paragraf. Berikut contoh fitur kalimat berdasarkan posisi kalimat dalam kesimpulan. Sebagian besar aturan asosiasi memiliki nilai fuzzy confidence yang tinggi karena nilai fuzzy support gabungan antecedent dengan consequent juga tinggi. Parameter yang paling mempengaruhi jumlah aturan asosiasi yang dihasilkan adalah nilai minsup. Berdasarkan contoh skor untuk kalimat pertama adalah 2 2, dan untuk kalimat kedua adalah 1 2. Kemiripan Antarkalimat ( f 2 ) Kemiripan antarkalimat merupakan kata yang muncul dalam suatu kalimat juga ada dalam kalimat yang lain. Dapat dirumuskan sebagai berikut: Skor f 2 = K s Ko (5) K s Ko dengan K s adalah kata dalam kalimat S, dan K o adalah kata dalam kalimat lain. Berikut contoh fitur kalimat berdasarkan kemiripan antarkalimat. 1 Saya pergi ke kampus 2 Kampus saya di Baranangsiang 3 Saya terlambat mengikuti pelajaran Berdasarkan contoh kalimat pertama memiliki 2 kata yang sama dengan kalimat kedua dan ketiga, yaitu saya, kampus. Kalimat kedua memiliki 2 kata yang sama dengan kalimat pertama dan ketiga, yaitu saya, kampus. Sedangkan kalimat ketiga memiliki 1 kata yang sama dengan kalimat pertama dan kedua, yaitu saya. Maka skor kalimat pertama adalah 2 9, skor kalimat kedua adalah 2 9, dan skor kalimat ketiga adalah 1 9. Kalimat yang Mengandung Nama Entitas ( f 3 ) Nama entitas merupakan kumpulan kata yang memiliki makna, seperti nama institusi, nama orang, nama negara, nama daerah dan nama pulau. Dapat dirumus- (4)

17 7 kan sebagai berikut: Skor f 3 = E L s (6) dengan E adalah jumlah entitas dalam kalimat S, dan L s adalah panjang kalimat S. Berikut contoh fitur kalimat berdasarkan kalimat yang mengandung nama entitas. DKI Jakarta sebagai ibukota negara, saat ini mengalami pembangunan yang pesat. Pembangunan ini meliputi pembangunan rumah, gedung, perkantoran, pusat perbelanjaan, pabrik, dan lain sebagainya, sehingga membuat DKI Jakarta semakin padat. Berdasarkan contoh kalimat yang mengandung nama entitas terdapat pada kalimat pertama dan kedua, yaitu DKI Jakarta merupakan nama provinsi. Maka skor kalimat pertama adalah 1 7, dan skor kalimat kedua adalah Dalam menghitung panjang kalimat, kata yang termasuk stopword tidak ikut dihitung. Kalimat yang Mengandung Data Numerik ( f 4 ) Kalimat yang mengandung data numerik biasanya terdapat informasi yang penting. Dapat dirumuskan sebagai berikut: Skor f 4 = N n L s (7) dengan N n adalah jumlah data numerik dalam kalimat S, dan L s adalah panjang kalimat S. Berikut contoh fitur kalimat berdasarkan kalimat yang mengandung data numerik. Menurut data yang diperoleh dari Dinas Pertanian dan Kehutanan Propinsi DKI Jakarta tahun 2005, tecatat bahwa di DKI Jakarta terdapat 47 area hutan yang tersebar di lima kotamadya dan masih produktif sebagai hutan kota. Keberadaan hutan kota ini jarang diketahui oleh masyarakat pada umumnya dan masyarakat Jakarta pada khususnya, sehingga pengetahuan masyarakat akan hutan kota menjadi sangat kurang. Berdasarkan contoh kalimat pertama memiliki 2 data numerik sedangkan kalimat kedua tidak memiliki data numerik, maka skor kalimat pertama adalah Kalimat yang Menyerupai Judul Dokumen ( f 5 ) Kalimat yang menyerupai judul dokumen yaitu kata yang muncul pada kalimat juga muncul pada judul. Untuk menghitung skor kalimat yang menyerupai judul dokumen digunakan Cosine Similarity. Cosine Similarity merepresentasikan kalimat dalam bentuk vektor (Xie dan Liu 2008) sebagai berikut: Skor f 5 = sim(s 1,s 2 ) = s 1 s 2 s 1 s 2 = i s 1, i s 2, i i s 2 2, i i s 2 1, i dengan s 1 adalah kalimat S, dan s 2 adalah judul dokumen. Berikut contoh fitur kalimat berdasarkan kalimat yang menyerupai judul dokumen. Judul dokumen: Saya Terlambat (8)

18 8 1 Saya pergi ke kampus 2 Kampus saya di Baranangsiang 3 Saya terlambat mengikuti pelajaran Berdasarkan contoh kata saya pada judul dokumen muncul pada kalimat pertama, kedua dan ketiga, sedangkan kata terlambat hanya muncul pada kalimat ketiga. Maka skor kalimat pertama adalah 1 skor kalimat ketiga adalah , skor kalimat kedua adalah , dan Panjang Kalimat ( f 6 ) Panjang kalimat merupakan jumlah kata dalam kalimat dibagi jumlah kata unik dalam dokumen. Skor f 6 = N w K u (9) dengan N w adalah jumlah kata dalam kalimat S, K u adalah jumlah kata unik dalam dokumen. Berikut contoh fitur kalimat berdasarkan panjang kalimat. Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang. Berdasarkan contoh kata dalam kalimat pertama berjumlah 8 (tidak termasuk stopword), asumsikan kata unik dalam dokumen berjumlah 25 kata, maka skor kalimat pertama adalah 8 25, dan skor kalimat kedua adalah Seleksi Kalimat Seleksi kalimat dilakukan setelah mendapatkan bobot kalimat. Pembobotan kalimat dihitung menggunakan persamaan regresi logistik biner. Regresi logistik merupakan metode untuk menganalisis hubungan variabel respon dan variabel penjelas yang memiliki dua atau lebih kategori (Hosmer dan Lemeshow 2000). Variabel respon yang digunakan terdiri atas 2 kategori yaitu 1 dan 0. Ringkasan manual yang telah dibuat akan dibandingkan dengan dokumen untuk menentukan kalimat tersebut masuk ke dalam ringkasan atau tidak. Dengan memberikan tanda y=1 untuk kalimat yang terambil sebagai ringkasan dan y=0 untuk kalimat yang tidak terambil sebagai ringkasan. Menurut Hosmer dan Lemeshow (2000) regresi logistik biner adalah: π g = ln( 1 π ) = a 0 + n i=1 a i f i (10) dengan a 0 adalah nilai konstanta regresi, a i adalah nilai dugaan koefisien regresi, dan f i adalah skor fitur kalimat, di mana i = 1, 2,..., n. Apabila π merupakan peluang kalimat terambil sebagai ringkasan (y=1) dengan π > = 0.50, maka didapatkan persamaan untuk mencari peluangnya yaitu: e g π = ( 1 + e g ) (11)

19 9 Setelah mendapatkan bobot kalimat langkah selanjutnya menyeleksi kalimat untuk membuat ringkasan menggunakan rasio kompresi ringkasan (CR) 30%, 20% dan 10%. Evaluasi Pada tahap evaluasi, keakuratan hasil ringkasan manual akan dibandingkan dengan hasil ringkasan sistem. Untuk menghitung keakuratan tersebut digunakan perhitungan Precision (P), Recall (R), F-Measure (F-1), dan akurasi dari dokumen. Precision adalah proporsi kalimat yang diprediksi benar dan kenyataannya masuk kategori benar, sedangkan Recall adalah proporsi kalimat yang termasuk kategori benar dan tepat masuk dalam kategori benar tersebut (Power 2011). F-Measure adalah gabungan dari Recall dan Precision (Zaman dan Winarko 2011). Akurasi adalah perbandingan jumlah kalimat benar dengan total kalimat keseluruhan. Dalam memudahkan perhitungan dapat digunakan tabel pendukung (matrix confusion) seperti Tabel 1. Matrix confusion merupakan matriks yang berisi informasi pengklasifikasian aktual dan prediksi oleh sistem (Wijakso 2012). Tabel 1 Matrix confusion Relevant Retrieved tp fp Non Retrieved fn tn Non Relevant Perhitungan precision, recall, f-measure, dan akurasi menurut Manning et al. (2008) berdasarkan Tabel 1 sebagai berikut: P = R = F-1 = tp (tp + fp) tp (tp + fn) (2 P R) (P + R) (12) (13) (14) Akurasi = (tp + tn) (tp + fp + fn + tn) dengan true positive (tp) adalah kalimat yang ada dalam ringkasan manual dan muncul dalam ringkasan sistem, false positive (fp) adalah kalimat yang tidak ada dalam ringkasan manual tapi kalimat tersebut muncul dalam ringkasan sistem, false negative (fn) adalah kalimat yang ada dalam ringkasan manual tapi tidak muncul dalam ringkasan sistem, dan true negative (tn) adalah kalimat yang tidak ada dalam ringkasan manual maupun dalam ringkasan sistem. (15)

20 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Dokumen yang digunakan pada penelitian ini adalah skripsi mahasiswa Departemen Ilmu Komputer yang berjumlah 100 dokumen. Dokumen tersebut diunduh dari repository.ipb.ac.id dalam format file.pdf. Dokumen tersebut dikonversi ke dalam bentuk file.txt, misalnya 1.txt. Rata-rata jumlah kalimat awal untuk 100 dokumen tersebut yaitu dengan jumlah kalimat terendah yaitu 100 pada dokumen 61.txt dan tertinggi yaitu 420 pada dokumen 9.txt. Namun rata-rata kalimat menjadi setelah dilakukan penghapusan tinjauan pustaka dan kalimat yang menjelaskan tentang gambar, grafik maupun tabel. Rata-rata perbandingan kalimat yang terambil setelah dilakukan penghapusan sebesar 65.67% dengan rata-rata terendah adalah 35.97% pada dokumen 100.txt dan tertinggi adalah 93.22% pada dokumen 99.txt. Ukuran dokumen terendah adalah 12 KB dan terbesar 40 KB. Selanjutnya dokumen tersebut digunakan untuk membuat ringkasan manual. Parsing Kalimat Pemisahan kalimat dilakukan berdasarkan aturan yang telah dijelaskan pada metode penelitian. Jumlah kalimat terendah yaitu 64 pada dokumen 31.txt dan tertinggi yaitu 308 pada dokumen 9.txt. Namun, dalam prosesnya terdapat kendala pada penggunaan tanda titik (.). Karena tanda titik (.) bukan hanya digunakan sebagai tanda akhir kalimat, tapi digunakan juga untuk penulisan bilangan desimal atau penulisan format file. Sehingga, ditambhakan aturan untuk mengganti tanda titik (.) pada kasus-kasus tersebut, di antaranya: 1 Tanda titik (.) pada bilangan desimal diganti dengan tanda bintang (*). Misalnya diganti menjadi 25*10. 2 Tanda titik (.) pada penulisan et al. dihilangkan sehingga menjadi et al. 3 Tanda titik (.) pada format file diganti menjadi tanda bintang (*). Misalnya.txt diganti menjadi *txt. Fitur Kalimat Perhitungan fitur kalimat mengacu pada penelitian yang dilakukan oleh Aristoteles et al. (2012) dengan menggunakan 9 fitur kalimat yang terdiri atas fitur kalimat berdasarkan posisi kalimat dalam pendahuluan ( f 1a ), posisi kalimat berdasarkan metode ( f 1b ), posisi kalimat berdasarkan hasil dan pembahasan ( f 1c ), posisi kalimat berdasarkan kesimpulan ( f 1d ), kemiripan antarkalimat ( f 2 ), kalimat yang mengandung entitas ( f 3 ), kalimat yang mengandung data numerik ( f 4 ), kalimat yang menyerupai judul dokumen ( f 5 ), dan panjang kalimat ( f 6 ). Posisi Kalimat dalam Pendahuluan ( f 1a ) Kalimat dalam pendahuluan memiliki nilai rata-rata 0.16 dengan rata-rata terendah 0.06 pada dokumen 9.txt dan tertinggi 0.27 pada dokumen 44.txt. Pada do-

21 11 kumen 9.txt jumlah nilai kalimat yang terambil sebagai kalimat dalam pendahuluan adalah 18.5 menghasilkan rata-rata 0.06 dengan jumlah kalimat 308. Sedangkan pada dokumen 44.txt jumlah nilai kalimatnya 20.8 menghasilkan rata-rata 0.27 dengan jumlah kalimat 78. Dari hasil pengamatan tersebut diperoleh bahwa jumlah kalimat yang muncul dalam paragraf akan mempengaruhi tinggi rendahnya jumlah nilai kalimat dan akan mempengaruhi nilai rata-ratanya. Posisi Kalimat dalam Metode ( f 1b ) Kalimat dalam metode memiliki nilai rata-rata 0.19 dengan rata-rata terendah 0.05 pada dokumen 11.txt dan tertinggi 0.35 pada dokumen 48.txt. Ada 153 kalimat yang muncul dalam metode pada dokumen 11.txt dengan jumlah nilai kalimat 7.5 dan pada dokumen 48.txt ada 180 kalimat dengan jumlah nilai kalimat 64. Dari hasil pengamatan diperoleh bahwa jumlah nilai kalimat yang kecil akan mempengaruhi rendahnya nilai rata-ratanya apabila jumlah kalimatnya banyak. Posisi Kalimat dalam Hasil dan Pembahasan ( f 1c ) Kalimat dalam hasil dan pembahasan memiliki nilai rata-rata 0.28 dengan rata-rata terendah 0.03 pada dokumen 54.txt dengan jumlah nilai kalimat 30 serta jumlah kalimat 106. Untuk rata-rata tertinggi 0.54 pada dokumen 11.txt dengan jumlah nilai kalimat 82 serta jumlah kalimat 153. Dari hasil pengamatan diperoleh bahwa jumlah nilai kalimat yang kecil akan mempengaruhi rendahnya nilai ratarata. Posisi Kalimat dalam Kesimpulan ( f 1d ) Kalimat dalam kesimpulan memiliki nilai rata-rata 0.05 dengan rata-rata terendah 0.02 pada dokumen 65.txt dengan jumlah kalimat 183 dan jumlah nilai kalimat Dokumen 85.txt merupakan dokumen yang memiliki rata-rata tertinggi sebesar 0.20 dengan jumlah kalimat 159 dan jumlah nilai kalimat Perbedaan jumlah nilai antara rata-rata terendah dan tertinggi tidak terlalu signifikan disebabkan karena jumlah kalimat yang muncul antara 4 sampai 13. Kemiripan Antarkalimat ( f 2 ) Hasil pengamatan untuk kemiripan antarkalimat menghasilkan nilai rata-rata dengan rata-rata terendah pada dokumen 9.txt dan tertinggi pada dokumen 31.txt. Ada 10 dokumen yang memiliki kalimat yang bernilai 0, hal tersebut berarti tidak ada satu kata pun yang mirip dengan kata pada kalimat lainnya. Hal ini terjadi juga karena pemisahan kalimat yang belum sempurna, seperti pada dokumen 48.txt merupakan kalimat sumber yang dijadikan rujukan. Karena kalimat sebelumnya terdapat tanda titik sehingga sistem membaca kalimat berikutnya adalah satu kalimat baru dan menyebabkan kalimat tersebut bernilai 0. Kalimat yang tidak memiliki kemiripan dengan kalimat lainnya dapat dilihat pada Tabel2 berikut ini:

22 12 Dokumen Tabel 2 Dokumen yang memiliki kalimat yang bernilai 0 Kalimat 3.txt apakah point, polygon, atau line 6.txt Comingtogetherisabeginning, stayingtogetherisprocessand, workingtogetherissuccess 19.txt direktori-direktori tersebut adalah /home/ilos/.config, /home/ilos/.gconf, /home/ilos/.gconfd, /home/ilos/.gnome2 43.txt crebrisculpta (Dharma 1988) 48.txt (marcus et al 2004) 51.txt hal ini dilakukan untuk mempermudah dalam pemrosesan selanjutnya 59.txt s-p-o-pel-k 80.txt semakin besar coverage-nya, maka semakin besar representasi mikroorganismenya 88.txt unit-unit ini disebut sebagai token 93.txt (jain 2009) Kalimat yang Mengandung Entitas ( f 3 ) Kalimat yang mengandung entitas memiliki nilai rata-rata dengan ratarata terendah pada dokumen 21.txt dan 67.txt, sedangkan rata-rata tertinggi sebesar pada dokumen 54.txt dengan jumlah kalimat yang mengandung entitas sebanyak 54 kalimat. Berdasarkan hasil pengamatan nilai rata-rata dokumen tersebut merupakan nilai pencilan, apabila nilai tersebut dibuang tidak mempengaruhi nilai rata-rata. Selain itu banyaknya jumlah kalimat yang mengandung entitas mempengaruhi munculnya nilai pencilan tersebut. Kalimat yang Mengandung Data Numerik ( f 4 ) Kalimat yang mengandung data numerik memiliki rata-rata 0.05 dengan ratarata terendah pada dokumen 3.txt dan 5.txt dan tertinggi 0.13 pada dokumen 40.txt. Dari hasil pengamatan walaupun dokumen 3.txt dan 5.tx merupakan nilai terendah, namun jumlah kalimat yang mengandung data numerik berbeda. Untuk dokumen 3.txt ada 8 kalimat yang mengandung data numerik sedangkan dokumen 5.txt memiliki 5 kalimat yang mengandung data numerik. Panjang kalimat dan jumlah data numerik dalam kalimat juga mempengaruhi nilai kalimat. Pada dokumen 75.txt merupakan dokumen yang memiliki nilai tertinggi yaitu sebesar 2, karena data numerik dalam kalimat berjumlah 8 sedangkan panjang kalimat 4. Hal tersebut terjadi karena kalimat data numerik ada dalam satu kata yang dipisahkan oleh huruf yaitu: nilai hash yang didapatkan yaitu cac a92c4d6af3b5da44.

23 13 Kalimat yang Menyerupai Judul Dokumen ( f 5 ) Dari hasil pengamatan nilai rata-rata untuk kalimat yang menyerupai judul adalah 0.26 dengan rata-rata terendah 0.01 pada dokumen 76.txt dan tertinggi 0.58 pada dokumen 97.txt. Nilai terendah 0.50 pada dokumen 99.txt dan tertinggi 1 pada 10 dokumen. Ada 48 dokumen yang memiliki rata-rata di atas Banyaknya jumlah kata yang muncul dalam satu kalimat menghasilkan nilai kalimatnya tinggi. Panjang Kalimat ( f 6 ) Dari hasil pengamatan nilai rata-rata sebesar 0.06 dengan rata-rata terendah 0.03 pada dokumen 9.txt dan tertinggi 0.10 pada dokumen 64.txt. Dengan nilai ratarata panjang kalimat terendah 0.08 pada dokumen 48.txt dan tertinggi 0.38 pada dokumen 41.txt. Walaupun jumlah panjang kalimat dalam suatu kalimat pada dokumen yang berdeda adalah sama, apabila jumlah kata uniknya besar maka nilai kalimat kecil. Seleksi Kalimat Untuk menyeleksi kalimat yang terambil sebagai ringkasan menggunakan perhitungan regresi logistik biner. Nilai regresi logistik biner diperoleh dari nilainilai fitur kalimat. Nilai yang dihasilkan yaitu g = ( ) + ( f 1a ) + ( f 1b ) +( f 1c ) + ( f 1d ) + ( f 2 ) + ( f 3 ) + ( f 4 ) + ( f 5 ) + ( f 6 ). Dari persamaan tersebut akan menghasilkan nilai bobot masing-masing kalimat. Bobot kalimat tersebut diurutkan dari yang terbesar dengan ketentuan bobot kalimat yang lebih besar sama dengan 0.50 akan terambil sebagai kalimat ringkasan. Bobot kalimat yang telah terurut akan diseleksi menggunakan CR 30%, 20% dan 10% untuk dijadikan ringkasan. Pada ringkasan sistem, kalimat dengan bobot di bawah 0.50 terambil sebagai ringkasan pada CR 30% karena jumlah kalimat dengan bobot lebih dari 0.50 kurang dari jumlah kalimat yang dibutuhkan untuk dijadikan ringkasan. selain itu judul dokumen juga terambil sebagai ringkasan yang muncul pada kalimat terakhir ringkasan tersebut. Padahal di dalam penghitungan fitur kalimat, judul dokumen tidak termasuk dalam banyaknya jumlah kalimat. Evaluasi Proses evaluasi ini bertujuan untuk membandingkan ringkasan manual dengan hasil ringkasan sistem. Dari hasil pengamatan pada CR 10% diperoleh kalimat yang sama sebanyak 1 kalimat untuk nilai terendah yang terdapat pada dokumen 17.txt dan tertinggi pada 66.txt dengan kalimat yang sama 18 kalimat. Untuk CR 20% diperoleh kalimat yang sama sebanyak 3 kalimat untuk nilai terendah yang terdapat pada dokumen 17.txt dan tertinggi pada dokumen 86.txt sebanyak 32 kalimat yang sama. Sedangkan untuk CR 30% diperoleh kalimat yang sama sebanyak 6 kalimat pada dokumen 17.txt dan tertinggi sebanyak 46 kalimat yang sama pada dokumen 70.txt. Untuk melakukan evaluasi digunakan perhitungan precision, recall, f-measure dan akurasi.

24 14 Evaluasi dengan menggunakan precision dapat dilihat pada Gambar 4. Dari hasil pengamatan rata-rata perhitungan pada CR 10% yaitu sebesar 60.99% dengan nilai terendah 7.69% pada dokumen 17.txt dan tertinggi 100% pada dokumen 69.txt. Untuk CR 20% rata-rata sebesar 54.62% dengan nilai terendah 11.54% pada dokumen 17.txt dan tertinggi 85.71% pada dokumen 88.txt. Sedangkan CR 30% ratarata sebesar 52.02% dengan nilai terendah 15.22% pada dokumen 9.txt dan tertinggi 90.48% pada dokumen 88.txt. Selain itu juga menghasilkan nilai rata-rata fp pada CR 10% sebesar 5.49, CR 20% sebesar dan CR 30% sebesar Dari hasil tersebut didapatkan bahwa semakin tinggi kompresi ringkasan maka semakin tinggi jumlah kalimat di sistem yang tidak terambil dalam ringkasan manual. Dapat disimpulkan bahwa semakin tinggi kompresi ringkasan dan nilai fp maka semakin kecil nilai precision yang dihasilkan. Gambar 4 Grafik nilai rata-rata precision Dengan menggunakan recall didapatkan rata-rata perhitungan untuk CR 10% yaitu sebesar 16.02% dengan nilai terendah 5.00% pada dokumen 17.txt dan tertinggi 32.14% pada dokumen 19.txt, CR 20% sebesar 28.94% dengan nilai terendah 15.11% pada dokumen 51.txt dan tertinggi 48.65% pada dokumen 3.txt, sedangkan CR 30% sebesar 41.16% dengan nilai terendah 23.68% pada dokumen 14.txt dan tertinggi 62.16% pada dokumen 57.txt dapat dilihat pada Gambar 5. Dari hasil pengamatan pada CR 10% didapatkan nilai rata-rata fn sebesar 41.56, CR 20% sebesar dan CR 30% sebesar Hasil tersebut menunjukkan bahwa semakin tinggi kompresi ringkasan dan nilai fn rendah maka semakin tinggi kalimat ringkasan manual yang muncul pada sistem. Hal ini terjadi karena jumlah kalimat ringkasan manual lebih banyak dibanding dengan ringkasan sistem. Selanjutnya perhitungan dengan f-measure dengan memperhatikan nilai recall dan precision. Pada penelitian ini nilai precision mengalami penurunan dari kompresi ringkasan CR 10% sebesar 6.37% terhadap CR 20% dan 8.97% terhadap CR 30%. Namun mengalami kenaikan sebesar 12% terhadap CR 20% dan 25.16% terhadap CR 30% pada nilai recall. Dihasilkan nilai rata-rata perhitungan untuk CR 10% yaitu sebesar 25.06% dengan nilai terendah 6.06% pada dokumen 17.txt dan tertinggi 40.91% pada dokumen 60.txt. Untuk CR 20% sebesar 37.39% dengan ni-

25 15 lai terendah 13.04% pada dokumen 17.txt dan tertinggi 59.02% pada dokumen 3.txt. Sedangkan CR 30% sebesar 45.42% dengan nilai terendah 20.34% pada dokumen 17.txt dan tertinggi 67.65% pada dokumen 57.txt yang dapat dilihat pada Gambar 6. Sehingga dapat disimpulkan bahwa tingginya kompresi ringkasan, tingginya nilai precision dan rendahnya nilai recall menghasilkan tingginya nilai f-measure. Gambar 5 Grafik nilai rata-rata recall Gambar 6 Grafik nilai rata-rata f-measure Selain itu untuk perhitungan akurasi didapatkan hasil rata-rata untuk CR 10% yaitu sebesar 64.18% dengan nilai terendah 50.60% pada dokumen 73.txt dan tertinggi 87.01% pada dokumen 9.txt, CR 20% sebesar 63.93% dengan nilai terendah 47.06% pada dokumen 51.txt dan tertinggi 78.99% pada dokumen 3.txt, dan CR 30% sebesar 63.32% dengan nilai terendah 50% pada dokumen 5.txt serta 51.txt dan tertinggi 78.64% pada dokumen 57.txt dapat dilihat pada Gambar 7. Hasil tersebut menunjukkan bahwa akurasi tertinggi didapatkan pada CR 10%, hal ini terjadi karena semakin sedikit hasil ringkasan maka peluang kalimat terambil sebagai ringkasan semakin tinggi. Dari hasil pengamatan pada CR 10% hanya ada 37% dokumen yang akurasinya tinggi dibanding dengan akurasi pada CR 20% dan

26 CR 30%. Tidak dapat disimpulkan bahwa ringkasan tidak cukup baik, karena 63% dokumen yang bernilai rendah memiliki nilai akurasi di atas 50%. Hal ini berarti bahwa 63% dokumen lainnya sudah dapat merepresentasikan isi dokumen. Gambar 7 Grafik nilai rata-rata akurasi SIMPULAN DAN SARAN Simpulan Pembobotan kalimat menggunakan pembobotan fitur kalimat menghasilkan nilai rata-rata tertinggi untuk precision pada CR 10% sebesar 60.99%, recall pada CR 30% sebesar 41.16%, f-measure pada CR 30% sebesar 45.42%, dan akurasi pada CR 10% sebesar 64.18%. Berdasarkan hasil tersebut dapat disimpulkan bahwa hasil peringkasan dokumen menggunakan pembobotan fitur kalimat menunjukkan nilai akurasi yang cukup baik untuk dokumen yang panjang seperti skripsi karena untuk membuat ringkasannya tidak mudah dan memerlukan waktu untuk memahaminya. Saran Pada penelitian selanjutnya disarankan untuk menambahkan aturan pembacaan tanda titik (.) pada kalimat yang mengandung sumber rujukan agar kalimat sesudah tanda titik (.) tersebut tidak dibaca sebagai kalimat baru, serta menambahkan aturan pembacaan kalimat yang setelah tanda titik(.) tidak ada spasi padahal kalimat tersebut merupakan kalimat baru.

27 17 DAFTAR PUSTAKA Aristoteles, Herdiyeni Y, Ridha A, Adisantoso J Text feature weighting for summarization of documents in bahasa Indonesia using Genetic Algorithm. IJCSI. 9(1): 1 6. Fattah MA, Ren F Automatic text summarization. International Journal of Computer, Electrical, Automation, Control and Information Engineering. 2(1): Hosmer DW, Lemeshow S Applied Logistic Regression. Ed ke-2. Canada (CA): A Wiley-Interscience Publ. Jezek K, Steiberger J Automatic text summarization (the state of the art 2007 and new challenges). Di dalam: Znalosti 2008; Bratislave, Feb hlm Kogilavani A, Balasubramani P Clustering and feature specific sentence extraction based summarization of multiple documents. IJCSIT. 2(4): Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. Cambridge (GB): Cambridge University Press. Marlina M Sistem peringkasan dokumen berita bahasa Indonesia menggunakan metode Regresi Logistik Biner [skripsi]. Bogor (ID): Institut Pertanian Bogor. Power DMW Evaluation: from precision, recall and f-measure to ROC, informedness, markedness & correlation. Journal of Machine Learning Technologies. 2(1): Turney PD, Pantel P From frequency to meaning: Vector Space Models of Semantics. Journal of Artificial Intelligence Research. 37(5): Wijakso B Klasifikasi jurnal ilmiah berbahasa Inggris berdasarkan abstrak menggunakan Algoritma ID3 [skripsi]. Malang (ID): Universitas Brawijaya. Xie S, Liu Y Using corpus and knowledge based Similarity Measure in Maximum Marginal Relevance for meeting summarization. ICASSP Zaman B, Winarko E Analisa fitur kalimat untuk peringkas teks otomatis pada bahasa Indonesia. IJCCS. 5(2):

28 18 RIWAYAT HIDUP Penulis dilahirkan di Panyakalan pada tanggal 11 November 1988 dari ayah Syafrizal dan ibu Roslidawati. Penulis adalah anak kedua dari empat bersaudara. Tahun 2007 penulis lulus SMA Negeri 1 Solok dan pada tahun yang sama penulis lulus seleksi masuk Politeknik Universitas Andalas, Jurusan Teknologi Informasi, Program Studi Manajemen Informatika. Tahun 2013 penulis melanjutkan pendidikan tingkat sarjana pada program Ekstensi Departemen Ilmu Komputer IPB angkatan ke-8.

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks 4 2 TINJAUAN PUSTAKA 2.1 Peringkasan Teks Peringkasan teks adalah proses pemampatan teks sumber ke dalam versi lebih pendek namun tetap mempertahankan informasi yang terkandung didalamnya (Barzilay & Elhadad

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN LOGIKA FUZZY R. AHMAD SOMADI GERBAWANI

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN LOGIKA FUZZY R. AHMAD SOMADI GERBAWANI PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN LOGIKA FUZZY R. AHMAD SOMADI GERBAWANI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Matematika dan Ilmu Pengetahuan

Lebih terperinci

SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA MENGGUNAKAN METODE REGRESI LOGISTIK BINER MERI MARLINA

SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA MENGGUNAKAN METODE REGRESI LOGISTIK BINER MERI MARLINA SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA MENGGUNAKAN METODE REGRESI LOGISTIK BINER MERI MARLINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI LUH GEDE PUTRI SUARDANI NIM. 1208605018 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES

PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES PEMBOBOTAN FITUR PADA PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITME GENETIKA ARISTOTELES SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2011 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Membaca adalah salah satu aktifitas yang dilakukan oleh seseorang untuk mendapatkan intisari dari sebuah teks, misalnya teks berita. Untuk mendapatkan intisari dari

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika 1 Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika Zulkifli 1, Agung Toto Wibowo 2, Gia Septiana 3 123 Fakultas Informatika, Universitas Telkom, Bandung,

Lebih terperinci

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6481 1 Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika Zulkifli 1, Agung Toto

Lebih terperinci

BAB 1 PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE TESIS PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE PERIANTU MARHENDRI SABUNA No. Mhs.: 155302367/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

@UKDW BAB 1 PENDAHULUAN Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pada saat ini, sangatlah mudah untuk mendapatkan informasi, baik melalui media cetak maupun media elektronik. Akan tetapi, banyaknya informasi yang ada belum tentu

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM Jurnal Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta untuk

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) DAN K-MEAN CLUSTERING TUGAS AKHIR Diajukan Sebagai Salah

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA Prawidya Destarianto 1, Wahyu Kurnia Dewanto 2, Hermawan Arief Putranto 3 1,2,3 Jurusan, Teknologi

Lebih terperinci

Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem

Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem Manajemen Surat Ahmad Najibullah 1, Wang Mingyan 2 1,2 Fakultas Teknologi Informasi, Universitas Nanchang, Nanchang, Republik Rakyat Tiongkok E-mail:

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III BAB 3 METODE PENELITIAN 3.1. Tahap pengumpulan data Data awal dalam penelitian ini adalah dokumen berupa artikel teks berita online dalam bahasa Indonesia yang dikumpulkan secara acak dari portal

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II BAB 2 TINJAUAN PUSTAKA 2.1. Related research Penelitian yang dilakukan oleh Abdel Fatah dan Fuji Ren membahas beberapa bentuk model pembobotan pada fitur teks pada peringkasan teks yaitu mathematical

Lebih terperinci

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah Metode Latent Semantic Analysis dan Algoritma Weighted Tree Similarity untuk Pencarian berbasis b Semantik oleh : Umi Sa adah 5109201030 Pembimbing : Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.D Umi Laili

Lebih terperinci

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Vol 2, No 3 Juni 2012 ISSN 2088-2130 PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Devie Rosa Anamisa 1), Eka Mala Sari Rochman 2) 1,2 Teknik Informatika, Fakultas

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

Oleh: ARIF DARMAWAN NIM

Oleh: ARIF DARMAWAN NIM APLIKASI PENGKLASIFIKASIAN DOKUMEN INFO PADA TWITTER MENGGUNAKAN ALGORITMA NAIVE BAYES TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

... BAB 2 LANDASAN TEORI. 2.1 Citra

... BAB 2 LANDASAN TEORI. 2.1 Citra 6 BAB 2 LANDASAN TEORI 2.1 Citra Citra atau image adalah suatu matriks dimana indeks baris dan kolomnya menyatakan suatu titik pada citra tersebut dan elemen matriksnya (yang disebut sebagai elemen gambar

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH

PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH PERBANDINGAN KINERJA ALGORITME TEXTRANK DENGAN ALGORITME LEXRANK PADA PERINGKASAN DOKUMEN BAHASA INDONESIA YUZAR MARSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik

Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 11, November 2017, hlm. 1198-1203 http://j-ptiik.ub.ac.id Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Santun Irawan 1, Hermawan 2 1,2 STMIK GI MDP 1,2 Magister Teknik Informatika Universitas

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

Analisis dan Implementasi Short Text Similarity dengan Metode Latent Semantic Analysis Untuk Mengetahui Kesamaan Ayat al-quran

Analisis dan Implementasi Short Text Similarity dengan Metode Latent Semantic Analysis Untuk Mengetahui Kesamaan Ayat al-quran Analisis dan Implementasi Short Text Similarity dengan Metode Latent Semantic Analysis Untuk Mengetahui Kesamaan Ayat al-quran Short Text Similarity Analysis and Implementation with Latent Semantic Analysis

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI Aulia Essra (1), Rahmadani (2), Safriadi (3) Magister Teknik Informatika, Universitas Sumatera Utara Jl. Universitas No.24A

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 2, Februari 2018, hlm. 486-492 http://j-ptiik.ub.ac.id Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci