PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID

Ukuran: px
Mulai penontonan dengan halaman:

Download "PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID"

Transkripsi

1 PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K-Means adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Desember 2015 Muhammad Rheza Muztahid NIM G

4 ABSTRAK MUHAMMAD RHEZA MUZTAHID. Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K-Means. Dibimbing oleh JULIO ADISANTOSO. Membaca dokumen yang memiliki teks yang sangat panjang merupakan kegiatan yang menghabiskan banyak waktu. Perlu dilakukan peringkasan terhadap dokumen teks yang besar agar meringankan beban pengguna untuk tidak membaca dokumen secara keseluruhan. Penelitian ini mengusulkan untuk pembuatan peringkasan dokumen otomatis menggunakan fitur kata dan metode K- Means. Ringkasan dokumen otomatis dapat digunakan untuk mendapatkan ringkasan teks dengan cepat sehingga memudahkan pengguna untuk mendapatkan informasi utama dari sebuah dokumen. Penelitian ini melakukan peringkasan dokumen dengan menggunakan fitur kata dan metode k-means. Hasil penelitian yang telah dilakukan menghasilkan rata-rata akurasi 58.51%, recall 22.06%, precision 43.84%, dan f-measure 27.88%. Kata kunci: fitur kata, k-means, peringkasan dokumen ABSTRACT MUHAMMAD RHEZA MUZTAHID. Text Summarization For Indonesian Language Using K-Means Method. Supervised by JULIO ADISANTOSO. Reading a document with very long text is a time-consuming activity. Therefore, it is necessary to summarize the documents in order to ease the burden on the reader to not read the whole document. This research proposes automatic text summarization using word features and K-Means method. Automatic text summary can be used to get a quick summary of the text by making it easier for readers to get key information from a document. The result of this research produces average accuracy 58.51%, recall 22.06%, precision 43.88%, and F- measure 27.88%. Keywords: k-means, text summarization, word features

5 PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

6 Penguji: 1 Ahmad Ridha, SKom, MS 2 Husnul Khotimah, SKomp, MKom

7 Judul Skripsi : Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K- Means Nama : Muhammad Rheza Muztahid NIM : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi, MKom Ketua Departemen Tanggal Lulus:

8

9 PRAKATA Puji syukur penulis panjatkan kehadirat Allah SWT yang telah memberikan rahmat dan hidayah-nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode K- Means. Skripsi ini disusun sebagai syarat mendapat gelar Sarjana Komputer (SKomp) pada Program Sarjana Ilmu Komputer di Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor (IPB). Penulis mengucapkan terima kasih kepada Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing skripsi yang telah memberikan saran, arahan, serta dukungannya selama penelitian ini. Ungkapan terima kasih juga penulis sampaikan kepada orang tua tercinta, ibunda Milwani Syam, ayahanda Husen Sadim, abang Muhammad Aidil Fahmy, dan adik Muhammad Fazri Nahar, atas segala doa, kasih sayang, dukungan semangat, serta motivasi kepada penulis untuk kelancaran penelitian ini. Tak lupa juga penulis ucapkan terima kasih kepada teman-teman satu bimbingan, Lutfia dan Yozi, atas bantuan dan kerjasamanya dalam melakukan penelitian ini, serta kepada teman-teman Ekstensi Ilmu Komputer angkatan 8, atas kebersamaannya selama menjalani masa studi. Semoga skripsi ini dapat memberikan kontribusi yang bermakna bagi pengembangan wawasan para pembaca, khususnya mahasiswa dan masyarakat pada umumnya. Semoga karya ilmiah ini bermanfaat. Bogor, Desember 2015 Muhammad Rheza Muztahid

10

11 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 3 Ruang Lingkup Penelitian 3 METODE 3 Pengumpulan Dokumen 3 Pengindeksan 4 Peringkasan Teks 5 Evaluasi 9 Lingkungan Pengembangan 9 HASIL DAN PEMBAHASAN 10 Pengumpulan Dokumen 10 Pengindeksan 10 Peringkasan Teks 13 Evaluasi Hasil Ringkasan 17 SIMPULAN DAN SARAN 24 Simpulan 24 Saran 24 DAFTAR PUSTAKA 24 LAMPIRAN 26 RIWAYAT HIDUP 32

12 DAFTAR TABEL 1 Matriks TFISF 7 2 Pendukung untuk menghitung recall, precision, f-measure, dan akurasi 9 3 Record kata 12 4 Sebaran nilai IDF 13 5 Matriks hasil TFISF dokumen ke Hasil clustering dokumen ke Hasil ringkasan dengan tingkat peringkasan 30% 18 8 Hasil ringkasan dengan tingkat peringkasan 20% 18 9 Hasil ringkasan dengan tingkat peringkasan 10% Suatu percobaan hasil peringkasan dokumen Suatu percobaan hasil peringkasan dokumen Percobaan hasil peringkasan dokumen 9 dengan fitur kata baru 22 DAFTAR GAMBAR 1 Diagram alur peringkasan teks otomatis 4 2 Skema pemisahan kalimat dan case folding 6 3 Algoritma K-Means 8 4 Proses seleksi kalimat 8 5 Statistik kalimat 100 dokumen 11 6 Perbandingan nilai akurasi peringkasan otomatis 19 7 Perbandingan nilai recall peringkasan otomatis 19 8 Perbandingan nilai precision peringkasan otomatis 20 9 Perbandingan nilai f-measure peringkasan otomatis Perbandingan keseluruhan hasil ringkasan Dokumen 10.txt yang mengalami perubahan akurasi berlawanan 23

13 1 PENDAHULUAN Latar Belakang Peningkatan teknologi informasi yang begitu pesat telah membuat terjadinya peningkatan dokumen teks digital secara besar-besaran. Riset yang dilakukan MGI (2011) menerangkan bahwa pada tahun 2010 ada 5 milyar pengguna mobile phone, 300 milyar potongan konten yang dibagikan di facebook setiap bulannya, lebih dari 7 exabyte data baru yang disimpan oleh perusahaan global, sementara konsumen menyimpan lebih dari 6 exabyte data baru pada perangkat seperti Personal computer (PC) dan notebook. Data yang mengandung informasi tersebut tersebar dalam bentuk dokumen teks seperti artikel, berita, buku, makalah ilmiah, dan lain-lain. Dokumen yang banyak ini juga memiliki teks yang sangat panjang dan menyebabkan isi dokumen sulit dimengerti dengan cepat. Mencari informasi utama dari dokumen yang besar adalah pekerjaan yang sangat sulit. Perlu dilakukan peringkasan terhadap dokumen teks tersebut agar dapat dengan cepat menghasilkan informasi bagi pengguna. Fungsi ringkasan ini adalah untuk membantu pengguna mendapatkan informasi yang relevan dengan cepat tanpa harus membaca dokumen secara keseluruhan. Agrawal et al. (2014) menerangkan bahwa peringkasan teks adalah suatu proses untuk menciptakan versi kompresi dari teks tertentu yang menyediakan informasi yang berguna bagi pengguna. Ringkasan dokumen dapat menghasilkan informasi inti dokumen secara singkat namun memenuhi keperluan pembaca. Teknik untuk peringkasan dokumen dapat diklasifikasikan ke dalam dua kategori: ekstraksi dan abstraksi (Suanmali et al. 2009). Suanmali et al. (2009) menerangkan bahwa peringkasan dengan teknik ekstraksi adalah menyeleksi kalimat atau frasa dari teks asli dengan menghitung skor tertinggi dan menggabungkannya menjadi suatu teks pendek baru atau ringkasan tanpa mengubah teks sumber, sedangkan teknik abstraksi menggunakan metode linguistik untuk memeriksa dan menafsirkan teks. Keuntungan menggunakan teknik ekstraksi adalah mudah untuk diterapkan dan didasarkan pada fitur-fitur statistik bukan pada hubungan semantik dalam memilih kalimat penting atau kata kunci dari dokumen. Akan tetapi, kekurangan teknik ekstraksi yaitu cenderung tidak konsisten dan informasi yang saling bertentangan tidak dapat disajikan secara akurat. Sementara itu, keuntungan dari teknik abstraksi yaitu menghasilkan rasio kompresi yang baik, serta mendapatkan ringkasan yang lebih akurat karena menggunakan hubungan semantik. Akan tetapi, teknik abstraksi lebih sulit diterapkan karena membutuhkan pemahaman teks asli (Munot dan Govilkar 2014). Selain teknik ekstraksi dan abstraksi, terdapat pendekatan lain yaitu berdasarkan mesin pembelajaran. Pada umumnya terdapat dua jenis algoritme pembelajaran yaitu supervised learning algorithms dan unsupervised learning algorithms (Wajeed dan Adilakshmi 2009). Menurut Wajeed dan Adilakshmi (2012) supervised learning merupakan algoritme yang menyediakan data latih yang dapat disebut sebagai label kelas atau atribut keputusan, sedangkan

14 2 unsupervised learning tidak memiliki data latih. Pada umumnya proses peringkasan dokumen otomatis terdiri atas beberapa tahapan yaitu pengumpulan dokumen, pengindeksan, pemilihan fitur, pembobotan kalimat dan pengujian. Hal yang paling penting dalam peringkasan dokumen otomatis adalah tahap pembobotan kalimat. Tahapan inilah yang menentukan kalimat-kalimat mana saja yang dipilih dan dimasukkan ke dalam hasil peringkasan. Kebanyakan sistem peringkasan teks otomatis dilakukan dengan teknik ekstraksi. Suanmali et al. (2009) melakukan ekstraksi kalimat penting menggunakan aturan fuzzy dan fuzzy set untuk pembobotan kalimat berdasarkan pada 8 fitur yaitu judul, panjang kalimat, bobot kata, posisi kalimat, kesamaan kalimat, kata tematik, dan kata benda yang tepat. menghasilkan rata-rata precision sebesar 49.77%, recall 45.70%, dan f-measure 47.18%. Mustaqhfiri (2011) menggunakan metode Maximum Marginal Relevance (MMR) untuk pembobotan kalimat yang menghasilkan rata-rata recall 60%, precision 76% dan f-measure 65% dari evaluasi antara ringkasan otomatis dengan ringkasan manual. Penelitian yang sudah sering dilakukan umumnya digunakan untuk dokumen yang pendek seperti dokumen artikel dan berita, sedangkan untuk dokumen yang panjang seperti dokumen karya ilmiah yang terdiri atas beberapa bab belum terlalu banyak dilakukan. Oleh karena itu, penelitian yang akan dilakukan adalah membuat peringkasan dokumen otomatis untuk dokumen karya ilmiah, yaitu skripsi, dengan menggunakan teknik ekstraksi dengan menggunakan metode K-Means sebagai pembobotan kalimat. Hal ini karena K-Means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien (Arai dan Barakbah 2007). Perumusan Masalah Perumusan masalah dalam penelitian ini yaitu: 1 Bagaimana metode pembobotan kalimat berdasarkan fitur kata untuk keperluan peringkasan teks? 2 Apakah metode K-Means tepat digunakan dalam peringkasan teks? 3 Bagaimana implementasi metode K-Means untuk peringkasan dokumen skripsi? Tujuan Penelitian Tujuan dari penelitian ini antara lain: 1 Mengembangkan peringkasan dokumen otomatis menggunakan pembobotan kalimat berdasarkan fitur kata. 2 Menganalisis ketepatan penggunaan metode K-Means dengan pembobotan kalimat dalam peringkasan dokumen otomatis. 3 Mengimplementasikan metode K-Means untuk peringkasan dokumen skripsi.

15 3 Manfaat Penelitian Penelitian ini diharapkan aplikasi yang dibangun dapat menghasilkan metode peringkasan yang efektif dan memiliki kinerja yang baik. Ruang Lingkup Penelitian Adapun ruang lingkup dari penelitian ini antara lain: 1 Penelitian ini menggunakan dokumen skripsi Ilmu Komputer berbahasa Indonesia. 2 Pembobotan kalimat dilakukan berdasarkan fitur kata dan dengan menggunakan metode Term Frequency-Inverse Sentence Frequency. 3 Pemilihan fitur kata dilakukan dengan menggunakan metode Inverse Document Frequency. 4 Peneliti menggunakan metode K-Means untuk pengelompokan kalimat. 5 Penelitian ini dilakukan dengan menggunakan tingkat peringkasan 30%, 20%, dan 10%. 6 Evaluasi dilakukan dengan membandingkan hasil ringkasan manual dan hasil ringkasan sistem menggunakan teknik F-Measure. METODE Penelitian ini dilakukan dengan beberapa tahap yaitu tahap pengumpulan dokumen, tahap pengindeksan, proses peringkasan, dan evaluasi. Diagram alur proses dapat dilihat pada Gambar 1. Pengumpulan Dokumen Dokumen yang digunakan dalam penelitian ini adalah 100 dokumen yang diambil dari repository.ipb.ac.id. Setiap dokumen akan dibuat ringkasan manualnya dan juga dibuat ringkasan menggunakan sistem peringkasan otomatis. kedua hasil ringkasan akan dibandingkan guna mengukur seberapa akurat sistem peringkasan otomatis yang dibuat. Kumpulan dokumen yang didapat dari repository.ipb.ac.id adalah merupakan dokumen dengan format PDF. setiap dokumen akan diubah secara manual menjadi bentuk format TXT. Beberapa aturan yang digunakan pada tahap ini adalah: 1 Tidak melibatkan tabel, gambar, persamaan, algoritme beserta penjelasannya. 2 Bukan berupa list pendek, kecuali pada bagian kesimpulan dan saran. 3 Kutipan tidak dihilangkan. 4 Judul bab dan sub bab dihilangkan. 5 Catatan kaki dihilangkan. 6 Tinjauan pustaka dihilangkan.

16 4 Gambar 1 Diagram alur peringkasan teks otomatis Pengindeksan Pengindeksan terdiri atas dua tahap yaitu pemisahan kata dan pemilihan fitur kata. Pengindeksan sangatlah penting dilakukan karena pada tahap ini akan menghasilkan fitur kata untuk dijadikan bahan pembobotan kalimat. Pemisahan Kata Tahap pertama dalam pengindeksan yaitu memisahkan kata-kata dari teks dalam dokumen. Seluruh dokumen akan diproses untuk dijadikan kumpulan kata yang akan digunakan pada proses selanjutnya yaitu pemilihan fitur kata. Pemisahan kata dilakukan dengan menggunakan delimiter karakter white space pada setiap kalimat atau teks, dan juga dilakukan case folding untuk mengubah semua huruf pada setiap kata menjadi bentuk yang seragam. Pemilihan Fitur Kata Penelitian ini menggunakan fitur kata untuk mendapatkan bahan ringkasan. Pemilihan fitur kata merupakan proses untuk memilih kata-kata yang akan dijadikan

17 5 kata kunci untuk menentukan penting atau tidaknya sebuah kalimat. Untuk memilih kata kunci, seluruh kata harus memiliki bobot nilai dan diurutkan berdasarkan nilai bobot dari yang terbesar hingga terkecil. Terdapat beberapa cara pemilihan fitur kata antara lain yaitu Mutual Information (MI), Chi-Square (Chi-square (χ 2 ), dan Inverse Document Frequency (IDF) (Manning et al. 2008). MI dan Chi-square (χ 2 ) baik digunakan sebagai metode pemilihan fitur kata untuk klasifikasi teks, sedangkan metode IDF baik digunakan untuk peringkasan teks (Manning et al. 2008). Maka dari itu, penelitian ini menggunakan metode Inverse Document Frequency (IDF). Luthfiarta et al. (2013) menerangkan bahwa IDF adalah perhitungan logaritma pembagian jumlah dokumen dengan frekuensi dokumen yang memuat suatu term. Persamaan IDF sebagai berikut: IDF t = log( N DF t ) (1) dengan N adalah jumlah seluruh dokumen, DF t adalah jumlah dokumen yang mengandung kata t. Jika sebuah kata muncul di banyak dokumen, maka hasil dari IDF akan semakin kecil, begitu pula sebaliknya. Kata-kata yang sering muncul pada setiap dokumen biasanya adalah kata yang tidak penting. Beberapa contoh kata yang mungkin sering muncul di setiap dokumen ; di, ke, pada, dengan, lalu, dan lain sebagainya. Peringkasan Teks Proses peringkasan merupakan tahap inti dari penelitian ini, yang akan menghasilkan ringkasan sistem yang nantinya akan menjadi bahan pembanding dengan hasil ringkasan manual untuk dilakukan evaluasi. Proses peringkasan terdiri dari beberapa tahap yaitu parsing kalimat, pembobotan TF-ISF, pengelompokan kalimat dengan menggunakan metode K-Means, dan yang terakhir adalah menyeleksi kalimat dari setiap kelompok untuk dijadikan sebagai ringkasan. Pemisahan Kalimat Tahap pertama dalam proses peringkasan adalah memisahkan dokumen menjadi kumpulan kalimat. Kalimat adalah gabungan dari dua buah kata atau lebih yang menghasilkan suatu makna tertentu dan diakhiri dengan suatu tanda titik sebagai tanda berhenti. Kalimat dapat dipisah dengan memperhatikan beberapa tanda baca seperti titik (.), tanda seru (!), dan tanda tanya (?). Pemisahan kalimat berfungsi untuk mengumpulkan kalimat-kalimat yang terdapat pada dokumen. Pada proses ini juga dilakukan case folding untuk mengubah semua huruf di dalam dokumen ke dalam bentuk yang seragam. Pada penelitian ini semua kata diseragamkan dengan huruf kecil (lower case). Contoh pemisahan kalimat dan case folding dapat dilihat pada Gambar 2.

18 6 Gambar 2 Skema pemisahan kalimat dan case folding Pembobotan TF-ISF Pembobotan Term frequency inverse sentence frequency (TF-ISF) dilakukan setelah mendapatkan fitur kata yang akan digunakan. Pada Tahap ini juga nilai TFISF dari setiap kalimat akan dijumlahkan dan dijadikan sebagai nilai dari suatu kalimat yang nantinya akan digunakan pada tahap seleksi kalimat. Persamaan ISF dan TF-ISF dapat dilihat pada persamaan berikut: (Rino et al. 2004). ISF t = log( N SF t ) (2) T FISF t,s = T F t,s ISF t (3) dengan T F t,s adalah frekuensi kemunculan kata t pada kalimat s, N adalah banyaknya kalimat dalam dokumen, dan SF t adalah banyaknya kalimat yang mengandung kata t. Nilai T FISF t,s akan tinggi jika kata t muncul beberapa kali dalam kalimat dan jarang muncul pada kalimat lain, dan rendah jika kata t muncul hampir di seluruh kalimat (Manning et al. 2008). Bobot kata ke t pada kalimat ke s dalam peringkasan dokumen dapat dituliskan sebagai suatu matriks term-sentence seperti yang dapat dilihat pada Tabel 1. Clustering Kalimat dengan Metode K-Means Clustering adalah metode untuk mengatur koleksi data yang besar dengan partisi beberapa data set secara otomatis, sehingga objek yang memiliki kesamaan akan dikelompokkan ke dalam suatu kelompok yang berbeda dengan kelompok lainnya (Muflikhah dan Baharudin 2009). K-means adalah salah satu teknik clustering dengan tujuan membagi sejumlah objek ke dalam partisi-partisi dengan

19 7 Tabel 1 Matriks TFISF s 1 s 2 s 3... s n t 1 w 1,1 w 1,2 w 1,3... w 1,n t 2 w 2,1 w 2,2 w 2,3... w 2,n t 3 w 3,1 w 3,2 w 3,3... w 3,n t 4 w 4,1 w 4,2 w 4,3... w 4,n t 5 w 5,1 w 5,2 w 5,3... w 5,n t m w m,1 w m,2 w m,3... w m,n melihat titik tengah (centroid) yang diberikan (Wadhvani et al. 2013). Suatu objek data termasuk dalam suatu cluster jika memiliki jarak terpendek terhadap centroid cluster tersebut. Clustering yang dilakukan pada penelitian ini digunakan untuk mengelompokan kalimat. Kalimat yang berada pada satu kelas adalah kalimat yang memiliki makna yang sama, sehingga nantinya akan dilakukan seleksi kalimat dengan cara mengambil salah satu kalimat dari setiap cluster sebagai perwakilan akan makna tertentu. Secara umum algoritme K-Means dapat dilihat pada Gambar 3. Banyaknya cluster pada penelitian ini bergantung pada tingkat peringkasan dan jumlah kalimat pada dokumen yang akan diringkas. Pada penelitian ini terdapat 3 tingkat peringkasan yaitu 30%, 20%, dan 10%. Apabila jumlah kalimat pada dokumen yang akan diringkas sebanyak 150 kalimat, dengan tingkat peringkasan sebesar 10%, maka jumlah cluster adalah sebanyak 150 x 0.10 = 15 cluster. Penentuan centroid awal (initial centroid) dilakukan dengan cara mengambil data dari tabel matriks TFISF secara acak atau random. Pada pengulangan berikutnya, centroid dihitung dengan menghitung nilai rata-rata data pada setiap cluster. Jika centroid baru berbeda dengan centroid sebelumnya, maka proses dilanjutkan ke langkah berikutnya. Namun Jika centroid yang baru dihitung sama dengan centroid sebelumnya, maka proses clustering selesai. Rumus yang digunakan untuk menghitung jarak data dengan centroid adalah rumus euclidean distance. Adapun rumus euclidean distance dapat dilihat pada persamaan berikut; d(x i,c j ) = n (x ik c jk ) 2 (4) j=1 dengan d adalah jarak data dengan centroid, j adalah banyaknya data, k adalah dimensi, c adalah centroid, dan x adalah data. Pengelompokan data dilakukan dengan memilih data yang memiliki jarak terpendek dengan centroid. Seleksi Kalimat Seleksi kalimat adalah proses akhir untuk menghasilkan ringkasan. Kalimat yang berada pada satu cluster adalah kalimat yang memiliki makna yang sama.

20 8 Gambar 3 Algoritme K-Means Oleh karena itu, Seleksi kalimat dilakukan dengan cara mengambil satu kalimat dari setiap cluster yang dihasilkan dari algoritme K-Means. Seleksi kalimat dilakukan dengan cara mengurutkan kalimat dari nilai tertinggi hingga terendah yang didapat dari penjumlahan nilai TFISF. Pengurutan kalimat dilakukan pada setiap cluster, sehingga pada setiap cluster akan dipilih satu kalimat yang memiliki nilai tertinggi. Banyaknya kalimat hasil ringkasan adalah sebanyak jumlah cluster yang bergantung pada banyaknya kalimat pada dokumen yang akan diringkas dan besarnya tingkat peringkasan. Ilustrasinya dapat dilihat pada Gambar 4. Gambar 4 Proses seleksi kalimat

21 9 Evaluasi Peringkasan sistem dilakukan pada seluruh dokumen dengan tingkat peringkasan 30%, 20%, dan 10%. Ada beberapa teknik evaluasi untuk mengukur kualitas performa dari model clustering kalimat, diantaranya adalah information metrix, misclassification index, purity, F-Measure (Luthfiarta et al. 2013). Penelitian ini menggunakan teknik F-measure untuk mengukur kinerja model yang diusulkan. Pengukuran F-Measure berdasar pada nilai Precision dan Recall. Luthfiarta et al. (2013) menerangkan bahwa, semakin tinggi nilai Precision danrecall maka semakin tinggi pula tingat akurasinya. Recall adalah proporsi kalimat yang ditemukan kembali sebagai ringkasan, dan Precision adalah proporsi jumlah kalimat yang ditemukan dan dianggap relevan (Yang et al. 2014). Menurut Manning et al. (2008) untuk memudahkan melakukan perhitungan, maka digunakan tabel pendukung yang dapat dilihat pada Tabel 2. Tabel 2 Pendukung untuk menghitung recall, precision, f-measure, dan akurasi Relevant Retrieved tp fp Not Retrieved fn tn Non-Relevant Dari Tabel 2, nilai Recall, Precision, F-Measure, dan Akurasi dapat dihitung menggunakan rumus sebagai berikut: Recall = t p t p + f n (5) Precision = F Measure = Akurasi = t p t p + f p 2 Recall Precision Recall + Precision t p +tn t p + f p + f n +tn sedangkan t p (true positive) adalah jumlah kalimat relevan yang terambil, f p (false positive) adalah jumlah kalimat yang tidak relevan yang terambil, f n (false negative) adalah jumlah kalimat relevan yang tidak terambil, dan tn (true negative) adalah jumlah kalimat yang tidak relevan yang tidak terambil. Lingkungan Pengembangan Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini sebagai berikut: 1 Perangkat keras berupa komputer personal dengan spesifikasi sebagai berikut: Processor Core i7 vpro (6) (7) (8)

22 10 RAM 8GB Monitor LCD 14.0 HD SSD 250 GB 2 Perangkat lunak: Sistem Operasi Windows 8 Bahasa pemrograman PHP XAMPP v1.8.0 Sublime Text 3 digunakan sebagai editor kode program HASIL DAN PEMBAHASAN Pengumpulan Dokumen Kumpulan dokumen yang didapat dari repository.ipb.ac.id adalah merupakan skripsi mahasiswa Ilmu Komputer Institut Pertanian Bogor sebanyak 100 dokumen. Pengumpulan dokumen dilakukan dengan cara mengunduh secara acak tanpa memperhatikan indikator apapun. Keseluruhan dokumen tersebut digunakan sebagai data latih untuk menentukan fitur kata dan juga sebagai data uji untuk pengujian sistem peringkasan otomatis. Setelah didapat 100 dokumen, dilakukan konversi secara manual dengan cara melakukan copy-paste setiap kalimat pada dokumen PDF yang sesuai dengan aturan yang telah dibuat, ke dalam file berformat TXT. Dokumen yang digunakan pada penelitian ini dapat dilihat pada Lampiran 1. Proses pengumpulan dokumen ini memakan waktu yang cukup lama karena harus memeriksa setiap kalimat dan disesuaikan dengan aturan yang telah dibuat. Hasil konversi menghasilkan rata-rata 134 kalimat dalam setiap dokumen. Adapun perbandingan banyaknya kalimat setelah dan sebelum dilakukan konversi dapat dilihat pada Gambar 5. Gambar 5 Statistik kalimat 100 dokumen

23 11 Secara keseluruhan, rata-rata sebesar 34.33% dari isi dokumen adalah tinjauan pustaka dan kalimat yang menjelaskan tentang gambar, tabel, dan persamaan/rumus. Oleh karena itu, rata-rata hanya 65.67% dari isi dokumen yang diikutsertakan dalam proses konversi dokumen. Selain melakukan perubahan dokumen ke dalam bentuk TXT, juga dilakukan peringkasan manual yang nantinya akan digunakan sebagai bahan pembanding dengan hasil ringkasan sistem untuk melakukan evaluasi. Pada penelitian ini diasumsikan bahwa hasil ringkasan manual adalah baik. Pengindeksan Pengindeksan dilakukan dengan cara mengunggah satu persatu seluruh dokumen TXT ke dalam sistem. Sistem akan melakukan pemisahan kata serta menyimpan kata-kata yang terdapat pada setiap dokumen. kata yang telah disimpan akan digunakan untuk pembobotan kata dengan penghitungan IDF. Pemisahan Kata Pemisahan kata dilakukan dengan menggunakan delimiter karakter whitespace dan dijadikan ke dalam bentuk array. adapun potongan kode algoritme pemisahan kata yang digunakan pada penelitian ini sebagai berikut: 1. $filename =./DATA_UPLOAD.$path; 2. $content = strtolower(file_get_contents($filename)); 3. $wordarray = preg_split( /[^ a-z]/,$content, -1, PREG_SPLIT_NO_EMPTY); 4. $wordfrequencyarray = array_count_values($filteredarray); 5. arsort($wordfrequencyarray); Penelitian ini menggunakan fungsi array count values() pada bahasa pemrograman PHP untuk mendapatkan frekuensi kata dan memfilter kata agar tidak terjadi redudansi kata pada array yang telah didapat di setiap dokumen. Potongan kode di atas memisahkan kata pada dokumen dengan memperhatikan karakter huruf yang dipisahkan oleh whitespace. Sementara itu, untuk angka dan/atau karakter selain huruf, tidak akan dianggap sebagai kata. Setelah mendapatkan kumpulan kata pada dokumen, kumpulan kata tersebut disimpan ke dalam database. Pemisahan kata pada 100 dokumen dalam penelitian ini telah menghasilkan record sebanyak kata. Namun, record tersebut masih mencatat seluruh kata yang keluar pada setiap dokumen. Contoh kasus; kata adalah muncul di setiap dokumen yang artinya terdapat 100 record kata adalah. Pada record tersebut juga terdapat 4 kata yang hanya terdiri dari 2 karakter yaitu: et, al, id, dan ms. jika record dilakukan teknik distinct (menghilangkan duplikasi) berdasarkan kata juga tidak mengikut sertakan kata yang hanya terdiri dari 2 karakter, maka akan menghasilkan kata unik. Beberapa kata unik dapat dilihat pada Tabel 3.

24 12 Tabel 3 Record frekuensi kemunculan kata terhadap dokumen Kata Frekuensi adalah 100 dan 100 proses 96 metode 92 sistem 88 nilai 87 funsi 79 model 70 pengembangan 66 berbasis 61 format 57 evaluasi 53 fitur 48 komputer 46 system 39 user 38 query 25 relevan 25 sql 11 video 11 euclidean 4 zulkifli 1 xmlhttprequest 1 Pada Tabel 3 dapat dilihat bahwa ada kata yang memiliki makna yang sama sperti kata sistem dan system. Kata sistem muncul pada 88 dokumen, sedangkan kata system muncul pada 39 dokumen. Hal ini membuat bobot nilai kedua kata tersebut berbeda yang seharusnya dapat dijadikan 1 kata yang sama. Namun, pada penelitian ini kasus di atas tetap dijadikan 2 kata yang berbeda dan bobot yang berbeda karena sulitnya melakukan standarisasi kata dan bahkan mungkin merupakan suatu ungkapan atau obyek yang berbeda. Penelitian ini juga tidak menggunakan stemming dalam proses pemisahan kata karena proses stemming (proses untuk menemukan kata dasar dari sebuah kata) pada bahasa Indonesia lebih rumit/kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan kata dasar dari sebuah kata. Pemilihan Fitur Kata Pemilihan fitur kata didapat dengan menggunakan metode IDF. Pada penelitian ini, nilai IDF yang diambil sebagai fitur kata adalah nilai IDF yang terletak pada 0.1 IDF < 2.0. Hal ini bertujuan untuk mendapatkan fitur kata yang keluar lebih dari 10 dokumen dan tidak pada seluruh dokumen. Adapun nilai

25 13 IDF yang dihasilkan dapat dilihat pada Tabel 4. Tabel 4 Sebaran nilai IDF Frekuensi Jumlah Kata IDF Pada Tabel 4 terlihat bahwa dari kata, terdapat kata yang memiliki frekuensi kemunculan 1-13 dokumen. Apabila fitur kata yang digunakan memiliki frekuensi kemunculan yang kecil pada dokumen, maka peluang kemunculan kata tersebut pada suatu kalimat juga semakin kecil. Hal ini akan mengakibatkan peluang kalimat bernilai nol akan semakin besar sehingga sulit untuk melakukan pembobotan kalimat. Pada Tabel 4 dapat dilihat bahwa nilai IDF yang memenuhi persyaratan atau 0.1 IDF < 2.0 terdapat pada kata-kata dengan frekuensi kemunculan di antara 14 sampai dengan 90 dokumen. Dari kata unik dari seluruh dokumen, terpilih sebanyak 894 kata yang memiliki nilai IDF antara 0.1 IDF < 2.0. Peringkasan Teks Proses peringkasan otomatis dilakukan dengan cara mengunggah dokumen kedalam sistem. Sistem akan melakukan beberapa proses terhadap dokumen yang telah diunggah. Adapun proses yang akan dilakukan yaitu; pemisahan kalimat, pembobotan TF-ISF, clustering dengan menggunakan metode K-Means, dan proses terakhir adalah seleksi kalimat. Pemisahan Kalimat Pemisahan kalimat dilakukan dengan menggunakan beberapa indikator seperti titik (.), tanda seru (!), dan tanda tanya (?). kesulitan yang dihadapi adalah penggunaan tanda baca seperti titik (.) tidak hanya digunakan pada saat mengakhiri sebuah kalimat. Oleh karena itu, dilakukan perubahan karakter menggunakan fungsi PHP str replace() pada kasus-kasus tertentu seperti; 1 Tanda titik pada angka yang merupakan bilangan desimal. contoh akan diubah menjadi 25*67. 2 Pada penulisan et al. akan diubah menjadi et al*.

26 14 3 Pada penulisan yang memberikan informasi format dari sebuah file. seperti.txt,.pdf, data.sql, akan diubah menjadi *PDF yang nantinya akan diubah kembali menjadi tanda titik (.) untuk hasil peringkasan otomatis. contoh kasus: pada dokumen ke-10 kalimat ke-4: "Zang et al. (2001) telah menggunakan Support Vector Machine(SVM) untuk klasifikasi pada sistem temu kembali citra ciri warna." diubah menjadi: "Zang et al* (2001) telah menggunakan Support Vector Machine(SVM) untuk klasifikasi pada sistem temu kembali citra ciri warna." proses ini hanya untuk menemukan tanda titik pada akhir kalimat. Setelah itu, tanda * akan kembali diganti menjadi tanda. seperti: "Zang et al. (2001) telah menggunakan Support Vector Machine(SVM) untuk klasifikasi pada sistem temu kembali citra ciri warna." Pada dasarnya algoritme pemrograman yang dibuat akan memisahkan kalimat menggunakan tanda titik (.), tanda seru (!), dan tanda tanya (?) yang setelahnya diikuti dengan karakter white space kecuali pada kasus tertentu seperi penulisan et al.. Hal ini berguna untuk tidak memisahkan kata yang menjelaskan suatu istilah yang memberikan informasi tertentu seperti.pdf,.txt, menyatakan suatu url seperti dan lain sebagainya. Masalah dapat muncul apabila terdapat suatu kalimat yang diakhiri dengan indikator berhenti namun tidak disertai karakter white space, maka kalimat tidak akan terpisah hingga menemukan indikator yang disertai dengan white space. Hal ini akan terjadi apabila terdapat kesalahan penulis dalam menulis teks dokumen (human error). Namun, pada penelitian ini, dari 100 dokumen tidak terdapat kasus seperti yang dijelaskan diatas. Pembobotan TFISF Pembobotan TFISF dilakukan dengan menggunakan fitur kata yang telah didapat pada tahap pengindeksan. TFISF dilakukan untuk pembobotan kalimat pada masing-masing dokumen. Adapun potongan kode program untuk menentukan nilai TF sebagai berikut; 1. foreach($fiturkata->result() as $fit){ 2. $fitur_kata = " ".$fit->kata." "; 3. $SFkata[$fit->kata]= 0; 4. foreach($sentence->result() as $sen){ 5. $kalimat = $sen->kalimat; 6. $kalimat = str_replace(array("?", ".", "!", ","),, $kalimat); 7. $kalimat = " ".$kalimat." "; 8. $tf[$sen->id_kalimat_sementara][$fit->id] = substr_count($kalimat, $fitur_kata); 9. if($tf[$sen->id_kalimat_sementara][$fit->id]!=0){

27 $SFkata[$fit->kata] += 1; 11. } 12. } 13. } Pada baris ke-6 kode program di atas, jika terdapat kata yang diikuti dengan karakter tertentu, maka karakter tersebut akan dihilangkan guna memudahkan mencari kata yang sesuai dengan fitur kata pada kalimat. Pada baris ke-8 kode program menggunakan fungsi substr-count untuk menemukan kata pada kalimat yang sesuai dengan fitur kata. Masalah yang terjadi adalah fungsi tersebut juga mengikut sertakan kata yang bukan benar-benar sesuai dengan fitur kata. contoh kasus seperti fitur kata perlu akan terdeteksi muncul pada kalimat yang memiliki kata perluasan. Untuk mengatasi masalah tersebut, dilakukan penambahan white space pada awal dan akhir dari fitur kata seperti yang dilakukan pada baris ke-2 potongan kode program di atas. Hal ini berguna untuk menemukan fitur kata yang benar pada setiap kalimat. Oleh karena itu, fitur kata <spasi>perlu<spasi> tidak akan terdeteksi pada kata perluasan. Potongan kode program diatas berhasil menghasilkan penghitungan TF dengan cukup baik. Sementara itu, potongan program pembobotan TFISF sebagai berikut; 1. foreach($sentence->result() as $sen2){ 2. $TF = $tf[$sen2->id_kalimat_sementara][$fit2->id]; 3. $SF = $SFkata[$fit2->kata]; 4. if($tf == 0 $SF ==0){ 5. $TFISF = 0; 7. } 8. else{ 9. $BAG = $jum/$sf; 10. $ISF = log($bag,10); 11. $TFISF = $TF * $ISF; 12. echo "<td>".$tfisf."</td>"; 13. } 14. $total_kalimat[$sen2->id_kalimat_sementara] += $TFISF; 15. $ArrayKmeans[$sen2->id_kalimat_sementara][$BanyakKata]= $TFISF; 16. } Kode baris ke-9,10,dan 11 adalah kode program yang disesuaikan dengan rumus penghitungan TFISF seperti pada Persamaan 3. Pada kode baris ke-14 dilakukan penjumlahan nilai TFISF dari setiap kalimat dan dijadikan sebagai nilai dari suatu kalimat yang nantinya akan digunakan pada tahap seleksi kalimat. Adapun hasil matriks pembobotan TFISF pada dokumen ke-4 dapat dilihat pada Tabel 5. Pada penelitian ini pembobotan TFISF menghasilkan rata-rata matriks dengan dimensi 134 x 894, dan pada umumnya berbentuk sparse matriks karena banyak elemen yang bernilai nol. Hal ini disebabkan karena tidak setiap kata terdapat di

28 16 Tabel 5 Matriks hasil TFISF dokumen ke-4 Fitur Kata S1 S2... S72 S73... S119 acak acuan adanya adapun administrator agar akhir akses aktivitas akurasi TOTAL setiap kalimat, maka TFISF akan bernilai nol. Clustering Kalimat dengan Metode K-Means Banyaknya cluster pada penelitian ini bergantung pada tingkat peringkasan dan jumlah kalimat pada dokumen yang akan diringkas. adapun potongan kode program untuk menentukan banyaknya cluster sebagai berikut: 1. $BanyakCluster = ($BanyakKalimat * 30) / 100 ; 2. $BanyakCluster = floor($banyakcluster); Pada baris ke-2 digunakan fungsi floor untuk menghasilkan nilai bulat pada hasil penghitungan berdasarkan tingkat peringkasan. Misalnya; pada dokumen ke-10 terdapat 119 kalimat dengan tingkat peringkasan sebesar 30%, maka jumlah cluster adalah sebanyak 119 x 0.30 = 35,70 akan menjadi 35 cluster. Pada penelitian ini, penentuan centroid awal (initial centroid) dilakukan dengan cara mengambil data dari matriks TFISF secara acak atau random. Setelah itu, centroid berikutnya akan dilakukan penghitungan sesuai dengan Persamaan 4 sampai iterasi ke-n. Masalah yang ditemui adalah pada penghitungan dan iterasi yang dilakukan memakan waktu yang cukup lama dikarenakan besarnya dimensi matriks TFISF yang rata-rata berdimensi 134 x 894. Rata-rata membutuhkan waktu sekitar 10 detik untuk menyelesaikan clustering kalimat. Adapun hasil clustering pada dokumen ke-4 dengan tingkat peringkasan 30% dapat dilihat pada Tabel 6. Setiap cluster dapat memiliki minimal 1 kalimat dan maksimal banyak kalimat. Sebagai contoh pada Tabel 6, hasil dari cluster 31 (C31) pada dokumen ke-4 terdapat 4 kalimat yaitu: 1 dengan menggunakan time constraint 4 bulan, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 5 (5-sequence). [bobot = 6.35] 2 dengan menggunakan time constraint 2 bulan, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 8 (8-sequence). [bobot = 6.35]

29 17 3 dengan menggunakan time constraint 20 hari, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 2 (2-sequence). [bobot = 6.86] 4 dengan menggunakan time constraint 6 bulan, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 6 buah (6-sequence). [bobot = 8.43] Jika dilihat pada kalimat-kalimat tersebut, secara keseluruhan mambahas tentang time constraint. Oleh karena itu, proses clustering telah berhasil mengelompokkan kalimat yang memiliki makna yang hampir sama. Tabel 6 Hasil clustering dokumen ke-4 Cluster Jumlah Kalimat C1 3 C2 7 C C21 1 C22 3 C C31 4 C32 1 C33 2 C34 2 C35 1 Seleksi Kalimat Seleksi kalimat dilakukan dengan cara mengurutkan kalimat dari nilai tertinggi hingga terendah yang telah didapat dari penjumlahan nilai TFISF pada tahap pembobotan TFISF. Pengurutan kalimat dilakukan pada setiap cluster, sehingga setiap cluster akan diwakilkan oleh satu kalimat yang memiliki nilai tertinggi. Setiap kalimat pada hasil cluster 31 (C31) pada dokumen ke-4 telah memiliki bobot nilai yang apabila dilakukan seleksi kalimat pada C31 akan terpilih kalimat ke-4 dengan bobot nilai Kalimat dengan menggunakan time constraint 6 bulan, ternyata maksimal item yang dapat dibentuk pada sebuah sequence adalah 6 buah (6-sequence) akan mewakili C31 dan keluar sebagai ringkasan. Evaluasi Clustering selalu memberikan hasil yang berbeda-beda. Hal ini disebabkan karena proses clustering sangat bergantung pada penentuan centroid awal yang pada penelitian ini dilakukan dengan memilih baris data secara acak. Untuk

30 18 Tabel 7 Hasil ringkasan dengan tingkat peringkasan 30% Percobaan-1 Percobaan-2 Percobaan-3 Percobaan-4 Rata-rata Recall Precision F-Measure Akurasi Tabel 8 Hasil ringkasan dengan tingkat peringkasan 20% Percobaan-1 Percobaan-2 Percobaan-3 Percobaan-4 Rata-rata Recall Precision F-Measure Akurasi Tabel 9 Hasil ringkasan dengan tingkat peringkasan 10% Percobaan-1 Percobaan-2 Percobaan-3 Percobaan-4 Rata-rata Recall Precision F-Measure Akurasi mengatasi hal ini, setiap dokumen dilakukan peringkasan otomatis sebanyak 4 kali pada setiap besar tingkat peringkasan dan diambil nilai rata-rata dari setiap hasilnya. Total percobaan peringkasan otomatis sistem dilakukan sebanyak 1200 kali. Adapun evaluasi hasil ringkasan sistem dengan ringkasan manual dapat dilihat pada Tabel 7, 8, dan 9. Nilai evaluasi hasil ringkasan sistem pada tiap percobaan dalam satu tingkat peringkasan tidak jauh berbeda walau menghasilkan keluaran ringkasan yang berbeda. Hasil ringkasan sistem pada tingkat peringkasan 30% menghasilkan rata-rata recall 32.95%, Precision 43.07%, f-measure 36.98%, dan akurasi sebesar 57.11%. Untuk tingkat peringkasan 20% menghasilkan rata-rata recall 22.11%, Precision 43.40%, f-measure 28.96%, dan akurasi sebesar 58.44%. Sementara itu, pada tingkat peringkasan 10% hasil ringkasan sistem menghasilkan rata-rata recall 11.13%, Precision 45.06%, f-measure 17.70%, dan akurasi sebesar 60%. Nilai akurasi terendah adalah sebesar 43.21% pada tingkat peringkasan 20%, dan nilai akurasi tertinggi adalah sebesar 83.87% yang terdapat pada hasil ringkasan dengan tingkat peringkasan 10%. Nilai minimum, maksimum, dan rata-rata akurasi peringkasan otomatis sistem dapat dilihat pada Gambar 6. Pada Gambar 6 dapat dilihat bahwa rata-rata nilai akurasi berbanding terbalik dengan tingkat peringkasan sistem. Rata-rata nilai akurasi sistem akan semakin rendah jika tingkat peringkasan semakin tinggi. Hal ini disebabkan karena semakin rendah tingkat peringkasan, maka akan menjadi semakin sedikit kalimat ringkasan yang dihasilkan oleh sistem dan semakin kecil pula peluang kesalahannya. Selain perbandingan nilai akurasi, dalam evaluasi hasil ringkasan juga terdapat perbandingan nilai recall, precision, dan f-measure yang dapat dilihat pada

31 19 Gambar 6 Perbandingan nilai akurasi peringkasan otomatis Gambar 7, 8, dan 9. Pada Gambar 7 terlihat nilai recall terendah adalah sebesar 4.28% pada tingkat peringkasan 10%, dan nilai recall tertinggi adalah sebesar 41.14% yang terdapat pada hasil ringkasan dengan tingkat peringkasan 30%. Gambar 7 Perbandingan nilai recall peringkasan otomatis Rata-rata nilai recall sistem akan semakin tinggi seiring meningkatnya tingkat peringkasan. Artinya, semakin besar tingkat peringkasan, akan menghasilkan semakin banyak kalimat yang muncul sebagai ringkasan sistem, dan semakin besar pula peluang munculnya kalimat yang sesuai dengan ringkasan manual. Pada Gambar 8 terlihat nilai precision terendah adalah sebesar 10.59% pada tingkat peringkasan 30%, dan nilai precision tertinggi adalah sebesar 71.87% yang terdapat pada hasil ringkasan dengan tingkat peringkasan 10%. Rata-rata nilai

32 20 Gambar 8 Perbandingan nilai precision peringkasan otomatis precision sistem menjadi semakin rendah seiring meningkatnya tingkat peringkasan. Artinya, semakin besar tingkat peringkasan, semakin kecil pula proporsi jumlah kalimat ringkasan yang dihasilkan sistem dan dianggap relevan. Walau begitu, perbedaan nilai precision hasil peringkasan otomatis tidaklah begitu besar. Tabel 10 Suatu percobaan hasil peringkasan Dokumen 91 10% 20% 30% Jumlah Kalimat Ringkasan Sistem Jumlah Kalimat Ringkasan Manual Jumlah Kalimat pada Dokumen TP FN FP TN Recall Precision F-measure Akurasi Precision merupakan rasio jumlah kalimat ringkasan sistem yang relevan dengan total jumlah kalimat yang diambil sistem sebagai ringkasan. Adapun nilai precision yang tertinggi dari percobaan pada penelitian ini terdapat pada dokumen 91 yaitu sebesar 0.81 dengan jumlah kalimat ringkasan yang dihasilkan sistem sebesar 16 kalimat dan terdapat 13 kalimat yang relevan dengan ringkasan manual. Nilai hasil peringkasan pada dokumen 91 dapat dilihat pada Tabel 10. Nilai precision yang terendah terdapat pada percobaan meringkas dokumen 9 yang memberikan nilai precision sebesar 0.07 dengan jumlah kalimat ringkasan yang dihasilkan sistem sebesar 30 kalimat dan hanya terdapat 2 kalimat yang relevan

33 21 Tabel 11 Suatu percobaan hasil peringkasan Dokumen 9 10% 20% 30% Jumlah Kalimat Ringkasan Sistem Jumlah Kalimat Ringkasan Manual Jumlah Kalimat pada Dokumen TP FN FP TN Recall Precision F-measure Akurasi dengan ringkasan manual. Nilai hasil peringkasan pada dokumen 9 dapat dilihat pada Tabel 11. Hal ini jelas sangat bergantung dengan seberapa banyak kalimat yang relevan dan jumlah kalimat yang diambil oleh sistem sebagai hasil ringkasan. Apabila ringkasan system dibandingkan dengan ringkasan manual, maka baik atau tidaknya ringkasan manual dan atau ringkasan sistem sangatlah mempengaruhi hasil evaluasi. Baik atau tidaknya ringkasan manual sangatlah bersifat subyektif. Sementara itu, baik atau tidaknya hasil ringkasan sistem bergantung pada fitur kata yang digunakan. Fitur yang digunakan penelitian ini adalah kata yang memiliki nilai 0.1 IDF < 2.0. Pada dokumen 9 yang memiliki precision terkecil, dicoba untuk melakukan peringkasan dengan fitur kata 0.1 IDF < 3.5 untuk melihat apakah precision berubah signifikan ketika fitur kata lebih banyak. Adapun hasil peringkasan dokumen 9 dengan fitur kata 0.1 IDF < 3.5 dapat dilihat pada Tabel 12. Pada Tabel 12 dapat dilihat peningkatan nilai precision ketika fitur kata diubah. Namun, perubahan tersebut tidaklah begitu besar. Kecilnya nilai precision pada Dokumen 9 dapat dipengaruhi oleh ringkasan manual yang merupakan acuan dari evaluasi. Jumlah ringkasan manual yang kecil dan atau kualitas ringkasan manual yang kurang baik dapat menyebabkan peluang meningkatnya nilai f p. Pada Gambar 9 terlihat nilai f-measure terendah adalah sebesar 6.25% pada tingkat peringkasan 10%, dan nilai f-measure tertinggi adalah sebesar 47,54% yang terdapat pada hasil ringkasan dengan tingkat peringkasan 30%. Rata-rata nilai f- measure sistem akan semakin tinggi seiring meningkatnya tingkat peringkasan. Perbandingan keseluruhan baik recall, precision, f-measure, maupun akurasi dari hasil ringkasan antara tingkat peringkasan 10%, 20%, dan 30% dapat dilihat pada Gambar 10. Nilai rata-rata recall meningkat seiring dengan meningkatnya tingkat peringkasan. Untuk nilai rata-rata precision mengalami penurunan seiring dengan meningkatnya tingkat peringkasan. namun penurunannya tidak begitu besar. Untuk

34 22 Tabel 12 Percobaan hasil peringkasan Dokumen 9 dengan fitur kata baru 10% 20% 30% Jumlah Kalimat Ringkasan Sistem Jumlah Kalimat Ringkasan Manual Jumlah Kalimat pada Dokumen TP FN FP TN Recall Precision F-measure Akurasi Gambar 9 Perbandingan nilai f-measure peringkasan otomatis Gambar 10 Perbandingan keseluruhan hasil ringkasan

35 23 nilai rata-rata f-measure meningkat seiring dengan meningkatnya tingkat peringkasan. Sementara itu, nilai rata-rata akurasi cenderung menurun seiring dengan meningkatnya tingkat peringkasan. Dikatakan rata-rata karena dari 100 dokumen, ada beberapa dokumen yang justru memberikan hasil yang berbeda dari perbandingan nilai rata-rata keseluruhan dokumen. Adapun hal-hal yang terjadi adalah; 1 Terdapat 7 dokumen yang nilai akurasinya berlawanan (meningkat seiring dengan meningkatnya tingkat peringkasan). 2 Terdapat 13 dokumen dengan nilai precision yang berlawanan (semakin tinggi seiring meningkatnya tingkat peringkasan). Gambar 11 Dokumen 10.txt yang mengalami perubahan akurasi berlawanan Pada Gambar 11 merupakan salah satu contoh dokumen yang menghasilkan nilai akurasi yang semakin tinggi seiring dengan meningkatnya tingkat peringkasan. Evaluasi yang dilakukan pada penelitian ini sangat bergantung kepada ringkasan manual yang dilakukan pada setiap dokumen. Sistem melakukan dengan menggunakan fitur kata dan metode K-Means untuk menghasilkan ringkasan. Sementara itu, ringkasan manual dilakukan oleh manusia dan merangkum isi dokumen berdasarkan kehendak masing-masing untuk memilih kalimat mana yang dianggap baik sebagai peringkasan otomatis. Tingkat peringkasan yang semakin tinggi membuat jumlah kalimat yang keluar sebagai hasil ringkasan sistem juga meningkat. Nilai t p, f n, f p, dan tn sangat mempengaruhi hasil precision dan akurasi. Sementara itu, banyaknya kalimat ringkasan yang dikeluarkan oleh sistem dan baiknya ringkasan manual yang dibuat oleh manusia juga sangat mempengaruhi nilai t p, f n, f p, dan tn. Hal yang terjadi pada dokumen yang memiliki nilai akurasi yang berlawanan adalah; karena hasil evaluasi memiliki nilai penjumlahan tn dengan t p yang meningkat seiring dengan meningkatnya tingkat peringkasan. Sementara itu, pada umumnya hasil penjumlahan nilai tn dengan t p akan menurun seiring meningkatnya tingkat peringkasan.

36 24 SIMPULAN DAN SARAN Simpulan Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan beberapa hal sebagai berikut: 1 Sistem peringkasan dokumen otomatis berdasarkan fitur kata telah berhasil dikembangkan. 2 Penggunaan metode K-Means dengan pembobotan kalimat berdasarkan fitur kata menghasilkan rata-rata akurasi 58.51%, recall 22.06%, precision 43.84%, dan f-measure 27.88%. 3 Clustering menggunakan K-Means membuat hasil ringkasan mengalami perubahan disetiap kali percobaan dan membuat tingkat akurasi hasil ringkasan selalu berubah. Oleh karena itu, peringkasan dokumen dengan menggunakan metode K-Means tidak menghasilkan ringkasan yang statis. Saran Pembuatan ringkasan manual untuk setiap dokumen sebaiknya dibuat oleh lebih dari satu orang agar mendapatkan ringkasan yang obyektif (bersifat umum) dengan harapan akurasi yang didapatkan akan lebih baik. DAFTAR PUSTAKA Agrawal, Ayush, Gupta U Extraction based approach for text summarization using K-Means clustering. IJSRP. 4 (11) Arai K, Barakbah AR Hierarchical K-Means: an algorithm for centroids initialization for K-Means. 1. Saga University Luthfiarta A, Zeniarja J, Salam A Algoritma Latent Semantic Analysis (LSA) pada peringkas dokumen otomatis untuk proses clustering dokumen. SEMANTIK 2013 Manning CD, Raghavan P, Schütze H An Introduction to Information Retrieval. Cambridge (UK): Cambridge University Press Manyika J, Chui M, Brown B, Roxburgh C, Byers AH Big data: the next frontier for innovation, competition, and productivity. [MGI] McKinsey Global Institute. Muflikhah L, Baharudin B Document clustering using concept space and cosine similarity measurement. International Conference on Computer Technology and Development Munot N, Govilkar SS Comparative study of text summarization methods. International Journal of Computer Applications. 102 (12): Mustaqhfiri M Peringkasan teks otomatis berita olahraga berbahasa Indonesia menggunakan metode Maximum Marginal Relevance [skripsi]. Malang (ID): Universitas Islam Negeri Maulana Malik Ibrahim

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE K-MEANS MUHAMMAD RHEZA MUZTAHID DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

@UKDW BAB 1 PENDAHULUAN Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pada saat ini, sangatlah mudah untuk mendapatkan informasi, baik melalui media cetak maupun media elektronik. Akan tetapi, banyaknya informasi yang ada belum tentu

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Media massa memiliki berbagai jenis media penyiaran seperti televisi dan radio dan media cetak seperti surat kabar, majalah dan tabloid. Namun, dengan kemajuan teknologi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM Jurnal Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta untuk

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL Nadia Damayanti 1, Nur Rosyid Mubtada i, S.Kom, M.Kom 2, Afrida Helen S.T, M.Kom

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 60 BAB III METODOLOGI PENELITIAN 1.1 Desain Penelitian Desain penelitian adalah tahapan atau gambaran yang akan dilakukan dalam penelitian. Desain penelitian dibuat untuk memudahkan pelaksanaan tahaptahap

Lebih terperinci

Penerapan Algoritma K-Means untuk Clustering

Penerapan Algoritma K-Means untuk Clustering Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN 3 Nilai fuzzy support bagi frequent sequence dengan ukuran k diperoleh dengan mengkombinasikan frequent sequence dengan ukuran k-1. Proses ini akan berhenti jika tidak memungkinkan lagi untuk membangkitkan

Lebih terperinci

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PERANCANGAN  CLIENT DENGAN PENGKLASIFIKASIAN  MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN PERANCANGAN EMAIL CLIENT DENGAN PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN 081402050 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

III METODOLOGI PENELITIAN

III METODOLOGI PENELITIAN 13 III METODOLOGI PENELITIAN 3.1 Kerangka Penelitian Penelitian dilakukan dalam lima tahapan utama, yaitu ekstraksi frame video, ekstraksi fitur SIFT dari seluruh frame, pembentukan kantong kata visual

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI LUH GEDE PUTRI SUARDANI NIM. 1208605018 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

DAFTAR ISI. SKRIPSI... ii

DAFTAR ISI. SKRIPSI... ii DAFTAR ISI SKRIPSI... i SKRIPSI... ii HALAMAN PENGESAHAN... ii PERNYATAAN... iii HALAMAN MOTO DAN PERSEMBAHAN... iv PRAKATA... v DAFTAR ISI... vii DAFTAR GAMBAR... x DAFTAR TABEL... xiii INTISARI... xiv

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) DAN K-MEAN CLUSTERING TUGAS AKHIR Diajukan Sebagai Salah

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN Techno.COM, Vol. 13, No. 1, Februari 2014: 61-68 INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN Ardytha

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE TESIS PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE PERIANTU MARHENDRI SABUNA No. Mhs.: 155302367/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

... BAB 2 LANDASAN TEORI. 2.1 Citra

... BAB 2 LANDASAN TEORI. 2.1 Citra 6 BAB 2 LANDASAN TEORI 2.1 Citra Citra atau image adalah suatu matriks dimana indeks baris dan kolomnya menyatakan suatu titik pada citra tersebut dan elemen matriksnya (yang disebut sebagai elemen gambar

Lebih terperinci

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS i TESIS INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS DEDDY WIJAYA SULIANTORO No. Mhs. : 105301466/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah Metode Latent Semantic Analysis dan Algoritma Weighted Tree Similarity untuk Pencarian berbasis b Semantik oleh : Umi Sa adah 5109201030 Pembimbing : Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.D Umi Laili

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR

PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci