METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

Ukuran: px
Mulai penontonan dengan halaman:

Download "METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA"

Transkripsi

1 METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2

3 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Metode Pemilihan Fitur Dokumen Bahasa Indonesia yang Terkelompok pada Mesin Pencari adalah benar karya saya denganarahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juli 2013 Fitria Rahmadina NIM G

4 ABSTRAK FITRIA RAHMADINA. Metode Pemilihan Fitur Dokumen Bahasa Indonesia yang Terkelompok pada Mesin Pencari.Dibimbing oleh JULIO ADISANTOSO. Banyaknya informasi khususnya berupa dokumen dalam jumlah besar akan menghabiskan waktu dan tenaga apabila dilakukan pencarian secara manual. Pada ruang vektor, dokumen direpresentasikan dengan term.semakin banyak term, maka semakin tinggi dimensi data sehingga semakin sulit untuk melakukan pencarian.banyaknya jumlah dokumen mempengaruhi kinerja mesin pencari dalam mengembalikan dokumen yang relevan terhadap keinginan pengguna.penelitian ini mengimplementasikan metode correlationcoefficient untuk kemudian dibandingkan dengan metode chi-square.pada penelitian ini dihasilkan tingkat akurasi yang berbeda. Metode correlationcoefficient memiliki akurasi 68% sedangkan menggunakan metode chi-square dihasilkan akurasi sebesar 58%. Kata kunci: correlation coefficient, chi-square, pemilihan fitur ABSTRACT FITRIA RAHMADINA. Feature Selection Method of Document Indonesian are Clustered in Search Engine. Supervised by JULIO ADISANTOSO. The large amount of information particularly in the form of large quantities of documents will required a large amount of time and effort to search if done manually. On a vector space, documents are represented by terms. More terms mean higher-dimensional data which makes search more difficult to perform. A large number of documents affects the performance of the search engine to return the documents that are relevant to the user's desires. This study implements correlation coefficient method and compareit with the chi-square method. In this study different levels of accuracy are produced. Correlation coefficient method has an accuracy of 68% while the chi-square method produced an accuracy of 58%. Keywords: correlation coefficient, chi-square, feature selection

5 METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

6

7 Judul Skripsi :Metode Pemilihan Fitur Dokumen Bahasa Indonesia yang Terkelompok pada Mesin Pencari Nama : Fitria Rahmadina NIM : G Disetujui oleh Ir Julio Adisantoso, MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus:

8 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta ala atas segala karunia-nya sehingga tugas akhir dengan judul Metode Pemilihan Fitur Dokumen Bahasa Indonesia yang Terkelompok pada Mesin Pencari ini berhasil diselesaikan. Shalawat dan salam penulis sampaikan kepada Nabi Muhammad shallallahu alaihi wassalam beserta keluarga, sahabat, dan pengikutnya yang tetap berada di jalan-nya hingga akhir zaman. Terima kasih penulis ucapkan kepada Bapak Ir Julio Adisantoso, MKom selaku pembimbing, serta Bapak Ahmad Ridha, SKom dan Bapak Sony Hartono Wijaya, SKom yang telah banyak memberi saran.ungkapan terima kasih juga disampaikan kepada ayahanda Zarmen, ibunda Yunitawarmi, seluruh keluarga, teman-teman ILKOM46, sahabat, dan Pantom Wijaya atas segala doa dan kasih sayangnya. Semoga karya ilmiah ini bermanfaat. Bogor, Juni 2013 Fitria Rahmadina

9 DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 1 Tujuan Penelitian 2 Ruang Lingkup Penelitian 2 METODE 2 Pengumpulan Dokumen 2 Praproses 4 Kueri 6 Similarity 6 Evaluasi 7 HASIL DAN PEMBAHASAN 7 Praproses 7 Pemilihan fitur 8 Pembobotan 9 Kueri 9 Similarity 10 Evaluasi 10 SIMPULAN DAN SARAN 11 Simpulan 11 Saran 11 DAFTAR PUSTAKA 11 LAMPIRAN 12

10 DAFTAR TABEL 1 Ketergantungan tupel untuk metode pemilihan fitur 5 2 Nilai kritis untuk χ 2 untuk tingkat signifikansi α 5 3 Confusion Matrix 7 4 Kumpulan kueri uji 9 DAFTAR GAMBAR 1 Tahapan Penelitian 2 2 Contoh koleksi dokumen 3 3 Tabel dokumen pada database 8 4 Grafik recall precision 9 DAFTAR LAMPIRAN 1 Antarmuka Sistem 12 2 Hasil Sistem Correlation Coefficient 12 3 Hasil Sistem Chi-square 13

11 PENDAHULUAN Latar Belakang Banyaknya informasi khususnya berupa dokumen dalam jumlah besar akan menghabiskan waktu dan tenaga apabila dilakukan pencarian secara manual. Untuk itu pengembangan algoritme untuk mengelompokkan teks menggunakan bantuan komputer pun semakin dikembangkan.peningkatan kebutuhan informasi dalam bentuk dokumen memerlukan teknik yang dapat mempermudah pencarian. Pada ruang vektor, dokumen direpresentasikan dengan term.semakin banyak term maka semakin tinggi dimensi data dan dokumen yang ada semakin menyebar sehingga sulit untuk melakukan pencarian.banyaknya jumlah dokumen mempengaruhi kinerja mesin pencari dalam mengembalikan dokumen yang relevan terhadap keinginan pengguna. Salah satu cara untuk mengurangi dimensi data adalah melakukan pemilihan fitur. Suatu objek perlu diketahui fitur-fiturnya agar bisa dikenali dan bisa dibedakan dari objek yang lain. Berbagai metode dilakukan untuk melakukan seleksi fitur, karena tidak semua fitur mampu memberikan hasil yang baik.dokumen yang digunakan pada seleksi fitur adalah dokumen yang terkelompok. Beberapa metode pada pemilihan fitur diantaranya adalah documentfrequency, chi-square, dancorrelationcoefficient. Metode document frequency merupakan salah satu teknik pemilihan fitur yang menghitung kemunculan kata unik dalam suatu kumpulan dokumen. Metode ini menghasilkan akurasi yang lebih rendah jika dibandingkan dengan chi-squareherawan (2011). Penelitian ini mengusulkan penggunaan metode correlation coefficientsebagai pemilihan fitur dan membandingkannya dengan metode chisquare untuk dokumen bahasa Indonesia.Pemilihan metode correlation coefficient karena metode ini belum digunakan untuk dokumen bahasa Indonesia.Selain itu correlation coefficient memiliki kelebihan dibandingkan chi-square, yaitu bebas dari sebaran dan korelasi di dalam kelas lebih kuat dibandingkan di luar kelas.oleh sebab itu diharapkan metode correlation coefficient ini menghasilkan akurasi yang lebih baik dibandingkan chi-square. Perumusan Masalah Perumusan masalah yang harus diselesaikan yaitu : 1 Apakah correlation coefficient lebih baik dibandingkan dengan chi-square? 2 Seberapa jauh correlation coefficient dapat menghasilkan ciri yang mampu membedakan antarkelas? 3 Apakah algoritme ini sesuai untuk dokumen berbahasa Indonesia?

12 2 Tujuan Penelitian Tujuan utama dari penelitian ini adalah mengimplementasikan pemilihan fiturcorrelation coefficient pada dokumen berbahasa Indonesia dan membandingkan tingkat akurasinya dengan metode chi-square. Ruang Lingkup Penelitian Penelitian ini dibatasi dengan cakupan sebagai berikut : 1 Dokumen yang digunakan adalah dokumen bahasa Indonesia 2 Dokumen yang digunakan berformat XML. METODE Penelitian ini dilakukan dalam beberapa tahapan yang diilustrasikan pada Gambar 1. Beberapa tahap penelitian yaitu pengumpulan dokumen, tokenisasi, pembuangan stopwords, pemilihan fitur, pembobotan, kueri, pengindeksan, similarity, dan evaluasi. Pengumpulan dokumen tokenisasi kueri pembuangan stopwords pemilihan fitur pengindeksan tokenisasi stopwords pembobotan OFFLINE praproses pembobotan similarity evaluasi Gambar 1 Tahapan Penelitian Pengumpulan Dokumen Dokumen merupakan sumber informasi yang penting bagi suatu instansi, organisasi, maupun negara. Arti kata dokumen menurut Louis Gottschalk (1986; 38) memiliki dua pengertian; yaitu (1) berarti sumber tertulis bagi informasi sejarah sebagai kebalikan daripada kesaksian lisan, artefak, peninggalan-

13 peninggalan terlukis dan petilasan-petilasan arkeologis;(2) diperuntukkan bagi surat resmi dan surat negara seperti surat perjanjian, undang-undang, hibah, konsesi dan lainnya. Jadi, dokumen merupakan sumber tertulis atau sumber lisan yang digunakan sebagai pembuktian. Proses pengumpulan dokumen merupakan pencatatan peristiwa atau hal atau kerakteristik sebagian atau keseluruhan populasi yang akan menunjang data atau penelitian. Ada beberapa teknik dalam pengumpulan data, diantaranya: 1 Wawancara (Esterberg, 2002) adalah pertemuan antara dua orang untuk bertukar informasi dan ide melalui tanya jawab sehingga dapat dikonstruksikan makna dalam suatu topik tertentu. 2 Observasi adalah pengumpulan data mengenai fenomena sosial dan gejalagejala yang dilakukan dengan sengaja untuk dilakukan pencatatan. 3 Studi dokumentasi adalah mengumpulkan berkas berupa tulisan, gambar, karya yang memiliki kredibilitas yang tinggi. Teknik pengumpulan data yang digunakan dalam penelitian ini adalah studi dokumentasi yang menggunakan koleksi dokumen tumbuhan obat dan hortikultura sebagai korpus.dokumen yang digunakan sebagai dokumen pengujian adalah korpus hasil penelitian Herawan (2011) dan Sari (2012).Isi dari dokumen yang berkaitan dengan tumbuhan obat dan hortikultura ini tidak diubah sehingga ejaan dan tata bahasa yang salah tidak diperbaiki.koleksi dokumen berjumlah 457 dan berformat XML dengan contoh yang terdapat pada Gambar 2. 3 <dok> <id>1</id> <kelas>1</kelas> <deskripsi> Bawang putih lokal saat ini sangat sulit dijumpai di pasaran setelah membanjirnya bawang putih impor ke Indonesia. Hal ini tentunya diperlukan upaya perbaikan produktivitas dan kualitas </deskripsi> </dok> Gambar 2 Contoh koleksi dokumen Tag XML yang digunakan dalam koleksi dokumen ini adalah <dok></dok>, menunjukkan keseluruhan dokumen yang memiliki tag lain yang lebih jelas. <id></id>, menunjukkan ID dokumen. <kelas></kelas>, menunjukkan pengelompokan dari dokumen. <deskripsi></deskripsi>, menunjukkan isi dari dokumen.

14 4 Praproses Praproses adalah sebuah tahapan memproses data input untuk menghasilkan output yang digunakan sebagai masukan untuk program lain. Dalam penelitian ini beberapa tahapan dalam praproses yaitu tokenisasi, pembuangan stopwords, pemilihan fitur, dan pembobotan. Tokenisasi Manning et al. (2008) menjelaskan bahwa tokenisasi adalah proses pemenggalan (parsing) kata menjadi unit kecil yang disebut token dan pada saat yang sama membuang karakter tertentu seperti tanda baca yang terdapat pada dokumen. Hal ini dilakukan agar setiap kata dapat diketahui frekuensi kemunculan pada suatu dokumen. Pembuangan Stopwords Stopwords adalah kata-kata yang jumlahnya sangat besar sehingga tidak perlu digunakan sebagai penciri dokumen.selain itu stopwords juga digunakan untuk mengurangi jumlah kata yang harus diproses.sekitar 80% dari kata yang sering muncul di dokumen tidak berguna dalam proses information retrieval. Kata-kata yang termasuk dalam stopwords disimpan dalam database dan dikumpulkan sehingga sistem yang akan dibangun mengenali terlebih dahulu kata-kata yang termasuk dalam stopwords dan tidak menghitungnya pada pembobotan kata. Sangat banyak stopwords yang terdapat di dalam Bahasa Indonesia.Stopwords tersebut berasal dari kata hubung, kata depan, dan sebagainya. Pada penelitian ini stopwords yang digunakan diambil dari berbagai sumber dan berjumlah lebih dari 1300 kata. Pemilihan Fitur Pemilihan fitur adalah proses memilih bagian dari term yang ada di data latih. Pemilihan fitur dokumen memiliki dua tujuan utama yaitu membuat data latih yang diterapkan oleh sistem klasifikasi menjadi lebih sederhana serta untuk meningkatkan akurasi sistem klasifikasi. Peningkatan akurasi sistem klasifikasi disebabkan karena pada proses penghilangan fitur akan menghilangkan kata-kata yang bukan merupakan penciri dokumen (Manning et al. 2008). Pada penelitian ini, pemilihan fitur dilakukan dengan uji correlation coefficient yang nantinya akan dibandingkan dengan metode chi-square.dengan tabulasi silang seperti Tabel 1, dapat diketahui apakah sebuah kata bisa digunakan sebagai penciri atau tidak.tabel 1 merupakan dasar untuk mendapatkan nilai dari correlation coefficient dan chi-square.semakin besar nilai pada tabel tersebut, semakin sesuai kata tersebut digunakan sebagai penciri.

15 5 Tabel 1 Ketergantungan tupel untuk metode pemilihan fitur t t C df (C,t) df (C, t) C df ( C,t) df ( C, t) Correlation coefficient merupakan suatu metodeuntuk mengukur tingkat korelasi antara variabel, yang memiliki nilai antara -1 sampai 1. Nilai correlation coefficient menghasilkan +1 dan -1 menandakan bahwa variabel tersebut linear. Sedangkan tanda positif atau negatif menandakan bahwa variabel memiliki korelasi yang positif atau negatif. Jika nilai yang dihasilkan 0, menandakan bahwa tidak ada hubungan yang linear antara variabel. Untuk sebuah dataset yang terdiri dari N dokumen, correlation coefficient didefinisikan dalam persamaan berikut (Biricik et al. 2011): cc (t, c i ) = N[P(C,t)P( C, t) P( C,t)P(C, t)] P(t)P( t)p(c)p(( C) dengan N adalah banyaknya dokumen,p(c,t) adalah peluang dokumen yang ada di kelasc dan termt,p(c, t) adalah peluang dokumen yang ada di kelasc tetapi tidak mengandungtermt,p( C,t) adalah peluang dokumen yang bukan kelasc tetapi mengandungtermt,p( C, t) adalah peluang dokumen yang bukan kelasc dan tidak mengandungtermt, P(C, t) = df(c,t) df(c,t)+ df( C,t), P(t) =, P( t) = df(c, t) + df( C, t) N, P(C) = N df (C,t) + df(c, t) N,danP( C) = N df( C,t) + df( C, t) N Hasil dari metode correlation coefficient akan dibandingkan dengan metode chi-square yaitu mengevaluasi fitur secara individual dengan menghitung statistik chi-square-nya yang berhubungan dengan kelasnya. Tujuannya adalah menguji hubungan atau pengaruh dua buah variabel nominal dan mengukur kuatnya hubungan antara variabel yang satu dengan variabel lainnya (Saputra 2011).Chisquare adalah salah satu seleksi fitur yang mampu menghilangkan banyak fitur tanpa mengurangi tingkat akurasi.nilai kritis χ 2 untuk tingkat signifikansi α ditunjukkan oleh Tabel 2. Nilai χ 2 adalah: χ 2 N[P(C,t)P( C, t) P( C,t)P(C, t)]² = P(t)P( t)p(c)p(( C). Tabel 2 Nilai kritis untuk χ 2 untuk taraf nyata α α Nilai kritis

16 6 Pembobotan Di dalam praproses, pembobotan kata merupakan suatu tahapan yang sangat penting.tujuannya untuk memberikan suatu nilai atau bobot pada term yang terdapat pada suatu dokumen.bobot pada setiap term bergantung pada metode pembobotan.makin sering suatu kata muncul pada suatu dokumen, maka diduga semakin penting kata itu untuk dokumen tersebut. Ada beberapa faktor dalam penentuan bobot diantaranya: 1 Faktor lokal, yaitu bagaimana bobot suatu kata di suatu dokumen tanpa dipengaruhi dokumen lain. Makin sering suatu kata muncul di suatu dokumen, maka semakin penting kata tersebut. Kelemahannya adalah apabila kata muncul dalam semua dokumen, maka frekuensinya akan membingungkan. 2 Faktor global, yaitu bagaimana keberadaan kata di dokumen lain. Menilai faktor global dapat dilakukan dengan documentfrequency (df). Jika nilai df nya besar, maka makin tidak penting sebuah kata. Pembobotan yang digunakan dalam penelitian ini adalah pembobotan tf-idf. Term frequency (tf) merupakan frekuensi kemunculan suatu term t pada dokumen d. Documentfrequency (df) merupakan banyaknya dokumen di dalam korpus yang mengandung kata tertentu (Manning et al 2008). Jika suatu kata t sering muncul dalam dokumen, maka dokumen tersebut perlu dipertimbangkan. Namun kata-kata yang sering muncul tetapi kurang merepresentasikan isi dokumen harus dihilangkan seperti stopwords. Kecenderungan nilai bobot yaitu berbading lurus dengan frekuensi term t pada dokumen serta berbanding terbalik dengan banyaknya dokumen yang mengandung suatu term t. Pembobotan tf-idf memberikan bobot pada term t dalam dokumen d dengan nilai: tf t,d idf t dengan tf t,d merupakan frekuensi term t pada dokumen d dan idf = log N df t. Sedangkan df t merupakan jumlah dokumen yang mengandung term t. Kueri Kueri adalah kemampuan untuk menampilkan suatu data dari database dimana mengambil dari tabel-tabel yang ada di database, namun tabel tersebut tidak semua ditampilkan sesuai dengan yang kita inginkan.pemrosesan kueri sama halnya dengan praproses dokumen, yaitu melalui tahap tokenisasi, pembuangan stopwords, dan proses penghitungan pembobotan. Kueri yang dimasukkan akan dilakukan pengindeksan. Similarity Kemiripan teks (similarity) digunakan untuk menentukan keterkaitan antara suatu dokumen dengan dokumen lainnya, baik mengenai judul, isi, kategori, ataupun kata kuncinya.salah satunya adalah menggunakan cosine similarity, yaitu ukuran kesamaan antara dua vektor dari sebuah ruang hasil kali pengukuran kosinus antar sudut.

17 7 sim (q, d) = q. d q. d dengan q adalah nilai tf-idf untuk kueri; d adalah nilai tf-idf untuk dokumen; q adalah panjang Euclid kueri; d = panjang Euclid n n dokumen; q = i=1 q i 2 ; dan d = i=1 d i 2. Hasil cosine yang semakin tinggi menunjukkan bahwa dokumen tersebut memiliki tingkat kemiripan yang besar dari kueri yang diinputkan sedangkan hasil ukuran cosine yang rendah menunjukan bahwa kemiripan suatu dokumen terhadap kueri adalah kecil, dengan kata lain menunjukan bahwa dokumen tersebut tidak relevan terhadap kueri tersebut. Evaluasi Evaluasi kinerja sistem temu kembali informasi dilakukan dengan menghitung nilai recall dan precision. Recall adalah proporsi jumlah dokumen yang dapat ditemukan kembali oleh sebuah proses pencarian di sistem IR. Sedangkan precision adalah proporsi jumlah dokumen yang ditemukan dan dianggap relevan untuk kebutuhan pencari informasi.precision mengindikasikan kualitas himpunan jawaban, tapi tidak melihat total semua dokumen yang relevan dalam kumpulan dokumen. recall = jumlah dokumen relevan yang ditemukan jumlah semua dokumen relevan di dalam koleksi = tp tp+fn precision = jumlah dokumen relevan yang ditemukan jumlah semua dokumen yang ditemukan = tp tp+fp Gagasan ini dapat diperjelas dengan memeriksa kontingensi berikut Tabel 3. Table 3 Confusion Matrix Relevant Nonrelevant Retrieved true positives (tp) false positives(fp) Not retrieved false negatives (fn) true negatives (tn) HASIL DAN PEMBAHASAN Praproses Penelitian ini menggunakan 457 dokumen.sebanyak 132 dokumen berasal dari korpus Herawan (2011) mengenai tumbuhan obat dan 325 dokumen berasal dari Sari (2012) mengenai hortikultura.seluruh dokumen dibagi menjadi dua kelas, yaitu kelas 1 untuk dokumen tumbuhan obat dan kelas 2 untuk dokumen

18 8 hortikultura. Keseluruhan dokumen disimpan dengan format XML (Extensible Markup Language). Dokumen dimasukkan ke dalam database sehingga didapatkan tabel yang bernama dokumen untuk selanjutnya dilakukan tokenisasi.contoh tabel dokumen dapat dilihat pada Gambar 3.Hasil tokenisasi tersebut diproses kembali agar kata-kata stopwords yang ada di dalamnya dapat dihilangkan.hasil dari pembuangan stopwords disimpan dalam tabel yang bernama tokenisasi sehingga didapatkan sebanyak 6802 kata unik. Gambar 3 Tabel dokumen pada database Pemilihan Fitur Kata unik merupakan hasil keluaran dari tahap praproses. Kata unik ini diproses lagi pada tahap pemilihan fitur. Tahapan pemilihan fitur dokumen diajukan terhadap dua metode yang berbeda. Metode pemilihan fitur dokumen yang pertama menggunakan teknik chi-square dan metode yang kedua menggunakan correlation coefficient. 1 Chi-square Pemilihan fitur dengan metode ini dilakukan pada seluruh dokumen. Nilai signifikansi (taraf nyata α) yang digunakan adalah 0,01. Pemilihan taraf nyata ini dikarenakan pada teknik tersebut memiliki tingkat akurasi pengelompokan yang lebih baik. Artinya semua kata yang memiliki nilai χ 2 lebih kecil dari 6,63 tidak dapat digunakan untuk proses selanjutnya. Hasil dari tahapan ini adalah 4021 kata unik pada kelas tumbuhan obat. Sedangkan pada kelas hortikultura terdapat 761 kata unik. Hasil dari kedua kelas disimpan dalam fail teks bernama kata_unik_chi. Untuk chi-square hanya kumpulan kata inilah yang akan digunakan pada tahap selanjutnya. 2 Correlation Coefficient Pada metode pemilihan fitur correlation coefficient dilakukan pengolahan pada kedua kelas dokumen. Nilai signifikansi yang digunakan sebesar 1%.

19 Sehingga hanya kata-kata yang dihasilkan pada taraf inilah yang akan digunakan untuk pengelompokan. Nilai signifikansi ini menghasilkan nilai correlation coefficient yang positif, artinya kata-kata yang bukan merupakan penciri yang baik tidak dihasilkan dan tidak digunakan pada tahap selanjutnya. Hasil dari tahapan correlation coefficient pada kelas tumbuhan obat menghasilkan 4349 kata unik. Sedangkan pada kelas hortikultura terdapat 964 kata unik. Hasil dari kedua kelas digabung dan disimpan dalam fail teks bernama kata_unik_corr. Pembobotan Tahap pembobotan dokumen dilakukan dengan tf-idf.kedua jenis kata unik yang telah dihasilkan dari metode correlation coefficient dan chi-square dihitung bobotnya. Hasil pembobotan ini disimpan dalam fail teks dengan nama tf_idf_chi dan tf_idf_corr. Penghitungan bobot term pada masing-masing dokumen ini kemudian digunakan dalam proses temu kembali informasi. Kueri Kueri yang digunakan dalam penelitian ini berjumlah 24 kueri. Pada kumpulan kueri tersebut dilakukan proses tokenisasi. Contoh kueri akan ditampilkan pada Tabel 3. Tabel 3 Kumpulan kueri uji Nomor Kueri 1 Kanker 2 Flu 3 Diabetes 4 Pusing 5 Merambat 6 Bergerigi 7 Menyirip 8 Vitamin 9 Antioksidan 10 Protein 11 Kalsium 12 Diseduh 13 Ditumbuk 14 Diperas 15 Batuk 16 Kencing 17 Haid 18 Gatal-gatal 19 Sesak Nafas 20 Daun Ellips 21 Buah Buni 22 Kalsium Oksalat 23 Obat 24 Buah 9

20 10 Similarity Hasil pembobotan dokumen digunakan untuk menghitung kemiripan kueri dengan dokumen. Setiap kata unik yang telah dihasilkan oleh metode correlation coefficient dan chi-square dihitung tf, df dan idf-nya. Untuk menghitung bobot antara dokumen dengan kueri digunakan similarity cosine. Nilai idf dari masingmasing metode dikalikan dengan nilai tf-nya. Setelah itu dihitung panjang vektor kedua metode. Sehingga didapatkan nilai dari similarity cosine. Evaluasi Pada tahap evaluasi, dilakukan penghitunganrecall, precision, serta Average Precision (AVP). Dokumen yang relevan dapat dicari dengan kueri yang berjumlah 24 tersebut, salah satu caranya adalah membaca seluruh dokumen. Dengan ini proses recall dan precision dapat dihasilkan. Hasil nilai precision untuk masing-masing kueri dirata-ratakan, sehingga didapatkan nilai AVP.AVP dihitung berdasarkan 11 standard recall levels, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan1.0 dengan menggunakan interpolasi maksimum. Dari tahap ini didapatkan bahwa tingkat akurasi sistem correlation coefficient memiliki nilai yang lebih besar jika dibandingkan tingkat akurasi pada metode chi-square. Antarmuka sistem, sistem correlation coefficient, dan sistem chi-squaredicantumkan pada Lampiran 1, 2, dan 3.Akurasi yang didapatkan untuk correlation coefficient sebesar 68%, sedangkan pada metode chi-square didapatkan akurasi sebesar 58%. Gambar 4 adalah grafik perbandingan nilai recall dan precision antara dua metode yang telah digunakan sebagai penciri dokumen. Precision Recall correlation chi-square Gambar 4 Grafik Recall Precision

21 11 SIMPULAN DAN SARAN Simpulan Berdasarkan penelitian yang dilakukan, dapat disimpulkan bahwa pemilihan fitur dengan menggunakan metode chi-square dan correlation coefficient berhasil digunakan terhadap dokumen yang ada. Tingkat akurasi yang didapatkan dengan menggunakan metode correlation coefficient adalah 68%. Sedangkan tingkat akurasi dengan metode chi-square adalah 58%. Dari perbedaan ini dapat disimpukan bahwa metode correlation coefficient lebih baik dibandingkan dengan metode chi-square jika digunakan pada dokumen ini. Saran Beberapa hal yang perlu dikembangkan dalam penelitian ini adalah 1 Pada penelitian selanjutnya disarankan agar menggunakan metode pemilihan fitur lain yang belum digunakan untuk dokumen bahasa Indonesia. Sehingga dapat dihasilkan keakuratan yang paling baik dalam penggunanan metode pemilihan fitur. 2 Penelitian ini menggunakan pembobotan tf-idf. Disarankan agar menggunakan metode pembobotan lain yang lebih beragam. DAFTAR PUSTAKA Biricik G, Diri B, Sönmez AC Abstract feature extraction for text classification.vol(no):1-23. doi: /elk Esterberg KG Qualitative Methods in Social Research. India (IN): McGraw Hill. Gottschalk LA Content Analysis of Verbal Behaviour: Significance in Clinical Medicine and Psychiatry. Prancis: Lavoisier SAS. Herawan Y Ekstraksi ciri dokumen tumbuhan obat menggunakan Chikuadrat dengan klasifikasi naive Bayes [skripsi]. Bogor (ID): Institut Pertanian Bogor. Manning, Raghavan, Schutze An Intoduction to Information Retrieval. Cambridge (UK): Cambridge Univ Pr. Rowler J Multimedia kiosks in retailing. International Journal of Retail & Distribution Management. 23(5): Saputra N Klasifikasi dokumen bahasa Indonesia menggunakan Semantic Smoothing dengan ekstraksi ciri Chi-square [skripsi]. Bogor (ID): Institut Pertanian Bogor.

22 12 Lampiran 1 Antarmuka Sistem Lampiran 2 Hasil Sistem Correlation Coefficient

23 Lampiran 3 Hasil Sistem Chi-square 13

24 14 RIWAYAT HIDUP Penulis dilahirkan di Bukittinggi pada tanggal 21 Maret 1992 dari pasangan Zarmen dan Yunitawarmi. Penulis merupakan anak pertama dari empat bersaudara. Penulis menempuh pendidikan menengah di SMP Negeri 1 Bukittinggi. Tahun 2009 penulis lulus dari SMA Negeri 1 Bukittinggi dan pada tahun yang sama penulis masuk Institut Pertanian Bogor (IPB) melalui jalur Ujian Saringan Masuk IPB (USMI). Penulis masuk Program S1 Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Pada bulan Juli-Agustus 2012 penulis berkesempatan melaksanakan kegiatan Praktik Kerja Lapangan di Kementerian Pertanian, Jakarta Selatan.

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN

RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Makalah Seminar Program S1 Ilmu Komputer Alih Jenis Departemen Ilmu Komputer, FMIPA-IPB 7 Februari 2015 Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Search Engine on RDF Document

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Makalah Seminar Program S1 Ilmu Komputer Alih Jenis Departemen Ilmu Komputer, FMIPA-IPB 7 Februari 2015 Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Search Engine on RDF Document

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 4 HASIL DAN PEMBAHASAN Penelitian ini dibuat menggunakan bahasa pemrograman PHP untuk tahapan praproses data, implementasi algoritme DIG dan pembangkitan metafile penyusun struktur digraf. Representasi

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI

IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI IDENTIFIKASI JENIS SHOREA (MERANTI) MENGGUNAKAN ALGORITME VOTING FEATURE INTERVALS 5 BERDASARKAN KARAKTERISTIK MORFOLOGI DAUN EVI SUSANTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix. yang tidak berarti sebagai pembeda antar dokumen. c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

SEARCH ENGINE DOKUMEN RDF TANAMAN OBAT MENGGUNAKAN SESAME DAN LUCENE LUTHFI NOVIANDI

SEARCH ENGINE DOKUMEN RDF TANAMAN OBAT MENGGUNAKAN SESAME DAN LUCENE LUTHFI NOVIANDI SEARCH ENGINE DOKUMEN RDF TANAMAN OBAT MENGGUNAKAN SESAME DAN LUCENE LUTHFI NOVIANDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011 CLUSTERING DOKUMEN

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI

PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA

PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN ELENUR DWI ANBIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI

TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI TEMU KEMBALI INFORMASI DOKUMEN XML DENGAN PEMBOBOTAN PER KONTEKS RINA KURNIAWATI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dipaparkan latar belakang penelitian, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, tahapan penelitian, dan sistematika penulisan laporan. 1.1 Latar Belakang

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR

PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR PERBANDINGAN EFISIENSI MODEL RUANG VEKTOR PADA SISTEM TEMU KEMBALI INFORMASI ARI ALKAUTSAR DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 1 PERBANDINGAN

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

STRATEGI PENGEMBANGAN DAYA SAING PRODUK UNGGULAN DAERAH INDUSTRI KECIL MENENGAH KABUPATEN BANYUMAS MUHAMMAD UNGGUL ABDUL FATTAH

STRATEGI PENGEMBANGAN DAYA SAING PRODUK UNGGULAN DAERAH INDUSTRI KECIL MENENGAH KABUPATEN BANYUMAS MUHAMMAD UNGGUL ABDUL FATTAH i STRATEGI PENGEMBANGAN DAYA SAING PRODUK UNGGULAN DAERAH INDUSTRI KECIL MENENGAH KABUPATEN BANYUMAS MUHAMMAD UNGGUL ABDUL FATTAH SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2016 iii PERNYATAAN

Lebih terperinci