TEMU KEMBALI INFORMASI BERITA BERBAHASA INDONESIA BERBASIS RSS EKA MARLIANA

Ukuran: px
Mulai penontonan dengan halaman:

Download "TEMU KEMBALI INFORMASI BERITA BERBAHASA INDONESIA BERBASIS RSS EKA MARLIANA"

Transkripsi

1 i TEMU KEMBALI INFORMASI BERITA BERBAHASA INDONESIA BERBASIS RSS EKA MARLIANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

2 ii TEMU KEMBALI INFORMASI BERITA BERBAHASA INDONESIA BERBASIS RSS EKA MARLIANA Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2009

3 iii ABSTRACT EKA MARLIANA. Information Retrieval for RSS News Document in Bahasa Indonesia. Supervised by FIRMAN ARDIANSYAH. RSS (Really Simple Syndication) is a language derived from XML (Extensible Markup Language). The use of RSS as a syndication on Indonesian news sites has become widespread, as well as a syndicated news by news websites will continue to evolve in time, so it requires a search facility that can return information that explore the RSS data efficiently and effectively. Several studies have been conducted related to information retrieval, one of it was developed by Rahman (2006) which measured performance and compared the equality of returned XML document. This research tries to implement the information retrieval using VSM (Vector Space Model) to build an RSS search facility and to analyze and compare the effects of the use of additional title weighting with normal weighting. Test results show that the use of the normal weighting performs better than the use of weighting in the title. This is explained by the average precision value gotten from the test. At recall levels between 10% until 30% the average precision has the same value, at recall level 60% the average precision value of title weighting is higher than normal weighting, but between 40%, 50%, 70% until 100% the normal weighting precision is greater that of the title weighting. Keywords: Information Retrieval, RSS, Vector Space Model.

4 iv Judul Nama NIM : Temu Kembali Informasi Berita Berbahasa Indonesia Berbasis RSS : Eka Marliana : G Menyetujui: Pembimbing, Firman Ardiansyah., S.Kom.,M.Si NIP Mengetahui: Ketua Departemen, Dr. Ir. Sri Nurdiati, M.Sc NIP Tanggal Lulus :

5 v RIWAYAT HIDUP Penulis dilahirkan di Bogor pada tanggal 5 Maret 1984 dari pasangan Ahmad Sobari dan Nuriah. Penulis merupakan anak kedua dari enam bersaudara. Tahun 2002, penulis lulus dari SMU Negeri 7 Bogor. Pada tahun yang sama penulis diterima di Institut Pertanian Bogor (IPB) sebagai mahasiswa D3 Elektronika dan Teknologi Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA), IPB. Tahun 2006 penulis diterima di IPB sebagai mahasiswa S1 di Departemen Ilmu Komputer, FMIPA, IPB. Saat ini penulis adalah salah satu staf di BAKOSURTANAL.

6 vi PRAKATA Bismillahirrahmanirrahim, Segala puji bagi Allah SWT, atas limpahan rahmat dan karunia-nya dan semoga shalawat dan salam tetap tercurahkan kepada Nabi Muhammad SAW. Penulis mengucapkan Alhamdulillahi rabbal alamin, atas selesainya skripsi dengan judul Temu Kembali Informasi Berita Berbahasa Indonesia Berbasis RSS. Skripsi ini merupakan salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Terlalu banyak pihak-pihak yang menjadikan penulis bisa mencapai hasil dan keadaan seperti sekarang ini. Dengan tidak bermaksud mengecilkan peran mereka semua dengan tidak menuliskannya pada bagian ini, penulis ingin menyampaikan penghargaan sebesar-besarnya kepada mereka semua. Bapak Firman Ardiansyah, S.Kom, M.Si selaku pembimbing atas seluruh saran, koreksi maupun bimbingan selama pengerjaan tugas akhir ini. Bapak Ahmad Ridha, S.Kom, M.S dan Sony Hartono Wijaya, S.Kom, M.Kom selaku penguji atas saran dan koreksinya. Seluruh anggota keluarga besar Departemen Ilmu Komputer atas kerja sama yang telah diberikan. Rasa terima kasih juga ingin penulis sampaikan kepada teman-teman seperjuangan yang telah banyak membantu. Mas Sukma Agung atas bantuan dan dukungannya, Ana, Rika, Holili, Harry, Wenny, Dede, Ajis, Dimas, Rico dan teman-teman ILKOM Ekstensi IPB yang tidak dapat disebutkan satu persatu, atas dukungan dan kebersamaannya. The last but not least, untuk keluargaku, Bapak, Mamah, Abang, Adik-adik atas cinta, dukungan, kesabaran, serta do a yang selalu menyertai penulis. Terima kasih telah memberikan yang terbaik untuk penulis. Bogor, Desember 2009 Eka Marliana

7 vii DAFTAR ISI Halaman DAFTAR TABEL...viii DAFTAR GAMBAR...viii DAFTAR LAMPIRAN...viii PENDAHULUAN...1 Latar Belakang...1 Tujuan...1 Ruang Lingkup...1 Manfaat...1 TINJAUAN PUSTAKA...1 Temu Kembali Informasi...1 RSS...1 Parsing...1 Stemming...1 Pembobotan tf-idf...1 Vector Space Model...2 Precision...2 Average Precision...2 Hash Function...3 METODOLOGI PENELITIAN...3 Koleksi Dokumen...3 Pemilihan Ukuran Kesamaan...3 Tahap-tahap Penelitian...3 Text Operation...3 Indexing...5 Searching...5 Ranking...5 User Interface...5 Evaluasi Sistem...5 Asumsi-asumsi...5 Lingkup Implemental...6 HASIL DAN PEMBAHASAN...6 Koleksi Dokumen...6 Tahap-tahap Penelitian...6 Text Operation...6 Indexing...9 Searching...10 Ranking...10 User Interface...10 Evaluasi Sistem...10 KESIMPULAN DAN SARAN...11 Kesimpulan...11 Saran...11 DAFTAR PUSTAKA...11 LAMPIRAN...14

8 viii DAFTAR TABEL Halaman 1 Daftar imbuhan untuk proses stemming hasil adopsi Tala stemmer Penambahan aturan pemotongan Situs berita dan jumlah RSS yang diunduh Daftar kueri untuk pengujian sistem Average precision dengan pembobotan judul Average precision dengan pembobotan normal...11 DAFTAR GAMBAR Halaman 1 Sistem temu kembali informasi Desain dasar dari Tala stemmer untuk bahasa Indonesia Lima aturan pemotongan imbuhan Representasi berita dalam dokumen RSS Stemming tanpa penyisipan huruf Stemming dengan penyisipan huruf Tabel posting Tabel dictionary Hasil pembobotan tf-idf Nilai cosine untuk kueri uji coba nuklir Iran Daftar dokumen dan nilai cosine yang telah terurut berdasarkan kueri masukan nuklir Iran User interface dari sistem temu kembali Grafik average precision...12 DAFTAR LAMPIRAN Halaman 1 Contoh dokumen RSS yang diperoleh dari situs berita Okezone Hasil proses parsing tahap satu Daftar hasil ujicoba kueri , precision dan nilai recall vs precision yang digunakan untuk membuat grafik sebelas standar recall setiap kueri Grafik sebelas standar recall untuk setiap hasil kueri yang diujicobakan...23

9 1 Latar Belakang PENDAHULUAN Beberapa situs berita di Indonesia seperti Kompas, Okezone, Tempo, Antara dan lain sebagainya telah menggunakan RSS dalam menyajikan sindikasi berita. Jumlah berita yang disindikasikan oleh situs berita tersebut akan terus berkembang seiring dengan berjalannya waktu. Oleh karena itu perlu dikembangkan sebuah fasilitas temu kembali informasi yang dapat mengeksplorasi data tesebut secara efisien. Hal ini bertujuan untuk memudahkan pengguna mendapatkan berita yang relevan dengan yang diinginkan. Tujuan 1. Mengimplementasikan temu kembali informasi untuk dokumen berita berbahasa Indonesia dengan format RSS. 2. Menelaah kinerja sistem yang dibangun dalam mengembalikan jawaban yang relevan dari kumpulan dokumen berita berbahasa Indonesia. Ruang Lingkup Korpus terdiri atas dokumen berita berbahasa Indonesia dengan format RSS 2.0, berjumlah 173 dokumen RSS. Untuk pengujian sistem digunakan 10 kueri percobaan. Manfaat Dari penelitian ini diharapkan terbentuk sebuah engine yang dapat menemukembalikan dokumen berita dengan format RSS berdasarkan kueri yang diberikan pengguna. TINJAUAN PUSTAKA Temu Kembali Informasi Temu kembali informasi berkaitan dengan representasi, penyimpanan, pengorganisasian dan pengaksesan informasi. Sistem temu kembali informasi menyediakan kemudahan akses informasi bagi pengguna. Pengguna harus menerjemahkan kebutuhan informasinya ke dalam bentuk kueri. Dengan adanya kueri yang diberikan oleh pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates & Ribeiro-Neto 1999). RSS Really Simple Syndication (RSS) merupakan turunan dari bahasa XML. Extensible Markup Language (XML) adalah format teks yang sederhana dan sangat fleksibel yang diambil dari SGML (ISO 8879). RSS adalah suatu format yang digunakan untuk sindikasi berita dan isi dari situs seperti berita, termasuk situs berita besar seperti Wired, situs komunitas yang berorientasi berita seperti Slashdot, dan weblog pribadi. Maksud dari sindikasi di sini adalah sebuah situs yang memiliki RSS Feed dapat dibaca isinya tanpa harus mengunjungi situs yang bersangkutan. RSS tidak hanya untuk berita. Hampir semua hal yang bisa dipilah-pilah menjadi bagianbagian diskret dapat disindikasi melalui RSS: halaman "recent changes" dari sebuah wiki, changelog dari CVS checkins, bahkan juga sejarah revisi dari sebuah buku. (XML 2002). Parsing Untuk pemrosesan, dokumen dipilih menjadi unit-unit yang lebih kecil contohnya berupa kata, frasa atau kalimat. Unit hasil pemrosesan disebut sebagai token. Dalam proses ini biasanya juga digunakan sebuah daftar kata yang tidak digunakan (stoplist) karena tidak signifikan dalam membedakan dokumen atau kueri, misalnya kata-kata tugas seperti yang, hingga, dan dengan. Proses parsing akan menghasilkan daftar istilah beserta informasi tambahan seperti frekuensi dan posisi yang akan digunakan dalam proses selanjutnya (Ridha 2002). Stemming Stemming adalah proses penghilangan prefiks dan sufiks dari kueri dan istilah-istilah dokumen (Grossman 2002). Stemming dilakukan atas dasar asumsi bahwa kata-kata yang sama memiliki makna yang serupa. Dalam hal keefektifan stemming dapat meningkatkan recall dengan mengurangi bentuk-bentuk kata ke bentuk kata dasarnya. Selain itu proses stemming juga dapat mengurangi ruang penyimpanan indeks (Ridha 2002). Pembobotan tf-idf Pada saat pengindeksan, dokumen RSS diekstrak melalui proses parsing untuk mendapatkan istilah-istilah dari masing-masing dokumen. Untuk setiap pasangan istilah dan dokumen tersebut diberikan pembobotan tf-idf: tf idf i, j = tf i, j idf i.

10 2 Untuk pembobotan istilah dalam dokumen dihitung dengan rumus berikut: freq i, j tf i, j =, max i freq i, j di mana bobot kemunculan istilah dalam dokumen merupakan hasil bagi antara tingkat kepentingan istilah tersebut dalam dokumen tf i, j dengan tingkat kepentingannya pada keseluruhan dokumen dalam koleksi ( idf t ). Dengan ( ) freq, = banyaknya kemunculan i j istilah ( i ) dalam dokumen, dan max freq = i i, j kemunculan terbanyak ( f ) dari istilah dalam dokumen. Ukuran max freq digunakan i i, j sebagai faktor normalisasi karena dokumen yang panjang cenderung memiliki lebih banyak istilah dan frekuensi istilah yang lebih tinggi. Tingkat kepentingan istilah terhadap keseluruhan dokumen dalam koleksi dihitung dengan rumus berikut: N idf i = log, n i dengan N adalah banyaknya dokumen dalam koleksi dan ( n i ) adalah banyaknya dokumen i. yang mengandung istilah ( ) Selain pembobotan istilah pada dokumen, pembobotan juga dilakukan pada istilah kueri. Berikut ini adalah pembobotan yang digunakan untuk istilah kueri. 0.5 freq i, q = + N w i, q 0.5 log, max freq df i i, q t dengan freq i, q istilah ( f ) dalam kueri, dan = banyaknya kemunculan max i freq i, q = kemunculan terbanyak ( f ) dari istilah dalam kueri (Baeza-Yates & Ribeiro-Neto 1999). Vector Space Model Vector Space Model (VSM) merupakan salah satu model matematika yang digunakan untuk merepresentasikan sistem dan prosedur penemukembalian informasi yang merepresentasikan kueri dan dokumen dengan gugus istilah dan menghitung kesamaan global antara kueri dan dokumen (Salton 1989). Dalam temu kembali informasi pada dokumen, VSM digunakan untuk memodelkan tingkat kesamaan antara dokumen dengan kueri. Pada umumnya pengukuran tingkat kesamaan dilakukan dengan cara menghitung kosinus sudut antara vektor kueri dengan dokumen. Kueri dan dokument dapat dinyatakan dalam vektor istilah sebagai berikut: Q = (W Q (t 1 ), W Q (t 2 ), W Q (t 3 ),..., W Q (t n )), D = (W D (t 1 ), W D (t 2 ), W D (t 3 ),..., W D (t n )), dengan W Q (t i ) adalah bobot istilah t dalam kueri dan W D (t i ) adalah bobot istilah t dalam dokumen. Nilai W D (t i ) adalah nilai tf-idf(t i ). Selanjutnya derajat kesamaan ρ ( Q, D) antara dokumen dan kueri dapat dihitung menggunakan kosinus sudut antara vektor D dan Q dengan rumus sebagai berikut: (Rahman 2006) ρ ( Q, D) Precision ti Q D W Q i = Q D ( t ) W ( t ) dan Precision adalah dua ukuran yang umum digunakan untuk mengevaluasi kualitas dari temu kembali informasi. Dalam temu kembali informasi precision didefinisikan sebagai jumlah dari dokumen relevan yang ditemukembalikan dibagi dengan jumlah total dokumen yang ditemukembalikan dari hasil pencarian, sedangkan recall didefinisikan sebagai jumlah dari dokumen relevan ditemukembalikan dibagi dengan jumlah total dokumen relevan yang ada dalam koleksi. dan precission dapat dinyatakan sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999). AI R Re call =, R AI R Pr ecision =, A dengan A adalah jumlah dokumen yang ditemukembalikan, R adalah jumlah dokumen yang relevan dalam koleksi, dan AI R adalah jumlah dokumen relevan yang ditemukembalikan. Average Precision Average precission adalah suatu ukuran evaluasi kinerja temu kembali yang diperoleh dengan menghitung rata-rata precision pada D i.

11 3 berbagai tingkat recall, biasanya digunakan sebelas tingkat recall standar yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. Adakalanya tingkat recall yang diperoleh tiap kueri berbeda dengan sebelas tingkat recall standar yang ada. Untuk kasus yang seperti ini dibutuhkan prosedur interpolasi. Jika r j, j { 0,1,2,..., 10 } adalah tingkat recall standar ke- j maka : r = max + 1 j r r r j j P, P ( r) dengan demikian, precision interpolasi pada tingkat recall standar ke-j adalah precision tertinggi pada setiap tingkat recall antara j hingga ( +1) 1999). Hash Function j (Baeza-Yates & Ribeiro-Neto Hash function adalah suatu metode yang digunakan untuk mengubah data yang ada menjadi sebuah bilangan yang relatif kecil (small number) yang akan menjadi sidik jari (fingerprint) dari data terebut. Fungsi ini memecah dan mengolah data untuk menghasilkan kode atau nilai hash-nya. Nilai dari suatu fungsi hash akan memiliki panjang yang tetap untuk masukan dengan panjang yang sembarang. Secara umum, fungsi hash memiliki beberapa sifat utama, yaitu : fungsi satu arah, artinya untuk suatu nilai fungsi hash y, sulit menemukan nilai input x yang memenuhi persamaan H(x)=y, dan collision free/resistant, artinya sulit untuk menemukan 2 buah nilai input yang memunyai nilai fungsi hash yang sama. Salah satu fungsi hash yang banyak digunakan adalah Message Digest 5 (MD5). Algoritme MD-5 secara garis besar adalah mengambil pesan yang memunyai panjang variabel diubah menjadi sidik jari atau intisari pesan yang memunyai panjang tetap yaitu 128 bit. Koleksi Dokumen METODE PENELITIAN Dokumen berita yang akan digunakan pada penelitian berasal dari beberapa situs berita di Indonesia seperti Antara, Detik, Liputan 6, Kompas, Okezone, dan Tempo. Data yang digunakan adalah data dengan format RSS versi 2.0. Pemilihan ukuran kesamaan Beberapa ukuran kesamaan yang dapat digunakan dalam VSM di antaranya inner product, cosine, dice, jaccard, overlap dan asymmetric. Pada penelitian yang dilakukan oleh Rorvig (1999), dibandingkan lima ukuran kesamaan (cosine, dice, jaccard, overlap, dan asymetric) hasil uji menunjukkan bahwa ukuran kesamaan cosine dan overlap memiliki kinerja temu kembali yang lebih baik dibanding yang lain. Hasil penelitian yang dilakukan oleh Rahman (2006) yang melakukan perbandingan kinerja empat ukuran kesamaan (cosine, dice, jaccard, dan overlap), hasil uji menunjukkan bahwa ukuran kesamaan cosine memberikan kinerja temu kembali yang lebih baik dibandingkan dengan tiga ukuran kesamaan lainnya. dice dan jaccard tidak jauh berbeda sedangkan overlap memiliki kinerja yang paling rendah. Merujuk kepada hasil kedua penelitian tersebut maka ukuran kesamaan yang akan digunakan dalam penelitian ini adalah ukuran cosine. Tahap-tahap Penelitian Gambar 1 menunjukkan gambaran sistem secara umum yang akan dibuat dalam penelitian ini Gambar 1 Sistem temu kembali informasi (Baeza & Ribeiro 1999). Tahapan-tahapan yang dilakukan dalam penelitian ini adalah : Text operation Proses yang dilakukan dalam text operation adalah proses parsing dan stemming. 1. Parsing Parsing dilakukan dengan pengambilan token dari dokumen RSS dengan menggunakan XML Parser. Pada

12 4 proses ini yang termasuk ke dalam stoplist (daftar kata-kata buangan) akan diabaikan. Parsing dilakukan dalam dua tahap yaitu : Parsing tahap satu Parsing pada tahap satu bertujuan untuk mengambil dan memisahkan setiap berita menjadi token berita. Setiap token berita dalam dokumen RSS direpresentasikan dalam elemen item. Untuk mencegah adanya duplikasi berita maka digunakan hash function MD5 yang bertujuan untuk menghasilkan identitas yang unik untuk setiap token berita berdasarkan isi dari token tersebut. Parsing tahap dua Parsing tahap dua bertujuan untuk parsing isi token berita yang didapat dari proses parsing tahap satu. Pada tahapan ini dilakukan parsing terhadap isi dari setiap token berita sehingga dihasilkan token istilah. Token istilah beserta identitas token berita digunakan dalam proses indexing. 2. Stemming Stemming adalah proses pemotongan kata untuk mengembalikan kata ke bentuk dasarnya sehingga dapat meningkatkan hasil recall. Algoritme stemmer yang digunakan dalam penelitian ini diadopsi dari Tala stemmer. Tala stemmer memodifikasi algoritme Porter stemmer untuk bahasa Indonesia. Selain menggunakan daftar imbuhan dan aturan yang ada pada Tala stemmer, pada penelitian ini dilakukan penambahan aturan pemotongan dan imbuhan yang dapat dilihat pada Tabel 1 dan 2. Bahasa Indonesia memiliki Struktur morfologi sebagai berikut: [prefiks1] + [prefiks2] + kata dasar + [sufiks] + [kata ganti kepunyaan] + [partikel] dengan tanda [ ] menunjukkan pilihan. Struktur tersebut dapat digunakan sebagai panduan dalam proses stemming. Desain dasar dari proses stemming dapat dilihat pada Gambar 2. Pemotongan kata dilakukan dengan menghilangkan partikel, kata ganti kepunyaan, prefiks (awalan), infiks (sisipan), sufiks (akhiran), dan konfiks (gabungan antara prefiks dan sufiks). Hanya saja pemotongan imbuhan yang berupa sisipan sulit dilakukan untuk itu dalam penelitian ini sisipan atau infiks diabaikan. Daftar imbuhan dapat dilihat pada Tabel 1, sedangkan aturan pemotongan imbuhan dapat dilihat pada Gambar 3. Tabel 1 Daftar imbuhan untuk proses stemming hasil adopsi Tala stemmer Imbuhan Porter Stemmer tambahan Partikel Kata ganti kepunyaan Sufiks Prefiks Tabel 2 Penambahan aturan pemotongan imbuhan Imbuhan men dan pen meng dan peng kah, lah, pun, tah ku, mu, nya kan, an, i be, di, ke, me, pe, bel, ber, mem, men, pel, per, pem, pen, ter, meng, meny, peng, peny Penambahan Aturan C* V* + "t" *C *V *V + "k" se *e - e Gambar 2 Desain dasar dari Tala stemmer untuk bahasa Indonesia (Tala 2003).

13 5 Sebagaimana algoritme Tala, digunakan suatu fungsi penghitung ukuran kata untuk mencegah stemming menghasilkan stem yang terlalu pendek. Diasumsikan minimal stem hasil berukuran dua kecuali jika token berukuran kurang dari dua. Jumlah vokal dalam kata akan digunakan sebagai penentu ukuran kata kecuali kata-kata tanpa vokal yang terdiri atas tiga karakter atau lebih dianggap memiliki ukuran dua untuk mengakomodasi singkatan yang hanya terdiri atas konsonan (Ridha 2002). Selain menggunakan daftar imbuhan proses stemming dalam penelitian ini menggunakan aturan gugus konsonan dalam proses pemotongannya, serta menggunakan kamus kata dasar bahasa Indonesia untuk melakukan pemeriksaan apakah kata yang dihasilkan merupakan kata dasar atau bukan. Gambar 3 Lima aturan pemotongan imbuhan (Tala 2003). Indexing Pada tahapan ini dibangun sebuah indeks kata dari hasil text operation, dengan menggunakan teknik inverted index. Searching Proses pencarian kueri dilakukan dengan menghitung tingkat relevansi kueri dengan dokumen yang ada. Algoritme pencarian yang digunakan pada inverted index adalah Vocabulary search, yaitu kueri dicari di dalam perbendaharan kata yang terdapat pada indeks. Hal yang perlu ditekankan adalah kueri harus dipisahkan per kata (parsing). Ranking Pada tahapan ini dilakukan pengurutan dokumen berdasarkan tingkat relevansi antara kueri dan dokumen. User Interface Perancangan dan pembuatan user interface dari sistem yang akan menjembatani pengguna dengan sistem itu sendiri. Evaluasi Sistem Evaluasi dilakukan dengan mengukur kinerja temu kembali dengan menggunakan pendekatan recall precission. Sistem akan mengembalikan daftar dokumen terurut menurun berdasarkan hasil fungsi kesamaan kueri dan dokumen. Batasan dan asumsi Batasan dan asumsi yang akan digunakan dalam penelitian ini adalah sebagai berikut : 1. Dokumen dan kueri menggunakan karakter ASCII. 2. Dokumen yang digunakan adalah dokumen berekstensi XML dengan format RSS versi Pengindeksan hanya dilakukan untuk isi dari elemen title dan description. Tag, atribut dan elemen lain seperti link dan pubdate tidak diindeks karena diangggap tidak terlalu penting dalam RSS berita. 4. Tidak ada kesalahan penulisan XML dalam dokumen RSS. 5. Pengujian dilakukan dengan membandingkan kinerja sistem yang menggunakan pembobotan judul dengan pembobotan normal. 6. Istilah yang terdapat pada elemen title (judul berita) memiliki bobot dua kali lebih

14 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional Java 1.6 Apache Tomcat 6 MySQL 5 Perangkat Keras : Processor Intel dual core 1.6 GB RAM 1 GB Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita Jumlah Dokumen XML RSS Jumla h Berita Antara Detik 3 22 Liputan Kompas Okezone Tempo Total HASIL DAN PEMBAHASAN Koleksi Dokumen Penelitian ini menggunakan koleksi dokumen RSS versi 2.0 yang didapatkan dari beberapa situs berita berbahasa Indonesia di antaranya situs berita Antara, Detik, Kompas, Liputan6, Okezone, dan Tempointeraktif, yang diunduh pada tanggal 22, 23 dan 27 Agustus Contoh dari salah satu dokumen RSS berita dapat dilihat pada Lampiran 1. Untuk menguji kinerja sistem temu kembali informasi digunakan koleksi dokumen sebanyak 173 dokumen RSS. Dari 173 dokumen RSS yang dipergunakan hanya 167 dokumen yang terindeks oleh sistem dan diperoleh 1720 buah berita (Tabel 3). Hal ini dikarenakan beberapa dokumen RSS tidak memenuhi aturan penulisan XML yang benar. Untuk melakukan uji coba, dibentuk daftar pasangan kueri dan jumlah dokumen yang relevan yang akan dipergunakan untuk mengukur kinerja sistem temu kembali informasi yang dibuat. Adapun daftar kueri yang akan diujikan terhadap dokumen dapat dilihat pada Tabel 4. Tahap-tahap Penelitian Text Operation 1. Parsing Dokumen masukan diproses secara sekuensial dan menghasilkan sebuah token. Proses parsing dilakukan dalam dua tahapan yaitu: Tabel 4 Daftar kueri untuk pengujian sistem No Kueri Dokumen Relevan 1 Kebakaran 7 2 Gempa bumi 5 3 Inter Milan 15 4 Kebakaran hutan 5 5 Nuklir Iran 4 6 Pembunuhan Nasrudin 5 7 Tari pendet 29 8 Virus komputer 6 9 Pemakaman Michael Jackson 7 10 Pemilu di Afghanistan 7 a. Parsing tahap satu Proses parsing tahap satu adalah sebagai berikut: Dokumen dimuat ke dalam memori, dengan menggunakan JDOM (external library yang digunakan dalam Java), kemudian dilakukan proses pembacaan secara sekuensial untuk mendapatkan setiap token berita yang ada di dalam dokumen RSS. Sebuah berita dalam dokumen RSS direpresentasikan dalam sebuah elemen item (Gambar 4) sehingga proses parsing dilakukan berdasarkan elemen tersebut untuk mendapatkan berita yang terdapat pada dokumen RSS.

15 7 Gambar 4 Representasi berita dalam dokumen RSS. Setiap token berita yang diperoleh dibentuk sebuah identitas yang unik yang akan digunakan sebagai nama berkas dari token berita tersebut dengan menggunakan teknik enkripsi MD5. Nama file dan token berita disimpan ke dalam basis data. Hasil dari proses parsing tahap satu dapat dilihat pada Lampiran 2. Dari proses parsing tahap satu dihasilkan 1720 berita dari 167 dokumen RSS. b. Parsing tahap dua Setiap token berita yang diperoleh dari tahap satu diproses kembali, parsing di sini bertujuan untuk mendapatkan token istilah (satuan perkata) dari token berita. Tidak semua informasi yang ada pada token berita dipergunakan, hanya informasi yang tersimpan dalam elemen title dan description yang diolah, di mana elemen title dan description merepresentasikan judul dan deskripsi berita. Berikut ini adalah proses parsing tahap dua: Dengan menggunakan JDOM isi dari elemen item dan description diambil. Proses pengambilan token istilah dengan cara membaca satu persatu karakter. Sebuah karakter dapat berupa salah satu dari tiga jenis berikut: o whitespace, berarti karakter ini merupakan karakter pemisah token o alphanumeric, berarti karakter ini merupakan huruf atau angka o other, berarti karakter ini tidak termasuk jenis-jenis di atas. Jika karakter yang ditemukan merupakan huruf atau angka maka karakter tersebut menjadi karakter pertama dari istilah. Karakter-karakter selanjutnya menjadi bagian dari istilah tersebut hingga ditemukan karakter whitespace atau akhir dari istilah. Istilah yang didapatkan dari hasil parsing tahap kedua disebut token istilah, yang kemudian diubah ke dalam bentuk lower case (Ridha 2002). 2. Stemming Mekanisme stemming digunakan untuk mengatasi masalah variasi dalam bentuk kata yang sebenarnya memiliki makna yang sama. Penelitian ini menggabungkan metode Tala stemmer yang telah diadopsi dengan penggunaan kamus kata dasar bahasa Indonesia dan gugus konsonan. Beberapa fungsi pendukung yang digunakan dalam stemming antara lain a. isbasicword(s), mengembalikan true bila kata s adalah kata dasar selainnya false; b. isvocal(c), mengembalikan true bila karakter c termasuk ke dalam huruf vokal (a, i, u, e, o) selainya false; c. substring(i, n), mengembalikan potongan karakter dimulai dari indeks ke i sampai indeks ke n dari karakter token istilah; d. numberofvocals(s), mengembalikan jumlah huruf vokal dalam kata. berikut adalah aturan dan proses pemotongan untuk tiap imbuhan yang diadopsi dari aturan pemotongan pada penelitian Aries (2005): a. partikel - lah (M>2) lah b. partikel - kah (M>2) kah c. partikel - tah (M>2) tah d. partikel - pun (M>2) pun e. kata ganti kepunyaan - ku (M>2) ku f. kata ganti kepunyaan - mu (M>2) mu g. kata ganti kepunyaan - nya (M>2) nya h. sufiks - i (M>2) i i. sufiks - an (M>2) an j. sufiks - kan (M>2) kan

16 8 k. prefiks - di (M>2) di l. prefiks - ke (M>2) ke m. prefiks - se (M>2) se n. prefiks - ter (M>2) ter o. prefiks - ber be (M>2 and C* and er*) bel (ajar*) ajar ber (M>2) p. prefiks - peng pe (M>2) pen (M>2 and V*) pen (M>2 and C*) pem (M>2 and V*) pem (M>2) and C*) peny (M>2 and V*) peng (M>2 and C*) peng (M>2 and e*) peng (M>2 and V*) peng (M>2 and V*) q. prefiks - meng me (M>2) men (M>2 and V*) men (M>2 and C*) mem (M>2 and V*) mem (M>2) and C*) meny (M>2 and V*) meng (M>2 and C*) meng (M>2 and e*) meng (M>2 and V*) meng (M>2 and V*) t p s remove e k t p s remove e Dalam hal ini V* : diawali dengan huruf vokal, C* : diawali dengan huruf konsonan, dan e* : diawali dengan huruf e, dan M adalah jumlah minimal ukuran hasil stem. Proses stemming dilakukan dengan langkahlangkah sebagai berikut : a. Kata yang akan di-stemming pertama kali dicari ke dalam kamus. Jika kata tersebut ditemukan, maka kata tersebut adalah kata dasar, dan proses stemming dihentikan, b. Kata asli, kata hasil pemotongan dan imbuhan yang dipotong dicatat ke dalam koleksi hasil potong, c. Daftar kata pada koleksi hasil potong diiterasi untuk proses pengecekan dan pemotongan imbuhan, d. Penghilangan partikel. Langkah ini dilakukan untuk menghilangkan partikel, k e. Penghilangan kata ganti kepunyaan. Langkah ini dilakukan untuk menghilangkan kata ganti kepunyaan, f. Penghilangan sufiks. Langkah ini dilakukan untuk menghilangkan sufiks, g. Penghilangan prefiks. Untuk prefiks terdapat tambahan aturan berupa penyisipan dan penghilangan karakter. Dilanjutkan dengan pemeriksaan apakah masih ada prefiks yang tersisa, jika ada maka dihilangkan. Jika tidak ada lagi maka lakukan langkah selanjutnya, h. Setelah tidak ada lagi imbuhan yang tersisa, kemudian kata-kata yang ada pada koleksi hasil potong dicari ke dalam kamus kata dasar, urutan pengecekan dilakukan berdasarkan ukuran pemotongan imbuhan yang terbesar. Jika kata dasar tersebut ditemukan maka kata hasil proses stemming tersebut dikembalikan dan proses dihentikan, i. Jika semua langkah telah dilakukan tetapi kata dasar tersebut tidak ditemukan pada kamus maka kata asli sebelum dilakukan proses stemming yang akan dikembalikan. Sebelum menggunakan stemming istilah unik yang dihasilkan oleh proses Indexing sebesar Hal ini berbeda ketika stemming ditambahkan pada saat proses pengindexan ke dalam sistem, jumlah istilah unik menjadi sebesar Hasil pengujian menunjukkan bahwa stemming dapat mengurangi jumlah token istilah dalam penelitian sebesar %. Contoh penerapan stemming yang telah diurutkan berdasarkan ukuran imbuhan yang terbesar dapat dilihat pada Gambar 5 dan 6. Gambar 5 Stemming tanpa penyisipan huruf.

17 9 terdapat pada judul, dengan asumsi bahwa token istilah yang terdapat pada judul berita dianggap lebih penting dari pada tubuh berita. Untuk token istilah yang tidak berada pada judul maka nilai freq i, tittle = 0. Gambar 6 Stemming dengan penyisipan huruf. Indexing Proses pengindeksan dokumen dilakukan sebagai berikut: 1. proses pengekstrakan token-token istilah yang didapat dari hasil text operation, 2. jika token istilah termasuk ke dalam daftar kata buang maka token dilewati, 3. token istilah diubah ke dalam bentuk kata dasar (stemming), 4. untuk setiap pasang token istilah dan token berita, ditambahkan informasi ke dalam posting (Gambar 7) dan dictionary (Gambar 8) yang bersesuaian, 5. proses token item berikutnya hingga seluruh dokumen dalam koleksi ditambahkan ke dalam indeks, 6. setelah semua dokumen terindeks proses pembobotan tf-idf dilakukan terhadap masing-masing pasangan token istilah dan token berita. Untuk token istilah yang terdapat pada tubuh berita pembobotan dilakukan secara normal, sedangkan untuk token istilah yang merupakan bagian dari judul dilakukan pembobotan dengan memodifikasi nilai frekuensi. Contoh hasil dari pembobotan yang dilakukan terhadap token istilah yang telah terindeks dapat dilihat pada Gambar 9. Pembobotan terhadap token istilah yang merupakan bagian dari judul adalah sebagai berikut : ( freq i, j freq i, title ) + ( freq i, title 2) tf i, j =, max i freq i, j di mana besaran angka dua adalah asumsi penulis untuk memboboti token istilah yang Gambar 7 Tabel posting. Gambar 8 Tabel dictionary. Gambar 9 Hasil pembobotan tf-idf. Untuk pengindeksan teks kueri digunakan tahap satu, dua, empat dan lima. Tahap tiga dilewati karena pada saat pengindeksan teks kueri tidak akan dimasukkan ke dalam tabel posting dan dictionary, pengindeksan disini hanya bertujuan untuk mendapatkan frekuensi istilah. Untuk tahap lima berbeda dengan pengindeksan dokumen, di sini teks kueri

18 10 diboboti dengan menggunakan pembobotan sebagai berikut: 0.5 freq i, q = + N w i, q 0.5 log. max freq df i i, q t Searching Pada tahap ini dilakukan pencarian kata kueri ke dalam inverted index untuk menemukan dokumen mana saja yang mengandung kata kueri. Setelah ditemukan, kemudian dilakukan proses pengukuran tingkat kedekatan antara kueri dan dokumen dengan menggunakan ukuran kesamaan cosine, sehingga setiap dokumen memiliki nilai kedekatan dengan kueri. Contoh hasil penghitungan nilai cosine sebelum diurutkan dengan menggunakan kueri uji coba nuklir Iran dapat dlihat pada Gambar 10. Hasil dari pengurutan inilah yang akan dikembalikan kepada pengguna sebagai hasil dari pencarian berdasarkan teks kueri yang diinputkan oleh pengguna. Pengurutan yang dilakukan oleh sistem berdasarkan nilai cosine hasil dari tahap searching dapat dilihat pada Gambar 11. User Interface User interface dari sistem temu kembali pada penelitian ini dapat dilihat pada Gambar 12. Gambar 10 Nilai cosine untuk kueri uji coba nuklir Iran". Gambar 11 Daftar dokumen dan nilai cosine yang telah terurut berdasarkan kueri masukan nuklir Iran. Ranking Pengurutan atau ranking dilakukan berdasarkan nilai kesamaan yang dimiliki setiap dokumen dari hasil penghitungan cosine pada tahap searching. Pengurutan nilai kesamaan tersebut dilakukan secara asscending untuk mendapatkan urutan dokumen yang memiliki tingkat kesamaan mulai dari yang paling tinggi sampai yang terendah. Gambar 12 User interface dari sistem temu kembali. Evaluasi sistem temu kembali informasi Evaluasi yang digunakan dalam penelitian ini adalah evaluasi untuk mengukur keefektifan sistem dalam menemukan dokumen yang relevan terhadap kueri masukan pengguna. Pengujian dilakukan sebanyak dua kali, pengujian pertama dilakukan dengan memberikan bobot lebih pada judul dan yang kedua adalah pengujian dengan menggunakan pembobotan secara normal. Dari hasil pengujian (Lampiran 3), dapat dilihat bahwa jumlah dokumen relevan dan jumlah dokumen yang ditemukembalikan pada masing-masing pembobotan hasilnya sama. Perbedaan dapat terjadi pada urutan dokumen relevan yang ditemukembalikan oleh sistem. Hal ini dikarenakan dokumen yang tidak relevan tetapi mengandung kata kueri pada judul dokumen, dapat memiliki nilai cosine yang lebih tinggi dari pada dokumen yang relevan tetapi tidak mengandung kata kueri pada judul. Dari tabel recall precision kesepuluh kueri pada Lampiran 4 dan grafik average precision pada Lampiran 5 terlihat bahwa 90% hasil pencarian mengembalikan recall sebesar 100%, salah satunya pada kueri pengujian kesatu, dan recall terendah sebesar 85,71% pada kueri pengujian ke sepuluh.

19 11 Penurunan recall ini terjadi pada kueri kesepuluh yaitu pemilu di Afghanistan setelah dilakukan pengamatan, yang menjadi faktor penyebabnya adalah dari sisi penulisan. Masalah penulisan terjadi pada saat dokumen relevan yang tidak ditemukembalikan memiliki cara penulisan nama negara yang berbeda dengan kueri, pada dokumen relevan yang tidak dapat ditemukembalikan oleh sistem tertulis Afganistan hal ini tentunya akan dianggap berbeda dengan kata Afghanistan pada kueri. Untuk melihat kinerja sistem berdasarkan nilai average precision masing-masing pengujian dapat dilihat pada Tabel 5, dan grafik average precision pada Gambar 13. Pada tabel dan grafik average precision terlihat bahwa dengan pembobotan normal pada tingkat recall 30% sampai dengan 50% dan 70% sampai dengan 100%, sistem memiliki tingkat precision rata-rata lebih tinggi dibandingkan dengan yang menggunakan pembobotan lebih pada judul, hanya pada saat tingkat recall 60% sistem dengan pembobotan lebih pada judul memiliki nilai precision rata-rata lebih tinggi dari pembobotan normal. Dengan demikian dapat disimpulkan bahwa penggunaan pembobotan normal memberikan hasil yang lebih baik dari pada penggunaan pembobotan judul. Tabel 5 Average precision dengan pembobotan judul Average Precision (AVP) dengan Pembobotan Judul Kueri (%) Precision (%) AVP (%) Tabel 6 Average precision dengan pembobotan normal Average Precision (AVP) dengan pembobotan normal Kueri (%) Precision (%) AVP (%)

20 12 Grafik Average Precision Precision Dengan pembobotan judul Tanpa pembobotan judul Gambar 13 Grafik average precision. KESIMPULAN DAN SARAN Kesimpulan 1. Proses stemming dan penggunaan daftar kata buang yang digunakan pada penelitian ini dapat mengurangi jumlah istilah sebesar 25.08%. 2. Berdasarkan hasil pengujian sepuluh kueri pada sistem temu kembali yang dibuat mampu mengembalikan recall maksimum yaitu 100% dengan minimum recall 85.71%. 3. Nilai average precision dari hasil pengujian antara penggunaan pembobotan judul dan pembobotan normal menunjukkan bahwa penggunaan pembobotan normal memberikan hasil yang lebih baik dibandingkan dengan penggunaan pembobotan judul. 4. Hasil temu kembali informasi dari sebuah sistem tidak hanya bergantung pada metode yang digunakan tetapi juga faktor-faktor yang dapat menurunkan hasil temu kembali seperti masalah penulisan dan penggunaan kata yang berbeda tetapi memiliki makna yang sama. Saran 1. Untuk mengatasi masalah kesalahan penulisan dapat ditambahkan sebuah sistem yang dapat mengecek kesalahan penulisan dan dapat mengembalikan satu atau beberapa kata alternatif yang mendekati kata tersebut, sehingga hasil temu kembali dapat lebih ditingkatkan. 2. Pembobotan ekstra dapat ditambahkan pada tanggal berita dipublikasikan sehingga penyajian hasil temu kembali berita bisa dapat lebih terurut berdasarkan waktu. DAFTAR PUSTAKA Baeza-Yates, Ribeiro-Neto Modern Information Retrieval. England: Addison- Wesly Publishing Company. Cummins R, O Riordan. Determining General Term Weighting Schemes for the Vector Space Model of Information Retrieval Using Genetic Programing. Departement of Information Technology, National University of Ireland. Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. Cambridge University Ridha A Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia. Skripsi. Departemen Ilmu Komputer IPB, Bogor. Rahman A Perbandingan Kinerja Beberapa Ukuran Kesamaan pada Temu Kembali Informasi Dokumen XML. Skripsi. Departemen Ilmu Komputer IPB, Bogor. Salton G Automatic Teks Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-Wesley. Tala F Z A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and Computation, Universiteit van Amsterdam, Netherlands Wandari FA Evaluasi Stemmer Berbasis Bahasa Indonesia Dengan dan Tanpa

21 13 Menggunakan Kamus Kata Dasar. Skripsi. Departemen Ilmu Komputer IPB, Bogor [XML]. What is RSS. /-into-xml.html. [17 July 2009]. [XML]. What is RSS. into-xml.html. [17 July 2009].

22 14 Lampiran 1 Contoh dokumen RSS yang diperoleh dari situs berita Okezone <?xml version="1.0" encoding="utf-8"?> <rss version="2.0"> <channel> <title>sindikasi autos.okezone.com</title> <description>berita-berita Okezone pada kanal Autos</description> <link> <lastbuilddate>thu, 27 Aug :27: </lastBuildDate> <generator>okezone RSS 2.0 Generator</generator> <image> <url> <title>sindikasi autos.okezone.com</title> <link> <description>berita-berita Okezone pada kanal Autos</description> </image> <item> <title>lebaran, Harga Motor Juga Stabil</title> <description>serupa dengan roda empat, harga sepeda motor menjelang Hari Raya Idul Fitri juga cenderung stabil. Bahkan beberapa dealer menawarkan berbagai promosi menjelang Lebaran. </description> <category>breaking news - Motor</category> <pubdate>thu, 27 Aug :24: </pubDate> </item> <item> <title>bmw Yakin Bisa Menjual Unit Tahun Ini</title> <link> <guid> <link> <guid> <description>hadirnya banyak tipe-tipe terbaru membuat PT BMW Indonesia yakin tahun ini bisa menembus angka penjualan hingga unit. </description> <category>breaking news - Mobil</category> <pubdate>thu, 27 Aug :06: </pubDate> </item> </channel> </rss>

23 Lampiran 2 Hasil proses parsing tahap satu 15

24 16 Lampiran 3 Daftar hasil uji coba kueri No Kueri ( R) Dengan Pembobotan Judul Dengan Pembobotan Normal ( AI R) ( A ) ( AI R) ( A ) 1 Kebakaran Gempa bumi Inter Milan Kebakaran hutan Nuklir Iran Pembunuhan Nasrudin Tari pendet Virus komputer Pemakaman Michael Jackson Pemilu di Afghanistan

25 17 Lampiran 4, Precision dan nilai vs Precision yang digunakan untuk membuat grafik sebelas standar recall setiap kueri. Di mana: A = hasil temu kembali dengan menggunakan pembobotan judul, sedangkan B = hasil temu kembali menggunakan pembobotan normal. Hasil Temu Kembali Urutan hasil pencarian Kueri : Kebakaran Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision Hasil Temu Kembali Urutan hasil pencarian Kueri : Gempa bumi Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision

26 18 Lampiran 4 Lanjutan Hasil Temu Kembali Urutan hasil pencarian Kueri : Inter Milan Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision Hasil Temu Kembali Urutan hasil pencarian Kueri : Kebakaran hutan Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision

27 19 Lampiran 4 Lanjutan Hasil Temu Kembali Urutan hasil pencarian Kueri : Nuklir Iran Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision Hasil Temu Kembali Urutan hasil pencarian Kueri : Pembunuhan Nasrudin Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision

28 20 Lampiran 4 Lanjutan Hasil Temu Kembali Urutan hasil pencarian Kueri : Tari Pendet Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision

29 21 Lampiran 4 Lanjutan Hasil Temu Kembali Urutan hasil pencarian Kueri : Virus komputer Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision Hasil Temu Kembali Urutan hasil pencarian Kueri : Pemakaman Michael Jackson Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision

30 22 Lampiran 4 Lanjutan Hasil Temu Kembali Urutan hasil pencarian Kueri : Pemilu di Afghanistan Precision (%) vs Precision (sebelas standar recall) (%) A B A B Precision Precision Precision Precision

31 23 Lampiran 5 Grafik sebelas standar recall untuk setiap hasil kueri yang diujicobakan Di mana : Precision A adalah hasil pencarian dengan pembobotan judul Precision B adalah hasil pencarian dengan pembobotan normal Kueri : Kebakaran Precision Precision A Precision B Kueri : Gempa bumi Precision Precision A Precision B Kueri : Inter Milan Precision Precision A Precision B

32 24 Lampiran 5 Lanjutan Kueri : Kebakaran hutan Precision Precision A Precision B Kueri : Nuklir Iran Precision Precision A Precision B Kueri : Pembunuhan Nasrudin Precision Precision A Precision B

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25 54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer

LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer LAPORAN AKHIR HIBAH PENELITIAN dalam Rangka Kegiatan SP4 Departemen Ilmu Komputer CORPUS DOKUMEN TEKS BAHASA INDONESIA UNTUK PENGUJIAN EFEKTIVITAS TEMU KEMBALI INFORMASI Oleh: Ir. Julio Adisantoso, M.Kom.

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia ISSN : 088-9984 Seminar Nasional dan ExpoTeknik Elektro 0 Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia Jiwa Malem Marsya ) dan Taufik Fuadi Abidin ) ) Data Mining and IR Research Group FMIPA

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya. Selain itu juga berfungsi untuk memberikan gambaran dan solusi

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

SISTEM TEMU BALIK INFORMASI

SISTEM TEMU BALIK INFORMASI SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Pengertian Stemming Stemming merupakan suatu proses atau cara dalam menemukan kata dasar dari suatu kata. Stemming sendiri berfungsi untuk menghilangkan variasi-variasi morfologi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

Implementasi Stemmer Tala pada Aplikasi Berbasis Web

Implementasi Stemmer Tala pada Aplikasi Berbasis Web Mardi Siswo Utomo Program Studi Teknik Informatika, Universitas Stikubank email : mardiutomo@gmail.com Abstrak Stemming adalah proses untuk mencari kata dasar pada suatu kata. Pada analisa temu kembali

Lebih terperinci

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document Jurnal Ilmiah Widya Teknik Volume 15 Nomor 2 2016 ISSN 1412-7350 SISTEM PEMEROLEHAN INFORMASI UNDANG-UNDANG DAN KASUS MENGGUNAKAN STRUKTUR DATA INVERTED INDEX DENGAN PEMBOBOTAN TF-IDF Fredes Winda Oktaviani

Lebih terperinci

MODIFIKASI ALGORITMA PORTER UNTUK STEMMING PADA KATA BAHASA INDONESIA

MODIFIKASI ALGORITMA PORTER UNTUK STEMMING PADA KATA BAHASA INDONESIA MODIFIKASI ALGORITMA PORTER UNTUK STEMMING PADA KATA BAHASA INDONESIA Badrus Zaman Program Studi Sistem Informasi, Fakultas Sains dan Teknologi, Universitas Airlangga Jl. Dr. Ir. Soekarno MERR Surabaya

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Ratnadira Widyasari 13514025 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

Search Engines. Information Retrieval in Practice

Search Engines. Information Retrieval in Practice Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017 TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN

IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN IMPLEMENTASI INVERTED INDEX DENGAN SISTEM ORDBMS MENGGUNAKAN COLLECTION UNTUK MENDUKUNG MODEL PEMEROLEHAN BOOLEAN JB Budi Darmawan Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, Universitas

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Vol 2, No 3 Juni 2012 ISSN 2088-2130 Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Fika Hastarita Rachman Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012

Keywords: information retrieval system, cosine similarity, mean average precision. Jurnal Ilmu Komputer - Volume 5 - No 2 September 2012 PENINGKAAN RELEVANSI HASIL PENCARIAN KAA KUNCI DENGAN PENERAPAN MODEL RUANG VEKOR PADA SISEM INFORMASI RUANG BACA DI JURUSAN ILMU KOMPUER UNIVERSIAS UDAYANA Ngurah Agus Sanjaya ER a, Agus Muliantara b,

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

Judul Dokumen : Dokumentasi RSS Penerjemah : mee Tahun : 2007

Judul Dokumen : Dokumentasi RSS Penerjemah : mee Tahun : 2007 Judul Dokumen : Dokumentasi RSS Penerjemah : mee Referensi : http://w3schools.com Tahun : 2007 Lisensi : Open Apa itu RSS? RSS merupakan kependekan dari Really Simple Syndication

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN 5 Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI Disusun Oleh : ADAM ASSHIDIQ M0509001 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

HASIL DAN PEMBAHASAN. Gambar 7 Diagram alur proses mutasi.

HASIL DAN PEMBAHASAN. Gambar 7 Diagram alur proses mutasi. 5 Mulai HASIL DAN PEMBAHASAN Kromosom P = rand [0,1] Ya P < Pm R = random Gen(r) dimutasi Selesai Tidak Gambar 7 Diagram alur proses mutasi. Hasil populasi baru yang terbentuk akan dievaluasi kembali dan

Lebih terperinci

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL MICHAEL SENNA SAPUTRA NIM. 1008605062 PROGRAM STUDI TEKNIK

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian menjelaskan bagaimana langkah-langkah atau tahapan-tahapan yang akan dilakukan dalam penelitian agar rumusan masalah penelitian dapat terselesaikan.

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang 45 Dinamika Teknik Januari IMPLEMENTASI SEARCH ENGINE (MESIN PENCARI) MENGGUNAKAN METODE VECTOR SPACE MODEL Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang Abstract Growth of Machine

Lebih terperinci