Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index
|
|
- Yulia Budiono
- 7 tahun lalu
- Tontonan:
Transkripsi
1 Vol 2, No 3 Juni 2012 ISSN Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Fika Hastarita Rachman Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo Madura Jl. Raya Telang PO.BOX 2 Kamal, Bangkalan, Madura hastarita.fika@gmail.com ABSTRAK Pertambahan data setiap tahun untuk dokumen naskah publikasi di salah satu program studi perguruan tinggi menjadi penyebab semakin dibutuhkannya sarana untuk pencarian data yang lebih cepat dan sesuai dengan keinginan pengguna. Pencarian yang telah digunakan masih bersifat word maching berdasarkan kata kunci pada judul ataupun penyusunnya. Hal ini menyebabkan munculnya dokumen yang hanya relevan berdasarkan judulnya atau penyusunnya saja, tetapi tidak berdasarkan isi dari dokumen tersebut. Sehingga banyak dokumen relevan yang tidak terpanggil. Penerapan sistem temu kembali informasi terhadap koleksi dokumen, diharapkan mampu menjawab kebutuhan tersebut. Penelitian ini melakukan kajian penerapan sistem temu kembali informasi dalam mesin pencarian abstrak naskah publikasi dengan menggunakan preprocessing, inverted index, pembobotan tf-idf dan model pencarian ruang vektor. Pada pengujian sistem diperoleh hasil bahwa sistem ini mampu menghasilkan dokumen pencarian dengan tingkat recall sebesar 84,7%, dan precision sebesar 39,7%. Hal ini berarti sistem mampu meningkatkan performa pencarian, terutama untuk hal kelengkapan perolehan dokumen yang diinginkan pengguna. Kata kunci : sistem temu kembali informasi, recall, precision ABSTRACT Added publication manuscript documents each year in one departement of university is causes of the need to search data more quickly accordance with the user need. Search that has been used is still a word maching based on keywords in the title or composer. This led to the emergence of relevant documents only by their title or composer, but not based on the content of the document.many relevant documents that not called. Application of information retrieval system on the document collection, expected to answer those needs. This study reviewing the application of information retrieval in search engines publication abstract using preprocessing, inverted index, tf-idf weighted and vector space model. The result of system testing is able to produce a document search with a recall rate of 84.7% and precision of 39.7%. This means that the system can improve the search performance, especially for the completeness acquisition documents of the user's need. Keywords: information retrieval system, recall, precision. 355
2 Vol 2, No 3 Juni 2012 PENDAHULUAN Seiring bertambahnya tahun, semakin banyak lulusan S2 dan semakin banyak pula Naskah Publikasi yang dihasilkan. Saat ini, beberapa Program Studi memiliki sarana untuk mempublikasikan Naskah Publikasi tersebut secara onlinesetelah menganalisa beberapa online library diperoleh hasil bahwa pencarian yang digunakan pada sistem terkomputerisasi tersebut masih bersifat data retrieval, dalam artian pencariannya masih terbatas menggunakan kata kunci (keyword) berdasarkan subyek, judul atau penyusun dari setiap dokumen. Pencarian tersebut memiliki kelemahan, yaitu dokumen yang dihasilkan dari pencarian terkadang tidak sesuai dengan yang diinginkan pengguna. Sistem Temu Kembali Informasi dalam mesin pencarian dokumen mampu menghasilkan dokumen dengan tingkat relevansi yang tinggi. Adanya penelitian mengenai peningkatan performa Sistem Temu Kembali Informasi melalui stemming, menjadi salah satu objek penelitian. Pengaruh stemming Bahasa Indonesia terhadap peningkatan nilai recall hasil pencarian sistem temu kembali informasi dengan menggunakan mesin pencarian zettair telah dilakukan dan menghasilkan nilai recall yang tinggi [1]. Dalam proses pencariannya, Zettair menggunakan model pencarian boolean. Sistem Temu Kembali Informasi terdiri dari beberapa sub bagian untuk menjalankan tugasnya. Dan masing-masing bagian memiliki beberapa model. Untuk model pencarian terdapat model klasik dan model terstruktur. Model klasik terdiri dari model teoritis (model boolean), model algebraic (model ruang vektor), dan probabilistik. Dengan adanya model-model tersebut, muncul pertanyaan penelitian: apakah stemming juga berpengaruh terhadap performa sistem dengan model pencarian ruang vektor diukur dari recall dan precision. Sehingga pada penelitian ini dilakukan analisa terhadap sistem temu kembali informasi yang dibuat dengan model inverted index, model pencarian ruang vektor dengan adanya stemming. Mengacu pada keakuratan hasil penelitian terdahulu [2], maka algoritma stemming yang digunakan adalah algoritma stemming Nazief Andriani. Dasar Teori Teori yang digunakan adalah teori mengenai Sistem Temu Kembali Informasi, Pre Processing, Stemming Bahasa Indonesia, Model Pencarian Ruang Vektor dan Pengukuran Performa Sistem. Sistem Temu Kembali Informasi Di dunia informasi terdapat beberapa cara yang dapat dilakukan untuk proses pencarian dokumen. Gambar 2.1 mengilustrasikan interaksi pengguna dalam menemukan suatu informasi yang diinginkan. Terdapat 2 (dua) istilah yang biasanya dilakukan, yaitu data atau informasi retrieval dan browsing. Kedua istilah itu samasama menghasilkan suatu informasi dan biasanya dilakukan pada antarmuka web, tetapi berbeda proses. Browsing adalah proses mencari informasi dari satu link ke link lainnya. Sedangkan data atau informasi retrieval adalah proses mencari informasi yang dimiliki suatu web page melalui query. Retrieval dan browsing dapat saling terkait dalam penggunaannya. Proses menghasilkan dokumen sesuai dengan query dari pengguna inilah yang disebut proses temu kembali informasi [3]. Gambar 1. Interaksi pengguna dengan Sistem Temu Kembali Informasi Proses yang dilakukan Sistem Temu Kembali Informasi secara umum terlihat pada Gambar 1. Pada gambar terlihat adanya beberapa tahapan proses yang akan dilalui mulai dari query pengguna sampai dengan hasil keluaran sistem. 356
3 Fika Hastarita Rachman, Sistem Temu Kembali... Gambar 2. Tahapan proses sistem temu kembali informasi [3] Proses retrieval merupakan proses kompleks yang dapat dibagi menjadi subproses. Terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dari query yang dimasukkan pengguna dalam sistem. Alur yang pertama tidak tergantung pada alur kedua, pemrosesan koleksi dokumen dilakukan sampai menghasilkan basis data indeks. Sedangkan alur kedua tergantung pada basis data indeks hasil pemrosesan yang pertama. Sistem temu kembali informasi secara umum terdiri dari 2 (dua) tahapan besar yaitu indexing dan pencarian. Setelah menghimpun dokumen (dalam hal ini naskah publikasi dalam bentuk pdf dan abstrak dalam bentuk text) akan dilakukan proses preprocessing dilanjutkan dengan proses indexing, yaitu membangun suatu daftar indeks (inverted index). Kemudian dilakukan proses pembobotan terhadap indeks tersebut. Term indeks dan bobot disimpan untuk selanjutnya diproses mencari kemiripan vektor dengan kata kunci yang dihasilkan dari proses indexing query. Hasil perhitungan kemiripan diranking untuk dikembalikan kepada pengguna. Rancangan arsitektur sistem untuk sistem temu kembali informasi terlihat pada Gambar 3. Dalam hal ini proses tokenisasi (tokenization), penghilangan stopword, stemming dan indexing masuk kedalam tahapan preprocessing. Dari arsitektur sistem secara keseluruhan, terdapat bagian yang digambarkan detail dalam bentuk flowchart, yaitu proses preprocessing (tokenisasi, stemming, inverted index, pembobotan tf-idf) dan proses pencarian menggunakan model pencarian ruang vektor / VSM (Vektor Space Model). Terdapat beberapa proses dalam pengolahan data abstrak dokumen. Proses penghilangan tanda baca menjadi spasi adalah proses penting, karena dalam pencarian tanda baca tidak digunakan. Proses tokenisasi juga harus dilakukan, sebab dalam proses ini dihasilkan token-token yang nantinya digunakan sebagai inputan dalam proses selanjutnya. Dalam proses tokenisasi, data abstrak yang berbentuk teks dipisah dengan pemisah spasi menjadi term-term yang akan diolah selanjutnya. Penghilangan stopword dilakukan ketika termnya memiliki bentuk yang sama dengan list term stopword pada korpus stopword. Term yang tidak terkena proses stopword akan masuk dalam tahapan stemming, inverted index dan pembobotan tf-idf. 357
4 Vol 2, No 3 Juni 2012 Gambar 3. Rancangan arsitektur sistem temu kembali informasi Pre Processing Proses text operation sebagai Preprocessing, karena dilakukan sebelum proses utama temu kembali informasi dilakukan [4]. Tujuan dari preprocessing adalah mengoptimalkan performa dari analisis data. Analisis data sangat bergantung pada preprocessing dan model representasi data. Ini adalah langkah yang paling penting sebelum menyimpan representasi dokumen untuk mengukur kemiripan. Dalam preprocessing terdapat beberapa proses yang menggunakan istilah-istilah dalam system temu kembali informasi. Diantaranya stopword dan stemming. Stopwords adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna [5]. Sedangkan stemming adalah proses untuk memecah setiap kata menjadi suatu bentuk kata dasar. Stem(akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan imbuhan (awalan dan akhiran) dan sisipannya. Sebelum dilakukan proses pembuangan stopwords, dilakukan proses case folding, yaitu pengubahan semua huruf dalam dokumen menjadi huruf kecil [6]. Stemming Bahasa Indonesia Ada banyak ragam pembentukan kata dalam Bahasa Indonesia. Sebagian besar kata dibentuk dengan cara menggabungkan beberapa komponen yang berbeda. Afiks (imbuhan) akan mengubah makna dan pembentukan kata. Prefiks (awalan) melekat di awal kata dasar, diantaranya: ber-, di-, ke-, me-, pe-, se-, ter-. Awalan yang mengalami peluluhan: meng-, mem-, meny-, per-, pem-, peng-, peny-. Untuk sufiks (akhiran), terdiri dari: -an, -kan, -i, -pun, -lah, -kah, -nya. Dan untukkonfiks (awalan-akhiran), terdiridari: ke - an, ber - an, pe - an, peng - an, peny - an, pem - an, per - an, se nya. Dalam penulisannya juga terdapat infiks (sisipan), reduplikasi dan kata-kata majemuk yang berafiks [7]. Algoritma Nazief dan Adriani [1], memiliki tahap-tahap sebagai berikut: 1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes ( -lah, -kah, -ku, - mu, atau -nya ) dibuang. Jika berupa particles ( -lah, -kah, -tah atau -pun ) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns ( -ku, - mu, atau -nya ), jika ada. 3. Hapus Derivation Suffixes ( -i, -an atau - kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jikatidakmakakelangkah 3a a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an atau - kan ) dikembalikan, lanjut langkah Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word 358
5 Fika Hastarita Rachman, Sistem Temu Kembali... belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 5. Melakukan recoding. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Tabel 1. Kombinasi awalan akhiran yang tidak diijinkan Tabel 2. Aturan tipe awalan untuk kata yang diawali dengan Te- Tabel 3. Jenis awalan berdasarkan tipe awalannya Model Ruang Vektor Model vektor adalah teknik standart dari sistem temu kembali informasi dimana dokumennya direpresentasikan dalam kata yang terkandung didalamnya. Model ruang vektor dibuat oleh Gerard Salton pada tahun 1960-an, model ini menkonversi teks dalam bentuk matrik dan vektor, kemudian digunakan teknik analisis matrik untuk menemukan relasi dan kunci dari koleksi dokumen yang sesuai dengan query yang dibutuhkan pengguna [8]. Representasi dokumen dan query dalam bentuk vektor dapat terlihat pada Gambar 4. Gambar 4. Tampilan ruang vektor dari dokumen dan query Kesamaan antar dokumen dapat diukur dengan fungsi similaritas (mengukur kesamaan) atau fungsi jarak(mengukur ketidaksamaan). Salah satu ukuran kemiripan teks yang populer [9] adalah cosine similarity. Ukuran ini menghitung nilai cosinus sudut antara dua vektor. Jika terdapat dua vektor dokumen dj dan queryq, serta t term diekstrak dari koleksi dokumen maka nilai cosinus antara dj dan q didefinisikan 359
6 Vol 2, No 3 Juni 2012 sebagai: similarity ( d j, q) d j. q d j. q i 1 t t i 1 ( w. w ) w ij 2 ij. t i 1 iq w 2 iq 2. Recall (kelengkapan) Parameter ini menunjukkan tingkat keberhasilan mengenali suatu event dari seluruh event yang seharusnya dikenali. Pengukuran Performa Sistem Nilai performansi sistem temu kembali informasi menunjukkan keberhasilan dari suatu sistem dalam mengembalikan informasi yang dibutuhkan oleh user. Pengukuran yang seringkali digunakan untuk mengukur performa kerja sistem temu kembali informasi adalah recall dan precision. 1. Precision (ketepatan) Parameter ini menunjukkan tingkat ketepatan hasil pencarian terhadap suatu event. METODE Jalan penelitian yang dilakukan meliputi 5 tahapan yaitu tahap 1 pemahaman awal, tahap 2 perancangan sistem, tahap 3 pembuatan sistem, tahap 4 pengujian sistem, dan tahap 5 adalah dokumentasi. Gambaran detail alurnya terlihat pada diagram alir pada Gambar 5. Gambar 5.Alur metodologi penelitian 360
7 Fika Hastarita Rachman, Sistem Temu Kembali... Dari analisa sistem diketahui terdapat beberapa masalah yang nantinya digunakan sebagai dasar pembuatan sistem. Diantaranya adalah: Adanya dokumen tesis yang semakin bertambah setiap tahunnya sehingga dibutuhkan sistem pencarian dengan performa yang baik. Kurang optimalnya penggunaan website referensi bagi pengguna perpustakaan jurusan dari sisi pencarian dokumen yang dibutuhkan. Dengan dukungan fasilitas website referensi, sumber daya yang dapat mengoperasikan komputer dengan baik (admin perpustakaan), dan sumber data digital yang ada, maka muncul peluang pengembangan sistem sekarang ke sistem baru melalui pembuatan mesin pencarian data digital dokumen dengan model sistem temu kembali informasi. Yang dijadikan sebagai sumber data digitalnya adalah data Tesis S2 salah satu perguruan tinggi negeri. Pengguna yang terlibat adalah pengguna umum sebagai pencari data dan administrasi perpustakaan yang berfungsi untuk manage data. Gambaran umum sistem secara keseluruhan terlihat pada Gambar Sistem harus mampu melakukan pembobotan/perankingan hasil dokumen pencarian. 4. Sistem harus memiliki fasilitas download dokumen hasil pencarian bagi anggota. Kelengkapan fitur dalam sistem didukung oleh adanya kebutuhan pengguna dalam melakukan hal-hal tertentu. Daftar kebutuhan pengguna terlihat pada Tabel 4. Dalam tabel tersebut diuraikan kebutuhan-kebutuhan yang diinginkan oleh aktor pengguna sistem. Tabel 4. Daftar Kebutuhan Pengguna Aktor Requirement Admin Anggota Pengguna Umum Dapat login dan logout dalam sistem Dapat merubah password Dapat menambahkan dokumen baru Dapat mengedit info dokumen yang sudah ada Dapat menghapus dokumen Dapat melakukan pencarian dokumen Dapat membuka/mendownload dokumen yang dipilih dari daftar dokumen hasil pencarian Dapat melakukan pencarian dokumen HASIL DAN PEMBAHASAN Gambar 6. Gambaran umum sistem pencarian dokumen Setelah dilakukan analisa sistem sebelumnya dan kelayakan sistem digunakan, maka terlihat bahwa dalam pembuatannya nanti diharapkan sistem memiliki kemampuan: 1. Sistem harus mampu melakukan preprocessing (case folding, tokenisasi, penghilangan stopword, dan stemming) data dokumen dalam bentuk digital untuk menghasilkan data indeks. 2. Sistem harus memiliki fasilitas input query dengan Bahasa Indonesia dan mampu untuk melakukan pencarian dokumen yang ada dalam koleksi dokumen. Terdapat beberapa ujicoba yang dilakukan terhadap 100 dokumen abstrak naskah publikasi Tesis dengan 12 variasi query pencarian. Dalam ujicoba proses tokenisasi (tokenization), terdapat hasil tokenisasi berupa kata yang disimpan dalam suatu array dan telah terdefinisi pada program. Tokenisasi untuk naskah dokumen dilakukan pada saat dokumen mengalami proses penyimpanan ke dalam database. Pada ujicoba proses stopword removal, proses berjalan lancar. Terbukti dengan adanya penghapusan kata yang sama dengan list stopword. data yang digunakan sebagai korpus adalah list stopword hasil penelitian Fadilah Z.Tala, sebanyak 364 kata. Hasil ujicoba algoritma stemming membuktikan bahwa algoritma stemming Nazief- Adriani, memiliki beberapa kelemahan.diantaranya: 1. Tidak adanya algoritma untuk mengatasi suatu kata yang bersisipan, seperti: kinerja 361
8 Jumlah data Vol 2, No 3 Juni Tidak adanya algoritma untuk mengatasi suatu kata yang imbuhannya meluluh, seperti: pengembangan, penerapan, pemasaran Dengan adanya kendala tersebut, term/bentuk dasar yang dihasilkan proses ini belum kesemuanya berbentuk kata dasar. Setelah dilakukan ujicoba sistem secara keseluruhan dengan 100 dokumen abstrak dan 12 query pencarian diperoleh jumlah dokumen terambil dan dokumen relevan yang berbeda Hasil ujicoba proses inverted index dan pembobotan tf-idf berlangsung dengan baik, sesuai dengan prosedur dalam perancangan. Untuk ujicoba sistem keseluruhan, diperoleh hasil 7299 index dan 2883 term. Nilai precision rata-rata yang dihasilkan adalah 0,397 dan nilai recall rata-rata yang dihasilkan adalah 0,847. Grafik pada Gambar 7 menunjukkan bahwa ada perbedaan jumlah dokumen yang terambil pada sistem menggunakan stemming dan dokumen yang relevan dengan keinginan pengguna pada tiap-tiap query pencarian. Tabel 5. Query pencarian ujicoba sistem Kode Isi Query Pencarian Q1 kepuasan pelanggan terhadap aplikasi Q2 aplikasi mobile dengan wireless Q3 Sistem jaringan computer Q4 pengolahan sinyal digital Q5 pengenalan sinyal suara dengan fuzzy Q6 evaluasi kegunaan SIAK Q7 evaluasi kinerja Q8 pendukung keputusan universitas Q9 Citra satelit Q10 evaluasi kesuksesan administrasi Q11 penggunaan aplikasi pemerintahan Q12 analisa manfaat terhadap masyarakat Relevan Terambil Terambil Relevan Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11 Q12 Indeks Query Gambar 7. Grafik perbandingan dokumen relevan terambil pada sistem Dari hasil pengujian diketahui bahwa rata-rata waktu pencarian adalah ±20 detik. Setelah dianalisa dengan melakukan perhitungan nilai big O maka diperoleh hasil bahwa sistem memiliki nilai pertumbuhan data yang sebanding dengan nilai kuadratik jumlah dari token yang akan diproses. Dengan kata lain perhitungan big O nya adalah O(n 2 ), dengan n adalah jumlah token yang digunakan. Token adalah hasil dari proses tokenisasi yang masukannya berupa data dokumen teks. Sehingga secara tidak langsung nilai kompleksitas waktu dari algoritma yang 362
9 Fika Hastarita Rachman, Sistem Temu Kembali... digunakan sebanding dengan jumlah dokumen yang digunakan. Semakin banyak dokumen koleksi, maka semakin besar pula nilai kompleksitasnya. Kata-kata dalam list stopword juga berpengaruh terhadap hasil pencarian. Hal ini terbukti ketika kata sistem dijadikan masukan, maka hasil keluaran adalah banyak dokumen, sehingga berpengaruh juga terhadap pengukuran precision. Gambar 8 menggambarkan tampilan utama sistem pencarian yang berbasis sistem temu kembali informasi untuk pengguna umum. Terlihat fitur yang diberikan hanya fitur pencarian dan info-info umum. Sedangkan tampilan utama untuk aktor admin tersedia beberapa fitur sesuai dengan fungsi dan kerja dari aktor tersebut, diantaranya: fitur tambah dokumen koleksi, list untuk naskah tesis, pencarian dokumen, tambah anggota dan lainnya. SIMPULAN 1. Model sistem temu kembali informasi dengan penggunaan stemming, dan pencarian ruang vector, serta inverted index mampu menghasilkan dokumen yang dibutuhkan pengguna. 2. Penggunaan algoritma stemming dapat mempengaruhi nilai similarity vector yang diperoleh. Untuk penggunaan algoritma Nazief Adriani dalam sistem ini, diperoleh pengukuran recall (kelengkapan) sebesar 84,7% dan precision sebesar 39,7%. Hal ini berarti system mampu meningkatkan performa pencarian, terutama untuk hal Gambar 8. Tampilan bagi pengguna umum kelengkapan perolehan dokumen yang diinginkan pengguna berdasarkan query yang dimasukkan. SARAN Dalam pengembangan sistem selanjutnya diharapkan pengembang sistem mampu mengembangkan system ke arah yang lebih luas lagi. 1. Dalam proses pencarian Sistem Temu Kembali Informasi dibuat adanya klustering, sehingga hasil pencariannya lebih optimal dengan stopword list yang semakin luas sesuai dengan bidang dalam dokumen koleksi 2. Penggunaan stemming untuk dua atau lebih bahasa dalam penerapan Sistem Temu Kembali Informasi (misal: Inggris dan Indonesia), sehingga dokumen yang dijadikan korpus lebih luas. 3. Adanya proses kesamaan term, antara term yang dijadikan query dengan beberapa term yang memiliki arti yang sama, semisal: cinta 363
10 Vol 2, No 3 Juni 2012 dengan love sehingga dapat meningkatkan performa pencarian 4. Adanya penelitian mengenai peningkatan kompleksitas algoritma (O(n)) terhadap performa kinerja Sistem Temu Kembali Informasi 5. Adanya penelitian dengan menggunakan algoritma stemming yang kompleks, yang mampu mengenali bentuk-bentuk kata berimbuhan, bersisipan, mengalami peluluhandan kata majemuk DAFTAR PUSTAKA [1] Mirna. A, Asian, J., Bobby N., Tahagoghi W., Hugh E., Stemming Indonesian: A Confix- Stripping Approach, Artikel ACM Transactions on Asian Language Information Processing, Vol.6, No.4, Artikel 13, Desember [2] Lady, A., Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia, Konferensi nasional Sistem dan Informatika, Bali, [3] Ricardo Y. B., Berthier Ribeiro N.B, Modern Information Retrieval, ACM Press, New York, [4] Nisa, N., An Analysis of Hierarchical Clustering and Neural Network Clustering for Suggestion Supervisitors and Examiners, Tesis S2 Universitas Teknologi Malaysia, [5] Yudi, 2008, Stopword Untuk Bahasa Indonesia. URL : op-words-untuk-bahasa-indonesia/, Tanggal akses: 14 Maret [6] Wibisono, Y., Khondra, A., Clustering Berita Berbahasa Indonesia, KNSI, [7] Anonymous, Kamus Elektronik Indodic, Pembentukan Kata-kata Bahasa Indonesia, URL: Tanggal akses: 28 April [8] Said, A., Mohammad, A., Rosni, N, Aini, Modified Vector Space Model for Protein Retrieval, IJCSNS International Journal of Computer Science and Network Security, [9] Sandeep, T., Patel M., Jignesh, Estimating the Selectivity of tf-idf based Cosine Similarity Predicates, Sigmod Record, Vol. 36 No.4, Desember,
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan
Lebih terperinciRANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal
Lebih terperinciPERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA
PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com
Lebih terperinciINFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER
INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem
Lebih terperincicommit to user BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek
Lebih terperinciSISTEM TEMU BALIK INFORMASI
SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU
Lebih terperinciSistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient
Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan
Lebih terperinciPERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY
Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
Lebih terperinciPemanfaatan Aljabar Vektor Pada Mesin Pencari
Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia
Lebih terperinciAPLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL
APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan
Lebih terperinciPEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING
PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING Noor Ifada, Husni, Rahmady Liyantanto Jurusan Teknik Informatika, Fakultas Teknik, Universitas Truojoyo
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
Lebih terperinciBAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciPENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS
PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,
Lebih terperincicommit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari
Lebih terperinciTabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita
6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional
Lebih terperinciSISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL
SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciIMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB
IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi
Lebih terperinciTugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System
Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus
Lebih terperinciSISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR
SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik
Lebih terperinciText Pre-Processing. M. Ali Fauzi
Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.
Lebih terperinciAPLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING
APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING Julianto Wibowo Mahasiswa Program Studi Teknik Informatika, STMIK Budi Darma Medan Jl. Sisimangaraja
Lebih terperinciPENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL
Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,
Lebih terperinciTugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System
Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus
Lebih terperinciSistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)
Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,
Lebih terperinci1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah
1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciPERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL
PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
Lebih terperinciPERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA
PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,
Lebih terperinciPersonalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity
Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity 1) Tjiong Debora Yulianti, 2) Ade Iriani, 3) Hendry Fakultas Teknologi Informasi Universitas
Lebih terperinciABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha
ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan
Lebih terperinciPENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh
PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA Oleh Made Satria Wibawa, 0815051003 Jurusan Pendidikan Teknik Informatika Fakultas
Lebih terperinciPENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR
PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Sentimen Analisis Analisis sentimen juga dapat dikatakan sebagai opinion mining. Analisis sentimen dapat digunakan dalam berbagai kemungkian domain, dari produk konsumen, jasa
Lebih terperinciBAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era
BAB I PENDAHULUAN 1.1 Latar Belakang Information retrieval atau disingkat dengan IR adalah menemukan bahan (dokumen) dari dokumen terstruktur (biasanya teks) yang memenuhi kebutuhan informasi pada ruang
Lebih terperinciANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM
ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Natural Language Processing Natural language processing (NLP), merupakan salah satu pendekatan terkomputerisasi untuk menganalisa teks berdasarkan aspek teori dan teknologi. Menurut
Lebih terperinciFatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang
45 Dinamika Teknik Januari IMPLEMENTASI SEARCH ENGINE (MESIN PENCARI) MENGGUNAKAN METODE VECTOR SPACE MODEL Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang Abstract Growth of Machine
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &
Lebih terperinciPeningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25
54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi
Lebih terperinci1. Pendahuluan. 1.1 Latar belakang
1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu
Lebih terperinciTEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL
TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL Giat Karyono 1, Fandy Setyo Utomo 2 1 Program Studi Teknik Informatika, STMIK AMIKOM Purwokerto E-mail
Lebih terperinciPemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity
Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua
BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen
Lebih terperinciDAFTAR ISI. SKRIPSI... ii
DAFTAR ISI SKRIPSI... i SKRIPSI... ii HALAMAN PENGESAHAN... ii PERNYATAAN... iii HALAMAN MOTO DAN PERSEMBAHAN... iv PRAKATA... v DAFTAR ISI... vii DAFTAR GAMBAR... x DAFTAR TABEL... xiii INTISARI... xiv
Lebih terperinciBAB 1 PENDAHULUAN Latar Belakang
BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan yang pesat di bidang teknologi informasi terutama internet, telah menimbulkan lonjakan informasi yang hebat. Hal ini terjadi karena internet memungkinkan banyak
Lebih terperinciIMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN
Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard
Lebih terperinciBAB I PENDAHULUAN Latar Belakang Masalah
BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun
Lebih terperinciJURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :
Analisis Perbandingan Metode Vector Space Model dan Weighted Tree Similarity dengan Cosine Similarity pada kasus Pencarian Informasi Pedoman Pengobatan Dasar di Puskesmas Viko Basmalah Wicaksono Jurusan
Lebih terperinciBAB 2 LANDASAN TEORI. 2.1 Text mining
BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.
Lebih terperinciTEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK
F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas
Lebih terperinciPEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN
PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi
Lebih terperinciBAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang
58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan
Lebih terperinciBAB 3 ANALISIS MASALAH DAN PERANCANGAN
BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk
Lebih terperinciInera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL
Lebih terperinciIMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT
IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT 10108371 Latar Belakang Masalah 1. Jumlah buku yang semakin banyak. 2. Belum adanya sistem pencarian informasi buku
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinci1. Pendahuluan 2. Kajian Pustaka
1. Pendahuluan Evaluasi hasil belajar menjadi komponen yang sangat penting dalam proses pembelajaran, karena hasil evaluasi merupakan indikator dari pemahaman siswa terhadap materi ajar yang diberikan.
Lebih terperinciImplementasi Stemmer Tala pada Aplikasi Berbasis Web
Mardi Siswo Utomo Program Studi Teknik Informatika, Universitas Stikubank email : mardiutomo@gmail.com Abstrak Stemming adalah proses untuk mencari kata dasar pada suatu kata. Pada analisa temu kembali
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciBAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Perpustakaan Digital Menurut Putu Laxman Pendit dalam bukunya Perpustakaan Digital dari a- z, fenomena perpustakaan digital memperlihatkan perluasan upaya manusia di bidang informasi
Lebih terperinciContoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor
Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen
Lebih terperinciRANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+
RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+ LEMBAR JUDUL SKRIPSI DENI SUPRIAWAN NIM. 1108605001 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN
Lebih terperinciAnalisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem
Lebih terperinciUKDW BAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan pengetahuan dan kehidupan manusia sungguh dipercepat dengan kemudahan akses terhadap begitu banyak informasi. Pada beberapa waktu yang lalu akses terhadap
Lebih terperinciJULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian
Lebih terperinciBAB I PENDAHULUAN I.1. Latar Belakang Masalah
BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung
Lebih terperinciPengujian Kerelevanan Sistem Temu Kembali Informasi
Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem
Lebih terperinciJURNAL INFORMATIKA IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL
IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL Jasman Pardede [1], Mira Musrini Barmawi [2], Wildan Denny Pramono [3] Jurusan Teknik Informatika Institut Teknologi
Lebih terperinciPERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency
PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya
Lebih terperinciIMPLEMENTASI ALGORITMA VECTOR SPACE MODEL DALAM PENCARIAN E-BOOK
IMPLEMENTASI ALGORITMA VECTOR SPACE MODEL DALAM PENCARIAN E-BOOK Nurul Annisa 1),Warnia Nengsih, S.Kom., M.Kom. 2) & Ananda. S.kom., M.T. 3) Program Studi Sistem Informasi 12), Teknik Informatika Multimedia
Lebih terperinciIMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).
Lebih terperinciEKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN
EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik
Lebih terperinciAplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)
Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database
Lebih terperinciTUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL
TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL MICHAEL SENNA SAPUTRA NIM. 1008605062 PROGRAM STUDI TEKNIK
Lebih terperinciIMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI
IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik
Lebih terperinciPenerapan Algoritma K-Means untuk Clustering
Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah
Lebih terperinciPemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami
Lebih terperinciBAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
Lebih terperinciBAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka
Lebih terperincibeberapa tag-tag lain yang lebih spesifik di dalamnya.
metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista
Lebih terperinciAnalisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia
ISSN : 088-9984 Seminar Nasional dan ExpoTeknik Elektro 0 Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia Jiwa Malem Marsya ) dan Taufik Fuadi Abidin ) ) Data Mining and IR Research Group FMIPA
Lebih terperinciBAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi
BAB II LANDASAN TEORI 2.1 Perpustakaan Perpustakaan adalah institusi pengelola karya tulis, karya cetak, atau karya rekam secara profesional dengan sistem yang baku guna memenuhi kebutuhan pendidikan,
Lebih terperinciPRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)
PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir
Lebih terperinci