Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

dokumen-dokumen yang mirip
Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

JURNAL INFORMATIKA IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL

BAB I PERSYARATAN PRODUK

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

BAB I PENDAHULUAN Latar Belakang

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB I PENDAHULUAN 1.1 Latar Belakang

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

BAB III METODOLOGI PENELITIAN

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Implementasi Generalized Vector Space Model Menggunakan WordNet

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

BAB I PENDAHULUAN Latar Belakang Masalah

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB 1 PENDAHULUAN UKDW

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB 1 PENDAHULUAN UKDW

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

BAB II TINJAUAN PUSTAKA

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB I PENDAHULUAN 1.1 Latar Belakang

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

UNIVERSITAS BINA NUSANTARA

DAFTAR ISI. SKRIPSI... ii

BAB III METODOLOGI PENELITIAN

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

commit to user BAB II TINJAUAN PUSTAKA

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

BAB I PENDAHULUAN. tersebut dibuktikan dengan semakin canggihnya perangkat keras seperti prosesor,

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB IV ANALISA DAN PERANCANGAN

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

BAB II LANDASAN TEORI

BAB I. Pendahuluan. 1. Latar Belakang Masalah

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Pengujian Kerelevanan Sistem Temu Kembali Informasi

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

SISTEM PENCARIAN SKRIPSI BERBASIS INFORMATION RETRIEVAL DI FASTIKOM UNSIQ

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB 3 ANALISA DAN PERANCANGAN

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

BAB 2 TINJAUAN PUSTAKA

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

RANCANG BANGUN SISTEM PENCARIAN DOKUMEN JURNAL MENGGUNAKAN METODE BM25+

BAB III METODOLOGI PENELITIAN

Information Retrieval

PENDAHULUAN. Latar belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

PENERAPAN ALGORITMA DEPTH FIRST SEARCH PADA SISTEM PENCARIAN DOKUMEN APPLYING DEPTH FIRST ALGORITHM ON DOCUMENT SEARCHING SYSTEM

PERANCANGAN DAN PEMBUATAN APLIKASI UNTUK PENCARIAN WEB SERVICE MENGGUNAKAN LUCENE

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

Search Engines. Information Retrieval in Practice

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

BAB III PERANCANGAN APLIKASI & MEKANISME PEMBOBOTAN SICBI

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

1.5 Metode Penelitian

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN I-1

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

1 PENDAHULUAN. 1.1 Latar Belakang

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

BAB III METODOLOGI PENELITIAN

QUERY EXPANSION DENGAN MENGGABUNGKAN METODE RUANG VEKTOR DAN WORDNET PADA SISTEM INFORMATION RETRIEVAL

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

Transkripsi:

Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus Eka Pratama, ST MT Jurusan Teknologi Informasi Fakultas Teknik Universitas Udayana 2015

KATA PENGANTAR Puji syukur kami panjatkan kehadirat Tuhan Yang Maha Esa karena dengan rahmat, karunia, dan berkat-nya penulis dapat menyelesaikan makalah tentang Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System ini dengan baik meskipun banyak kekurangan didalamnya. Dan juga kami berterima kasih pada Bapak I Putu Agus Eka Pratama, ST MT selaku Dosen mata kuliah Sistem Temu Kembali Informasi di jurusan Teknologi Informasi Universitas Udayana yang telah memberikan tugas ini. Penulis sangat berharap makalah ini dapat berguna dalam rangka menambah wawasan serta pengetahuan kita mengenai Sistem temu kembali informasi dan model pencarian dalam search engine seperti Generalized Vector Space Model. Kami juga menyadari sepenuhnya bahwa di dalam makalah ini terdapat kekurangan dan jauh dari kata sempurna. Oleh sebab itu, penulis berharap adanya kritik, saran dan usulan demi perbaikan makalah yang telah kami buat di masa yang akan datang, mengingat tidak ada sesuatu yang sempurna tanpa saran yang membangun. Semoga makalah sederhana ini dapat dipahami bagi siapapun yang membacanya. Sekiranya laporan yang telah disusun ini dapat berguna bagi penulis sendiri maupun orang yang membacanya. Sebelumnya kami mohon maaf apabila terdapat kesalahan kata-kata yang kurang berkenan dan kami memohon kritik dan saran yang membangun demi perbaikan di masa depan. Jimbaran, Mei 2015 Penyusun i

Daftar Isi Kata Pengantar Daftar Isi Abstrak... i... ii... iii Bab I Pendahuluan 1.1 Latar Belakang... 1 1.2 Rumusan Masalah... 2 1.3 Solusi Yang Ditawarkan... 2 Bab II Landasan Teori Dan Desain Solusi 2.1 Landasan Teori... 3 2.1.1 Information Retrieval... 3 2.1.2 Generalized Vector Space Model... 5 2.1.3 Java Class Library... 7 2.2 Desain Solusi... 7 2.2.1 Gambaran Umum... 8 2.2.2 Use Case Diagram... 10 2.2.3 Sequence Diagram... 11 Bab III Analisa Dan Kesimpulan 3.1 Analisa... 13 3.2 Kesimpulan... 16 Daftar Pustaka... 17 ii

ABSTRAK Dengan pesatnya perkembangan dalam penggunaan teknologi komputer baik di perusahaan maupun di bidang pendidikan, maka semakin banyak pula dokumen-dokumen yang berbentuk digital yang dihasilkan. Untuk mencari dokumen-dokumen tersebut dibutuhkan waktu yang relatif lama apabila pencariannya dilakukan secara manual. Information Retrieval (IR) adalah sebuah metode untuk mengambil data terstruktur yang tersimpan dalam koleksi dokumen, kemudian menyediakan informasi yang diperlukan. Tujuan dari sistem IR adalah untuk mengambil dan menampilkan dokumen yang relevan dengan input pengguna (query). IR memerlukan sebuah metode untuk dapat mencari dokumendokumen tersebut dengan waktu yang cepat. Generalized Vector Space Model (GVSM) adalah salah satu dari model sistem IR yang termasuk dalam model aljabar. Query yang dimasukkan oleh pengguna akan diproses terlebih dahulu. Pengolahan kata meliputi tokenizing, stop word removal, dan stemming. Dengan mengimplementasikan GVSM pada sistem IR ini diharapkan dapat melakukan pencarian dokumen seperti pdf (*.pdf) dan Ms Word Doc (*.doc & *.docx.) yang relevan dengan query. Hasil pencarian ini disusun berdasarkan nilai kesamaan GVSM yang tertinggi. Dengan menggunakan Generalized Vector Space Model, hasil pencarian dokumen menjadi lebih relevan berdasarkan nilai perbandingan kemiripan. Kata kunci : Generalized Vector Space Model, Query, Information Retrieval iii

BAB I PENDAHULUAN 1.1 Latar Belakang Information Retrieval (IR) merupakan suatu metode untuk menemukan kembali data tidak terstruktur yang tersimpan pada sekumpulan dokumen, kemudian menyediakan informasi mengenai subyek yang dibutuhkan. Tujuan dari sistem IR ini adalah memenuhi kebutuhan informasi pengguna dengan mendapatkan semua dokumen yang relevan dengan kebutuhan pengguna dan pada waktu yang sama mendapatkan sesedikit mungkin dokumen yang tak relevan. Pengguna dapat menemukan informasi yang relevan dengan membaca seluruh dokumen yang ada pada tempat penyimpanannya, menyimpan dokumen-dokumen yang relevan, membuang dokumen yang tidak relevan, dan mengurutkan dokumen-dokumen yang sesuai dengan keperluannya. Hal tersebut merupakan sistem IR yang sempurna, tetapi solusi ini tidak praktis dan efisien. Dikarenakan pengguna tidak memiliki banyak waktu untuk membaca seluruh dokumen satu per satu dari sekian banyak dokumen yang ada. Terdapat beberapa metode dalam sistem IR dokumen diantaranya adalah metode Gravitation Based Model, Latent Semantic Model, Vector Space Model, dan Generalized Vector Space Model. Model Information Retrieval yang baik memungkinkan pengguna menentukan secara cepat dan akurat apakah isi dari dokumen yang diterima memenuhi kebutuhannya. Generalized Vector Space Model (GVSM) merupakan salah satu model sistem Information Retrieval (IR) yang termasuk dalam Algebraic Model yang merupakan perluasan dari Vector Space Model (VSM), proses yang terjadi pada GVSM terbagi menjadi dua yaitu tahapan preprocessing yang terdiri dari reading text (*.pdf,*.doc,*.docx), tokenizing, filtration, stemming dan parse query, sedangkan proses yang kedua adalah menghitung relevansi antara kumpulan dokumen yang telah di-preprocess dengan query yang diinginkan pengguna. Banyaknya kemunculan kata dalam kumpulan dokumen yang sesuai dengan query akan dihitung. Query yang dimasukan oleh pengguna dan dokumen diterjemahkan menjadi vektor-vektor kemudian vektor-vektor 1

tersebut dikenakan operasi perkalian titik dan hasilnya menjadi acuan dalam menentukan relevansi masukan pengguna (query) terhadap kumpulan dokumen. Berdasarkan permasalahan tersebut metode Algoritma Generalized Vector Space Model digunakan pada aplikasi Information Retrieval untuk membangun sebuah aplikasi pencarian informasi pada kumpulan dokumen berdasarkan query yang dimasukan oleh pengguna. 1.2 Rumusan Masalah Berdasarkan uraian latar belakang masalah yang dikemukakan, maka dapat dirumuskan beberapa masalah sebagai berikut. 1. Bagaimana sistem dapat membaca dokumen berformat *.pdf,*.doc dan *.docx. 2. Bagaimana tahapan preprocessing dapat bekerja pada sistem. 3. Bagaimana faktor normalisasi digunakan untuk menormalkan vektor dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari suatu dokumen. 4. Bagaimana memperoleh dokumen yang relevan dan sudah terurut sesuai dengan query yang dimasukan pengguna dengan menggunakan metode generalized vector space model. 5. Bagaimana proses multi thread dapat bekerja pada proses stemming untuk mempercepat pencarian dokumen. 1.3 Solusi Yang Ditawarkan Berdasarkan uraian latar belakang dan rumusan masalah diatas, solusi yang ditawarkan untuk menciptakan sistem IR yang praktis dan efisien yaitu dengan mengimplementasikan metode Algoritma Generalized Vector Space Model yang dapat digunakan pada aplikasi Information Retrieval untuk membangun sebuah aplikasi pencarian informasi pada kumpulan dokumen berdasarkan query yang dimasukan oleh pengguna. Sehingga memudahkan user dalam melakukan pencarian data yang efektif dan efisien. 2

BAB II LANDASAN TEORI DAN DESAIN SOLUSI 2.1 Landasan Teori Pada bab ini, disajikan sejumlah landasan teori yang mendasari solusi yang diajukan untuk permasalahan yang diangkat pada tugas makalah ini. Landasan teori tersebut yaitu Information Retrieval, Generalized Vector Space Model (GVSM) dan Java Class Library (JCL), Referensi yang digunakan tercantum pada bagian Daftar Pustaka. 2.1.1 Information Retrieval Sistem information retrieval (IR) system adalah system yang digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis [Bunyamin, 2005]. Sistem IR terutama berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan sistem IR dengan sistem basis data. Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu dokumen sangat tergantung pada pembuat dokumen tersebut. Sebagai suatu sistem, sistem IR memiliki beberapa bagian yang membangun sistem secara keseluruhan. Gambaran bagian-bagian yang terdapat pada suatu sistem IR digambarkan pada Gambar 2.1. 3

Gambar 2.1 Bagian-Bagian Information System Retrieval Dari gambar 2.1, terlihat bahwa terdapat dua proses operasi dalam sistem IR. Proses pertama dimulai dari koleksi dokumen dan proses kedua dimulai dari query pengguna. Proses pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak ada ketergantungan dengan proses kedua. Sedangkan proses kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada proses pertama. Bagian-bagian dari sistem IR menurut gambar 1 meliputi : 1) Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi term index (indeks dari kata-kata). 2) Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata query. 3) Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query. 4

4) Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan. Sistem IR menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query. Namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, sumber informasi maupun tujuan pengguna. 2.1.2 Generalized Vector Space Model (GVSM) Generalized Vector Space Model (GVSM) adalah perkembangan dari Vector Space Model yang mempertimbangkan kedekatan sense antar term dengan lebih akurat, dalam merepresentasikan dokumen. Wong et al. (1987) membuat GVSM pertama, yang memperkenalkan korelasi antar term, yang menganggap bahwa setiap term dinyatakan sebagai kombinasi linier dari vektor 2 dimensi. Ada beberapa langkah atau proses untuk mendapatkan hasil dari query yang dimasukkan, yang disebut algoritma Generalized Vector Space Model [Baeza,1999]: 1. Membuang kata depan dan kata penghubung. 2. Menggunakan stemmer pada kumpulan dokumen dan query, yaitu aplikasi yang digunakan untuk menghilangkan imbuhan (awalan, akhiran). Contoh : keagungan = agung, keabadian = abadi. 3. Menentukan minterm untuk menentukan kemungkinan pola frekuensi kata. Panjang minterm ini didasarkan pada banyak kata yang dimasukan pada query. Kemudian diubah menjadi vektor ortogonal sesuai dengan pola minterm yang muncul. Kemungkinan pola yang akan muncul adalah : 5

M1= (0,0,0) M2= (1,0,0)... Mn= (0,0,0) 4. Menghitung banyaknya frekuensi atau kemunculan kata dalam kumpulan dokumen yang sesuai dengan query 5. Menghitung index term yang dapat dinyatakan dengan : Dimana : K i : index term ke-i M r : vektor ortogonal sesuai pola minterm yang terpakai C i,r : faktor korelasi antara index term i dengan minterm r Sedangkan faktor korelasi sebagai berikut : Dimana : C i,r : faktor korelasi antara index term i dengan minterm r W i,j : berat index term i pada dokumen j g i (m r ): bobot index term k i dalam minterm m r 6. Mengubah dokumen dan query menjadi vektor Dimana : d j : vektor dokumen ke-j q : vektor query w i,j : berat index term i pada dokumen j 6

q i : berat index term pada query i k i : index term n : jumlah index term 7. Mengurutkan dokumen berdasarkan similaritas, dengan menghitung perkalian vektor Dimana : d j : vektor dokumen j q : vektor query 2.1.3 Java Class Library (JCL) Java Class Library (JCL) adalah suatu set bahasa pemrograman java yang telah ditata secara rapih sebagai loadable library yang dapat dipanggil saat aplikasi dijalankan. Karena platform java tidak tergantung pada sistem operasi tertentu, maka aplikasi java tidak bisa mengandalkan pada satu library bawaan java saja. Walaupun java telah menyediakan kelas library standar, yang berisi fungsi-fungsi umum untuk sistem operasi yang beragam. Java Class Library yang digunakan pada pembangunan aplikasi ini adalah Apache Pdf Box yang berfungsi untuk membaca dan mendapatkan teks pada dokumen pdf, Apache POI yang berfungsi untuk membaca dan mendapatkan teks pada dokumen berformat *.doc dan *.docx dan StringBuilder yang berfungsi untuk menghapus karakter. 2.2 Desain Solusi Solusi dari permasalahan ini yaitu untuk mengimplementasikan metode GVSM pada sebuah system IR. Dalam sub bab ini akan dijelaskan gambaran umum sistem dan juga di jelaskan use case diagram serta sequence diagram yang akan dirancang pada sistem IR yang akan dibangun. 7

2.2.1 Gambaran Umum Pada aplikasi Information Retrieval ini terdapat dua proses operasi, proses pertama dimulai dari koleksi dokumen dan proses kedua dimulai dari query yang dimasukan oleh pengguna. Adapun proses kerja dari aplikasi Information Retrieaval ini ditunjukan pada Gambar 2.2. Gambar 2.2 Gambaran Umum Sistem IR Dengan Metode GVSM Setiap dokumen yang berada pada document collection (folder file) akan dibaca oleh sistem. Dokumen-dokumen yang dapat dibaca oleh sistem berformat *.doc, *.docx, dan *.pdf. 8

Hasil dari pembacaan dokumen tersebut akan dilakukan proses tokenizing, yaitu proses pemecahan karakter dan symbol selain a-z akan dihilangkan, pemecahan kalimat dan kata dilakukan berdasarkan pada spasi didalam teks dokumen tersebut. Setiap kumpulan term (kata) yang dihasilkan dari setiap dokumen akan dilakukan proses filtration (stop word removal) pada proses ini setiap kata yang tidak relevan namun sering muncul dalam sebuah dokumen akan dihilangkan dengan cara membandingkan dengan stop word list yang ada. Term yang dihasilkan dari proses sebelumnya akan dilakukan prosesstemming, yaitu proses pencarian bentuk dasar suatu kata pada kalimat dengan cara menghilangkan imbuhannya, lalu dari setiap term tersebut akan diberikan bobot term (term weighting). Term yang telah mengalami proses tokenizing, filtration, stemming dan term weighting merupakan term yang akan menjadi indeks dari dokumen koleksi. Proses kedua dimulai dari query, pada proses ini pengguna memasukan query, lalu query tersebut dipecah (parse query) menjadi beberapa tahapan proses, yaitu proses tokenizing, filtration dan stemming. Query yang telah mengalami proses preprocessing dan menghasilkan term akan diberikan bobot dan akan menjadi indeks dari query. Setelah preprocessing telah selesai maka selanjutnya adalah proses pengurutan dokumen menggunakan metode Generalized Vector Space Model, pengurutan dokumen ini berdasarkan term query yang berada pada collection index (folder file) setiap dokumen. Setiap query akan dijadikan sebagai minterm dan dicari pada collection index (folder file) yang kemudian akan dilakukan penghitungan frekuensi termquery pada setiap dokumen. Proses selanjutnya adalah menghitung indeks term dan mengubah dokumen dan query kedalam bentuk vektor. Untuk menghitung korelasi atau similiaritas antara dokumen dan query maka dilakukan proses perkalian titik antara vektor query dengan vektor dokumen untuk mendapatkan bobot setiap dokumen sebagai acuan dalam pengurutan dokumen yang sesuai dengan query yang dimasukan oleh pengguna. Output dari sistem Information Retrieaval ini adalah list dokumen yang 9

sesuai dengan pencarian yang dimasukan oleh pengguna, list yang ditampilkan dimulai dari dokumen yang memiliki bobot tertinggi yang sesuai dengan tingkat kemiripan dengan query hingga bobot dokumen yang terendah. setiap list dapat dilihat sebagai preview dan juga dapat dilihat dengan membuka dokumen tersebut menggunakan aplikasi microsoft word untuk dokumen yang berformat *.doc dan *.docx sedangkan dokumen yang berformat *.pdf dapat dijalankan dengan menggunakan aplikasi pdf reader. Selain proses pencarian dokumen, sistem juga menyediakan fitur penunjang yaitu fitur read document, fitur tokenization fitur filtration,fitur stemming, fitur add dictionary dan fitur add stop word list. 2.2.2 Diagram Use Case Berdasarkan analisis, maka didefinisikan kebutuhan fungsionalitasfungsionalitas yang meliputi fungsionalitas pencarian dokumen, fungsionalitas display document, fungsionalitas update kamus kata dasar, fungsionalitas update stop word list, fungsionalitas read document, fungsionalitas tokenizing, fungsionalitas filtration, dan fungsionalitas stemming. Seluruh fungsionalitas aplikasi dinyatakan pada use case pada Gambar 2.3. 10

Gambar 2.3 Use Case Sistem IR Dengan Model GVSM 2.2.3 Diagram Sequence Sequence diagram digunakan untuk menggambarkan prilaku sistem terhadap suatu interaksi yang dilakukan pada sistem tersebut. Untuk memberikan kejelasan dalam alur dari sistem secara teknis didalam melaksanakan fungsionalitas-fungsionalitas yang harus difasilitasi oleh sistem yang dinyatakan pada use case diagram, maka dibuatlah sequence diagram dari use case pencarian dokumen yang digambarkan pada Gambar 2.4. 11

Gambar 2.4 Sequence Diagram Dari Sistem IR Dengan Metode GVSM 12

BAB III ANALISA DAN KESIMPULAN 3.1 Analisa Pada sub bab ini dijelaskan implementasi dan pengujian Metode GVSM pada sistem IR. Tahapan implementasi dan pengujian ini dilakukan setelah perancangan selesai dilakukan dan selanjutnya akan diimplementasikan pada bahasa pemrograman yang akan digunakan yaitu bahasa pemrograman java. Aplikasi ini merupakan sebuah aplikasi search engine dari dokumendokumen yang terdapat di database yang telah diinputkan. Pada aplikasi Information Retrieaval dengan metode Generalized Vector Space Model, dilakukan pengujian black box testing yang berfungsi untuk menguji setiap fungsionalitas aplikasi yang telah dibuat. Untuk dapat menguji fungsi pencarian dokumen, dilakukan pengujian pencarian dokumen dengan query Kecelakaan Pesawat. Pengujian ini dibagi menjadi dua bagian pengujian yaitu pengujian fungsi menu pencarian dokumen menggunakan multi thread yang diuraikan pada Lampiran Tabel 1. dan fungsi pencarian dokumen tanpa menggunakan multi thread yang diuraikan pada Lampiran Tabel 2. Hasil dari pengujian pencarian dokumen menggunakan multi Thread ditunjukan pada Gambar 3.1 dan hasil dari pengujian pencarian dokumen tanpa menggunakan multi thread ditunjukan pada Gambar 3.2. Untuk menguji ketepatan dan keakuratan aplikasi Information Retrieaval menggunakan metode Generalized Vector Space Model, dilakukan percobaan dengan menghitung nilai precision dan nilai recall yang dipaparkan pada Tabel1. Hasil Pengujian. Precision adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukan oleh sistem. Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total jumlah dokumen yang relevan dalam kumpulan dokumen. Sedangkan Recall adalah rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan. 13

Gambar 3.1 Pengujian Sistem Menggunakan Thread 14

Gambar 3.1 Pengujian Sistem Tanpa Menggunakan Thread Tabel 3.1 Hasil Pengujian No Dokumen Dengan Thread Tanpa Thread Waktu (detik) Jumlah yang Dengan Tanpa Dokumen Precision Recall Precision Recall ditemukan thread thread 1 10 0 100 100 100 100 0.748 2.995 2 20 8 100 100 100 100 1.248 3.223 3 30 9 100 100 100 100 2.746 7.862 4 40 11 100 100 100 100 3.183 7.582 5 50 15 100 100 100 100 3.136 7.519 6 60 20 100 100 100 100 5.708 11.013 7 70 22 100 100 100 100 6.162 12.964 8 80 22 100 100 100 100 7.114 14.687 9 90 24 100 100 100 100 7.114 17.35 10 100 24 100 100 100 100 10.047 20.299 15

3.2 Kesimpulan Berdasarkan hasil pengujian yang dilakukan dapat disimpulkan bahwa hasil pencarian dan pengurutan aplikasi information retrieaval menggunakan metode Generalized Vector Space Model dapat menjalankan semua fungsionalitas pencarian dengan baik dan memiliki ketepatan dan keakuratan yang tinggi. Selain itu dapat dilihat penggunaan multithread dan tanpa menggunakan multithread memiliki nilai bobot dan perankingan yang sama. Tetapi pada pengujian menggunakan multithread waktu yang dibutuhkan adalah 10,047 detik, sedangkan pengujian tanpa menggunakan multithread waktu yang dibutuhkan adalah 20,299 detik. Hal ini menunjukkan bahwa menggunakan multithread dalam proses pencarian dan perankingan dapat menghemat waktu lebih dari 50%. Kesimpulan yang dapat diperoleh dari penelitian ini adalah: 1. Metode GVSM pada sistem IR dapat diimplementasikan dengan baik berdasarkan studi kasus aplikasi diatas. 2. Aplikasi IR dengan metode GVSM mampu menemukan kembali dokumen yang relevan dan sudah terurut sesuai dengan query yang dimasukan pengguna dengan nilai precision dan recall sebesar 100%. 3. Aplikasi IR dengan metode GVSM bekerja dengan baik pada jumlah dokumen sedikit maupun pada jumlah dokumen yang banyak. 4. Penggunaan Multi Thread dalam proses pencarian dan pengurutan dapat menghemat waktu proses hingga lebih dari 50%. 16

Daftar Pustaka Anonymous. IR Models. http://www.cs.ui.ac.id/webkuliah/tksi/mik/irmodels.doc. 12 Desember 2007. Bunyamin, Hendra. 2008. "Aplikasi Information Retrieval (IR) CATA dengan Metode Generalized Vector Space Model". Jurnal Informatika, Vol.4, No.1, Juni 2008:29 38 Handojo, Andreas. Widjaya, Charistian. Wibowo, Adi. 2012. "PEMBUATAN APLIKASI PENCARIAN DOKUMEN BERBASIS GENERALIZED VECTOR SPACE MODEL DAN SEMANTIC RELATEDNESS". Penelitian. Surabaya: Fakultas Teknologi Industri, Universitas Kristen Petra Pardede, Jasman dkk. 2013. "Implementasi Metode GVSM pada Aplikasi IR". Jurnal Informatika, No.1, Vol 4, Januari-April 2013 ISSN:2087-5266 Wibowo, Adi dkk. "Implementasi Generalized Vector Space Model Menggunakan WordNet". 17