RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

dokumen-dokumen yang mirip
STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 1 PENDAHULUAN UKDW

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

commit to user BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN UKDW

BAB 3 LANDASAN TEORI

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

BAB II LANDASAN TEORI

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

BAB IV ANALISA DAN PERANCANGAN

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

BAB III METODOLOGI PENELITIAN

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

BAB III METODOLOGI PENELITIAN

INFORMATION RETRIEVAL DOKUMEN TESIS UNTUK MENGETAHUI KEMIRIPANNYA DENGAN PENELITIAN YANG TELAH ADA

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB II LANDASAN TEORI

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

IMPLEMENTASI VECTOR SPACE MODEL UNTUK PENCARIAN DOKUMEN

BAB 1 PENDAHULUAN Latar Belakang

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

ROCCHIO CLASSIFICATION

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB 2 TINJAUAN PUSTAKA

beberapa tag-tag lain yang lebih spesifik di dalamnya.

BAB II LANDASAN TEORI

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

SISTEM QUR AN RETRIEVAL TERJEMAHAN BAHASA INDONESIA BERBASIS WEB DENGAN REORGANISASI KORPUS

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

BAB III METODOLOGI PENELITIAN

Pendeteksi Redundansi Kata pada Pasangan Kalimat dalam Bahasa Indonesia dan Bahasa Inggris

INFORMATION RETRIEVAL TUGAS AKHIR DAN PERHITUNGAN KEMIRIPAN DOKUMEN MENGACU PADA ABSTRAK MENGGUNAKAN VECTOR SPACE MODEL

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

BAB II TINJAUAN PUSTAKA

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

Aplikasi Pencarian Karya Tulis Ilmiah Berbasis Web Menggunakan Sistem Rekomendasi

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

BAB 3 LANDASAN TEORI

SISTEM TEMU KEMBALI INFORMASI

Sistem Deteksi Plagiarisme Dokumen Bahasa Indonesia Menggunakan Metode Vector Space Model

BAB I PERSYARATAN PRODUK

Sistem Temu Kembali Informasi/ Information Retrieval

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

BAB 3 LANDASAN TEORI

Sistem Temu-Kembali Informasi Pengantar Perkuliahan

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB I PENDAHULUAN. Temu kembali informasi (information retrieval) adalah sebuah proses

DAFTAR ISI. SKRIPSI... ii

PROGRAM BANTU PEMILIHAN LAGU PUJIAN BERDASARKAN TEMA KEBAKTIAN DENGAN MENGGUNAKAN METODE COSINUS SIMILARITY Studi Kasus: GKI Ngupasan

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

APLIKASI DETEKSI KEMIRIPAN TUGAS PAPER

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

Transkripsi:

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal Soedirman Jl. Mayjen Sungkono Blater Km 5. Purbalingga Email: lasmedi.afuan@unsoed.ac.id ABSTRAK Informasi merupakan hal yang sangat mudah didapatkan dan diakses. Tetapi terkadang informasi yang diperoleh tidak sesuai dengan apa yang diinginkan pengguna. Diperlukan sistem yang dapat membantu mencari informasi yang dibutuhkan secara efektif dan efisien. Sistem informasi ini sering kali disebut dengan istilah sistem temu kembali informasi (STKI). Pada penelitian ini membahas penerapan STKIuntuk melakukan pencarian abstrak Tugas Akhir yang relevan sesuai dengan query yang dimasukan oleh pengguna. STKI Abstrak tugas akhir yang dikembangkan menggunakan metode Vector Space Model (VSM) dan metode pembobotan tf-idf, implementasi VSM dan metode tf-idf menggunakan bahasa pemrograman server side PHP dan Mysql sebagai DBMS untuk menyimpan informasi abstrak tugas akhir mahasiswa Prodi Teknik Informatika Unsoed. Kata kunci: Sistem temu kembali informasi, vector space model, tf-idf, php,mysql A. PENDAHULUAN Teknologi informasi dan komunikasi pada era sekarang mengalami perkembangan pesat. Orang berlomba memanfaatkan TIK, TIK terutama internet telah digunakan sebagai alat untuk mengakses dan mendapatkan informasi (Afuan,2013). Permasalahan yang sering kali muncul dalam mengakses dan mendapatkan informasi adalah memilih informasi yang tepat sesuai dengan keinginan user. Untuk mengatasi masalah pencarian informasi, maka munculah sistem temu kembali informasi (STKI). STKI memungkinkan pengguna untuk mencari informasi yang tersimpan didalam dokumen secara efektif dan efisien. Efektif berarti user mendapatkan dokumen yang relevan dengan query yang diinputkan. Efisien berarti waktu pencarian yang sesingkat-singkatnya (Agusta, 2009). Jurnal Telematika Vol. 7 No.1 Februari 2014 40

Pada penelitian ini, penulis akan menjelaskan tahapan pengembangan Sistem temu kembali informasi yang digunakan untuk melakukan pencarian abstrak Tugas Akhir mahasiswa pada Program Studi Teknik Informatika Unsoed. B. TINJAUAN PUSTAKA 1. Sistem temu kembali Informasi Information Retrieval System (IR) atau sistem temu kembali informasi merupakan proses menemukan data (umumnya dokumen) berupa teks yang sesuai dengan informasi yang dibutuhkan dari koleksi dokumen yang tersimpan didalam komputer (Manning, 2009). STKImenyediakan informasi mengenai subyek yang dibutuhkan. Data mencakup teks, tabel, gambar, ucapan, dan video. Informasi termasuk pengetahuan terkait yang dibutuhkan untuk mendukung penyelesaian masalah dan akuisisi pengetahuan (Cios,2007). Sistem temu kembali informasi bertujuan untuk menghasilkan dokumen yang relevan dengan query yang dimasukan pengguna. Secara umum, STKI Abstrak tugas akhir mahasiswa TI Unsoed dibagi menjadi 2 tahapan yaitu tahap preprocessing(indexing) dan tahap matching. Arsitektur STKI dapat dilihat pada gambar 1 Gambar 1. Arsitekur STKI Jurnal Telematika Vol. 7 No.1 Februari 2014 41

Berdasarkan gambar 1, pada tahapan preprocessingterdiri atas proses sebagai berikut : a. Tokenisasi Yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen abstrak TA dan mengubah kumpulan term menjadi huruf kecil semua (lowercase). b. Stopword Removal Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti: pada, dengan, adalah, yaitu, yang, juga, dari, dia, kami, kamu,ini, itu,atau, dan, tersebut, kedan sebagainya. c. Stemming Proses mengubah suatu kata bentukan menjadi kata dasar (root word). d. Term Weighting (Pembobotan) Proses pembobotan setiap term di dalam dokumen, proses pembobotan ini menggunakan metode tf-idf. Tahapan matching (pencocokan)merupakan proses menemukan kembali informasi abstrak Tugas akhir yang relevan terhadap query yang diberikan. Tidak semua dokumen yang diambil (retrieved) oleh sistem merupakan dokumen abstrak yang sesuai dengan keinginan pengguna (relevant). Gambar 2 menunjukkan hubungan antara dokumen relevan, dokumen yang terambil oleh sistem, dan dokumen relevan yang terambil oleh system Gambar 2. Matching abstrak Jurnal Telematika Vol. 7 No.1 Februari 2014 42

2. Vector Space Model (VSM) Kemiripan (similarity)antar dokumen didefinisikan berdasarkan representasi bagof- words dan dikonversi ke suatu model ruang vektor (vector space model, VSM).Model ini diperkenalkan oleh Salton (1983). Pada VSM, setiap dokumen di dalam database dan query pengguna direpresentasikan oleh suatu vektor multidimensi (Cios, 2007) dan (Polettini,2004). Dimensi sesuai dengan jumlah term dalam dokumen yang terlibat. Pada model ini a. Vocabulary merupakan kumpulan semua term berbeda yang tersisa dari dokumensetelah preprocessing dan mengandung t term index. Term-term ini membentuksuatu ruang vektor. b. Setiap term i di dalam dokumen atau query j, diberikan suatu bobot (weight) bernilaireal wij. c. Dokumen dan query diekspresikan sebagai vektor t dimensi dj = (w1, w2,..., wtj) danterdapat n dokumen di dalam koleksi, yaitu j = 1, 2,..., n. Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D1 dan D2, satu querypengguna Q1, dan tiga term T1, T2 dan T3 diperlihatkan pada gambar 3 Gambar 3. Contoh VSM Keberhasilan dari model VSM ini ditentukan oleh skema pembobotan terhadap suatuterm baik untuk cakupan lokal maupun global, dan faktor normalisasi (Salton,1983). Pembobotan lokal hanya berpedoman pada frekuensi munculnya Jurnal Telematika Vol. 7 No.1 Februari 2014 43

term dalam suatu dokumen dan tidak melihat frekuensi kemunculan term tersebut di dalam dokumen lainnya.pembobotan global digunakan untuk memberikan tekanan terhadap term yang mengakibatkan perbedaan dan berdasarkan pada penyebaran dari term tertentu diseluruh dokumen. Bobot lokal suatu term i di dalam dokumen j (tfij) dapat didefinisikan pada persamaan 1 sebagai berikut Bobot global dari suatu term i pada pendekatan inverse document frequency (idfi) dapat didefinisikan pada persamaan 2 sebagai berikut Bobot dari term i di dalam sistem IR (wij) dihitung menggunakan ukuran tf-idf yang didefinisikan pada persamaan 3 (cios,2007) dan ( Lee,1997) sebagai berikut 3. Similarity (ukuran kemiripan) Salah satu ukuran kemiripan teks yang populer (Tata,2007) adalah cosine similarity. Ukuran ini menghitung nilai cosinus sudut antara dua vektor. Jika terdapat dua vektor dokumen djdan query q, serta t term diekstrak dari koleksi dokumen maka nilai cosinus antara djdan q didefinisikan pada persamaan 4 (Cios,1997) Jurnal Telematika Vol. 7 No.1 Februari 2014 44

C. METODOLOGI PENELITIAN Metode Penelitian yang digunakan dalam penelitian antara lain : 1. Studi Pustaka Studi pustaka dilakukan terkait dengan pengumpulan literatur, pustaka mengenai information retrieval, Metode Vector Space Model dan metode tf-idf. 2. Ujicoba Tahapan ujicoba dilakukan mencoba STKI dengan menggunakan data abstrak tugas akhir mahasiswa pada Prodi Teknik Informatika. D. HASIL DAN PEMBAHASAN Pada gambar 4, merupakan halaman awal dari aplikasi. Pada halaman awal ini terdapat 4 menu yaitu home, Pencarian abstrak, Daftar semua abstrak dan menu login. Pada halaman awal, menampilkan halaman pencarian abstrak, pengguna dapat mulai melakukan retrieve abstrak dengan mengisikan keyword pencarian pada inputan yang sudah disediakan. Gambar 4. Halaman Awal STKI Abstrak Jurnal Telematika Vol. 7 No.1 Februari 2014 45

Gambar 5. Halaman daftar semua abstrak TA Gambar 5 merupakan halaman yang menampilkan semua daftar abstrak mahasiswa yang ada di Program Studi Teknik Informatika. Pada halaman ini abstrak ditampilkan sebanyak 4 baris untuk setiap halamannya, jika pengguna ingin melihat daftar abstrak yang lainnya dapat dilakukan dengan mengklik halaman selanjutnya. Gambar 6. Halaman daftar index Jurnal Telematika Vol. 7 No.1 Februari 2014 46

Gambar 6 merupakan halaman hasil perhitungan index, halaman ini merupakan penerapan dari persamaan 1,2 dan 3. Pada halaman ini menampilkan term frekuensi pada setiap abstrak, dan kemudian dilakukan penghitungan bobot dengan menggunakan persamaan yang sudah dijelaskan sebelumnya, gambar 6 merupakan bagian dari tahapan preprocessingdalam IR sistem. 1. Hasil Pengujian Pengujian sistem ini, dilakukan dengan menggunakan data abstrak tugas akhir mahasiswa di Program Studi Teknik Informatika, pada pengujian ini baru menggunakan 3 data abstrak tugas akhir mahasiswa. 2. Pengujian (dokumen teks) Gambar 6 dan gambar 7 merupakan halaman proses retrieval informasi, pada sistem dicoba memasukkan keyword sistem informasi, dan sistem menampilkan 2 abstrak yang terkait dengan sistem informasi. Sedangkan, ketika menggunakan keyword web, sistem meretrieve 1 abstrak. Gambar 7. Halaman retrieval (matching) Jurnal Telematika Vol. 7 No.1 Februari 2014 47

Gambar 8. Halaman retrieval(matching) Gambar 8. Cache Gambar 8 merupakan cache query yang sudah pernah dimasukkan oleh pengguna, pada gambar 8 dapat dilihat keterkaitan query dengan abstrak yang Jurnal Telematika Vol. 7 No.1 Februari 2014 48

sudah dilakukan proses pembobotan, dan pada bagian kanan terdapat kolom value yang merupakan nilai similarity query dan dokumen abstrak. E. KESIMPULAN DAN SARAN Setelah dilakukan implementasi, VSM dan metode tf-idf dapat digunakan dalam pengembangan sistem temu kembali informasi pada abstrak tugas akhir mahasiswa di Prodi Teknik Informatika. Hanya saja, pada sistem yang sudah dibuat, pada tahapan stopword removal perludibuat tabel atau file yang menampung data stopword. Sebagai saran, sistem ini hendaknya dapat melakukan retrieve dokumen dalam berbagai format. DAFTAR PUSTAKA Agusta Ledy, 2009. Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief &Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia. KNSI 2009, Bali. Afuan Lasmedi, 2013. Stemming Dokumen Teks Bahasa Indonesia Menggunakan Algoritma Porter. STI UAD 2013, Yogyakarta. Cios, Krzysztof J. Etc. 2007.Data Mining A Knowledge Discovery Approach, Springer Lee D.L. 1997. Document Ranking and the Vector-Space Model. IEEE March- April 1997. Manning D Christopher. 2009. An Introduction to Information Retrieval.Online Edition. Cambridge Up. Polettini, Nicola.2004. The Vector Space Model in Information Retrieval TermWeighting Problem Tata, Sandeep, Patel M, Jignesh.2007. Estimating he Selectivity of tf-idf based Cosine Similarity Predicates, Sigmod Record December 2007 Vol 36 No. 4 Salton, Gerard. 1983. Introduction to Modern Information Retrieval. McGraw Hill. Jurnal Telematika Vol. 7 No.1 Februari 2014 49