BAB II LANDASAN TEORI

dokumen-dokumen yang mirip
PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB 1 PENDAHULUAN UKDW

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

BAB II TINJAUAN PUSTAKA

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

PENGEMBANGAN APLIKASI LOST & FOUND BERBASIS WEBSITE DENGAN FITUR PENCARIAN MENGGUNAKAN COSINE SIMILARITY. Tugas Akhir

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN UKDW

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

BAB 3 LANDASAN TEORI

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB II LANDASAN TEORI

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

BAB II LANDASAN TEORI

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

commit to user BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

BAB 1 PENDAHULUAN Latar Belakang

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB II LANDASDAN TEORI

BAB I PENDAHULUAN Latar Belakang

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB 3 LANDASAN TEORI

PROGRAM BANTU PEMILIHAN LAGU PUJIAN BERDASARKAN TEMA KEBAKTIAN DENGAN MENGGUNAKAN METODE COSINUS SIMILARITY Studi Kasus: GKI Ngupasan

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB III ANALISIS DAN PERANCANGAN

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

BAB III METODOLOGI PENELITIAN

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB IV ANALISA DAN PERANCANGAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

BAB III METODOLOGI PENELITIAN

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI ALGORITMA VECTOR SPACE MODEL DALAM PENCARIAN E-BOOK

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB III ANALISIS DAN PERANCANGAN SISTEM

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB III METODOLOGI PENELITIAN

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

BAB III METODE PENELITIAN

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB II LANDASAN TEORI

PENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

PENDAHULUAN. 1.1 Latar Belakang

DAFTAR ISI. SKRIPSI... ii

Aplikasi Rekomendasi Buku pada Katalog Perpustakaan Universitas Multimedia Nusantara Menggunakan Vector Space Model

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

SISTEM INFORMASI PENGELOLAAN ARSIP STATIS PADA BADAN ARSIP DAN PERPUSTAKAAN PROVINSI JAWA TENGAH MENGGUNAKAN VECTOR SPACE MODEL

BAB III METODOLOGI PENELITIAN

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB III ANALISA DAN PERANCANGAN SISTEM

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

Gambar 1.1 Proses Text Mining [7]

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III ANALISA DAN PERANCANGAN

BAB III METODOLOGI PENELITIAN

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

beberapa tag-tag lain yang lebih spesifik di dalamnya.

BAB 3 LANDASAN TEORI

Transkripsi:

BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost & Found berbasis Website. Tujuan dari penelitian ini adalah untuk mewadahi orang yang kehilangan dan menemukan, sehingga orang yang kehilangan dan menemukan tidak perlu menempelkan info kehilangan di tembok-tembok, dan tidak perlu posting di sosial media. Dengan menggunakan media berbasis website, penelitian tersebut mampu menangani masalah yang terdapat pada sosial media dan info kehilangan di tembok-tembok, namun sistem tersebut masih kurang efektif karena pencarian masih dilakukan dengan menggunakan query. Kelemahan dari query adalah bersifat key-sensitive atau query dengan dokumen harus sama persis. Pengujian yang akan dilakukan yaitu melalui dua tahap antara lain pengujian validasi dan feedback dari user. Dari hasil pengujian validasi yang dilakukan berdasarkan skenario yang dirancang yaitu 100% valid. Kesimpulan dari penelitian sebelumnya adalah dengan dibuatnya sistem informasi pencarian benda hilang berbasis website, semua pengguna yang merasa kehilangan barang maupun yang menemukan barang yang tidak diketahui pemiliknya bisa di informasikan melalui sistem lost & found. Berikut adalah fitur-fitur dari penelitian terdahulu: Tabel 2.1. Tabel fitur penelitian terdahulu. Peneliti Fitur Rahmatulloh, 2016 Menggunakan konsep waterfall pada studi kasus rancang bangun sistem informasi lost & found berbasis website di UNESA. Fitur yang ada pada penelitian ini adalah pencarian benda hilang, API google maps untuk tag pencarian benda hilang dan bagikan ke media sosial. Dony Hariono, 2016 Menggunakan metode cosine similarity pada studi kasus sistem rekomendasi untuk pencarian informasi kuliner 4

Usulan Kota Malang. Fitur yang ada pada penelitian ini adalah pencarian informasi kuliner dengan menggunakan cosine similarity. Menggunakan metode cosine similarity pada studi kasus pencarian benda hilang berbasis website di Universitas Muhammadiyah Malang. 2.3. Information Retrieval Information Retrieval (IR) adalah ilmu yang mempelajari bagaimana melakukan penelusuran kembali atas banyaknya dokumen yang berada dalam basis data. Information Retrieval melakukan pencarian dengan beberapa dokumen yang diinginkan pengguna, dengan melihat tingkat kemiripan sebuah dokumen [7]. 2.2. Preprocessing Preprocessing merupakan proses awal dalam pembentukan keywords dari data kehilangan maupun menemukan yang nantinya akan disimpan dalam basis data, dengan beberapa tahapan proses: a. Case Folding Merupakan proses pengubahan yang semula huruf kapital menjadi huruf kecil. Case Folding hanya menerima inputan berupa huruf a sampai dengan z, selain huruf dan angka akan dihilangkan, angka tidak dihilangkan karena angka pada penelitian ini dianggap penting. b. Tokenizing Adalah proses dimana tiap kata pada isi data barang hilang di penggal berdasarkan spasi dan tanda (penghubung). c. Filter stopwords Merupakan proses penghilangan kata-kata (yang dianggap) sebagai kata yang tidak penting atau jarang digunakan sebagai keyword pencarian. Proses ini dilakukan untuk mengurangi waktu yang dibutuhkan pada saat penghitungan frekuensi tiap kata pada 5

dokumen. Pada penelitian ini, stopwords yang digunakan adalah stopword bahasa indonesia. Gambar.2.1. Alur proses Preprocessing 2.4. Term Frequency Inverse Document Frequency (TF-IDF) Term Frequency adalah tingkat keseringan kemunculan sebuah term (kata) dalam dokumen dan kemudian dialgoritmakan agar mengurangi digit jumlahnya [10],. misal 1000 menjadi log(1000) hanya menghasilkan angka tiga. Jadi jika suatu term terdapat dalam suatu dokumen sebanyak 5 kali, maka diperoleh bobot = 1 + log(5) = 1.6999 tetapi jika tidak terdapat dalam dokumen tersebut, bobotnya adalah 0. Rumus term frequency adalah sebagai berikut [7]: w t,d = { 1 + log 10tf t,d, if tf t,d > 0 0, if tf t,d = 0 (2.1) Jadi jika suatu kata dalam sebuah dokumen sebanyak 3 kali maka diperoleh bobot = 1 + log(3) = 0.47. Tetapi jika tidak terdapat term pada sebuah dokumen tersebut maka hasilnya adalah nol. Document Frequency adalah banyaknya sebuah dokumen yang mengandung kata. Sedangkan Inverse Document Frequency adalah perhitungan dari term yang didistribusikan secara luas pada dokumen yang bersangkutan. IDF (Inverse Document Frequency) menunjukkan hubungan ketersedeiaan term dalam seluruh dokumen. Semakin sedikit jumlah dokumen yang mengandung term yang dimaksud, maka nilai IDF semakin besar. Rumus dari Inverse Document Frequency adalah sebagai berikut [7]: Idf = log 2 ( n ) df (2.2) TF-IDF adalah pengukur tingkat kepentingan sebuah kata dalam dokumen. Proses ini dilakukan untuk mencari bobot kemiripan kata dari sebuah dokumen terhadap keseluruhan dokumen. Rumus dari pembobotan adalah sebagai berikut [7]: 6

W d,t = tf d,t x idf t (2.3) Dimana: d = document ke-d t = kata ke-t dari document W = tingkat kepentingan kata pada dokumen ke-d terhadap item ke-t tf = banyaknya kata i pada sebuah dokumen idf = inversed document frequency, log 2 ( n ) df df = banyaknya document yang mengandung kata i 2.5. Cosine Similarity Cosine Similarity digunakan untuk mencari seberapa besar tingkat kemiripan antara dokumen satu dengan dokumen yang lainnya, dapat menggunakan suatu fungsi similarity measure. Dengan menggunakan fungsi ini memungkinkan perankingan dokumen sesuai dengan tingkat kemiripan terhadap query. Perhitungan kemiripan kata antar document yang digunakan dalam penelitian ini adalah Cosine Similarity. Semakin besar nilai cosinus dengan nilai tertinggi 1 maka semakin mirip dokumen yang dibandingkan. Nilai cosinus 1 menyatakan kemiripan 100%, sedangkan nol menyatakan ketidakmiripan 100%. Cosine similarity definisikan dalam rumus fungsi perhitungan berikut [7]: similarity(d jq ) = d j.q = t j=1(w ij.w iq ) d j. q t w2 t j=1 ij. w2 j=1 iq (2.4) Dimana: d = document, q = query, t = kata wij = bobot kata ke i dari dokumen ke j wiq = bobot kata ke i dari query 2.6. Evaluasi Evaluasi digunakan untuk mengukur kinerja suatu sistem demi menghasilkan perbaikan pada proses pengambilan informasi. Ukuran umum yang digunakan untuk mengukur kualitas dari text retrieval adalah kombinasi precision dan recall. 7

Metode yang umum digunakan adalah recall, precission, dan f-measure. Efektivitas sistem temu kembali informasi dinilai berdasarkan teori dari Lancaster dalam Pendit (2008) yaitu relevan dan tidak relevan. Dalam teori tersebut juga dijelaskan bahwa efektivitas sistem temu kembali informasi dikategorikan menjadi dua yaitu efektif jika nilainya diatas 50% dan tidak efektif jika nilainya dibawah 50%. Kedua ukuran diatas dinilai dalam bentuk presentase, 1-100%. Sebuah sistem temu kembali informasi akan dianggap baik jika tingkat recall maupun precision-nya tinggi. Kondisi ideal efektivitas sistem temu kembali informasi menurut Pao dalam Hasugian (2006) adalah apabila rasio recall dan precision-nya sama besarnya (1:1). a. Recall Recall adalah proporsi jumlah dokumen teks yang relevan terkenali di antara semua dokumen teks relevan yang ada pada koleksi. Berikut adalah rumus dari recall [7]: Recall = b. Precission Relevan Retrieved Kehilangan (2.5) Relevan Kehilangan Precission adalah proporsi jumlah dokumen teks yang relevan terkenali di antara semua dokumen teks yang terpilih oleh sistem. Rumus precission adalah sebagai berikut [7]: Precission = Relevan Retrieved Kehilangan Retrieved Kehilangan (2.6) 8