BAB 2 LANDASAN TEORI
|
|
- Hadian Setiabudi
- 7 tahun lalu
- Tontonan:
Transkripsi
1 BAB 2 LANDASAN TEORI 2.1 Sistem Temu Kembali Informasi Sistem temu kembali informasi (information retrieval system) digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis (Mandala,2004). Gambar 2.1 Ilustrasi Sistem Temu Kembali Informasi Salah satu aplikasi umum dari sistem temu kembali informasi adalah search engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-halaman web yang dibutuhkannya melalui
2 8 search engine. Contoh lain dari sistem temu kembali informasi adalah sistem informasi perpustakaan dan pada mesin ATM (Anjungan Tunai Mandiri). Mandala (2002, hal: 2) menyatakan bahwa sistem temu kembali informasi terutama berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan sistem temu kembali informasi dengan sistem basis data. Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu dokumen sangat tergantung pada pembuat dokumen tersebut. Sistem Temu Kembali Informasi sebagai sistem yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai, merupakan salah satu tipe sistem informasi. Salah satu hal yang perlu diingat adalah bahwa informasi yang diproses terkandung dalam sebuah dokumen yang bersifat tekstual. Dalam konteks ini, temu kembali informasi berkaitan dengan representasi, penyimpanan, dan akses terhadap dokumen representasi dokumen. Dokumen yang ditemukan tidak dapat dipastikan apakah relevan dengan kebutuhan informasi pengguna yang dinyatakan dalam query. Pengguna Sistem Temu Kembali informasi sangat bervariasi dengan kebutuhan informasi yang berbeda-beda. Dokumen sebagai objek data dalam Sistem Temu Kembali Informasi merupakan sumber informasi. Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci. Kata kunci dapat diekstrak secara langsung dari teks dokumen atau ditentukan secara khusus oleh spesialis subjek dalam proses pengindeksan yang pada dasarnya terdiri dari proses analisis dan representasi dokumen (Lancaster, 1979). Pengindeksan dilakukan dengan menggunakan sistem pengindeksan tertentu, yaitu himpunan kosa kata yang dapat dijadikan sebagai bahasa indeks
3 9 sehingga diperoleh informasi yang terorganisasi. Sementara itu, pencarian diawali dengan adanya kebutuhan informasi pengguna. Dalam hal ini Sistem Temu Kembali Informasi berfungsi untuk menganalisis pertanyaan (query) pengguna yang merupakan representasi dari kebutuhan informasi untuk mendapatkan pernyataan-pernyataan pencarian yang tepat. Selanjutnya pernyataan-pernyataan pencarian tersebut dipertemukan dengan informasi yang telah terorganisasi dengan suatu fungsi penyesuaian (matching function) tertentu sehingga ditemukan dokumen atau sekumpulan dokumen. Proses tersebut di atas dapat diilustrasikan seperti gambar berikut: Sumber informasi Analisis dan representasi Informasi terorganisasi Informasi ditemukan Penyesuaian Pengguna Analisis query Pernyataan pencarian Gambar 2.2 Outline Sistem Temu Kembali Informasi (Lancaster,1979) Sebagai suatu sistem, sistem temu kembali informasi memiliki beberapa bagian yang membangun sistem secara keseluruhan. Gambaran bagian-bagian yang terdapat pada suatu sistem temu kembali informasi digambarkan pada Gambar 2.3.
4 10 Gambar 2.3 Bagian-bagian Sistem Temu Kembali Informasi (Mandala, 2002) Gambar 2.3 memperlihatkan bahwa terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak tergantung pada alur kedua. Sedangkan alur kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada alur pertama (Mandala, 2002). Bagian-bagian dari sistem temu kembali informasi menurut gambar 2.3 meliputi : 1. Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata). 2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata query.
5 11 3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query. 4. Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan. Sistem Temu Kembali Informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query. Namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, sumber informasi maupun tujuan pengguna. Menurut Lancaster (1979) Sistem Temu Kembali Informasi terdiri dari 6 (enam) subsistem, yaitu: 1. Subsistem dokumen 2. Subsistem pengindeksan 3. Subsistem kosa kata 4. Subsistem pencarian 5. Subsistem antarmuka pengguna-sistem 6. Subsistem penyesuaian. Sementara itu Tague-Sutcliffe (1996) melihat Sistem Temu Kembali Informasi sebagai suatu proses yang terdiri dari 6 (enam) komponen utama yaitu: 1. Kumpulan dokumen 2. Pengindeksan 3. Kebutuhan informasi pemakai 4. Strategi pencarian
6 12 5. Kumpulan dokumen yang ditemukan 6. Penilaian relevansi Bila diperhatikan dengan seksama, perbedaan komponen Sistem Temu Kembali Informasi menurut Lancaster (1979) dan menurut Tague-Sutcliffe (1996) terletak pada penilaian relevansi, yaitu suatu tahap dalam temu kembali untuk menentukan dokumen yang relevan dengan kebutuhan informasi pemakai. Secara garis besar komponen-komponen Sistem Temu Kembali dapat diilustrasikan seperti pada Gambar 2.4 Kumpulan dokumen Kebutuhan informasi pemakai Indeks Strategi pencarian Kumpulan dokumen ditemukan penilaian relevansi Gambar 2.4 Komponen Sistem Temu-Kembali Informasi (Tarto, 2008) Dalam proses pencarian informasi terjadi interaksi antara pengguna dengan sistem (mesin) baik secara langsung maupun tidak langsung. Secara umum interaksi antara pengguna dengan sistem dalam proses pencarian informasi dapat dinyatakan seperti pada Gambar 2.5
7 13 Temu Kembali (retrieval) Pengguna Database browsing Gambar 2.5 Interaksi antara pengguna dengan sistem (Tarto, 2008) Sistem Temu Kembali Informasi didisain untuk menemukan dokumen atau informasi yang diperlukan oleh masyarakat pengguna. Sistem Temu Kembali Informasi bertujuan untuk menjembatani kebutuhan informasi pengguna dengan sumber informasi yang tersedia dalam situasi seperti dikemukakan oleh Belkin (1980) sebagai berikut: 1. Penulis mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep. 2. Terdapat beberapa pengguna yang memerlukan ide yang dikemukakan oleh penulis tersebut, tapi mereka tidak dapat mengidentifikasikan dan menemukannya dengan baik. 3. Sistem temu kembali informasi bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk pertanyaan (query). Berkaitan dengan sumber informasi di satu sisi dan kebutuhan informasi pengguna di sisi yang lain, Sistem Temu Kembali Informasi berperan untuk:
8 14 1. Menganalisis isi sumber informasi dan pertanyaan pengguna. 2. Mempertemukan pertanyaan pengguna dengan sumber informasi untuk mendapatkan dokumen yang relevan. Adapun fungsi utama Sistem Temu Kembali Informasi seperti dikemukakan oleh Lancaster (1979) dan Kent (1971) adalah sebagai berikut: 1. Mengidentifikasi sumber informasi yang relevan dengan minat masyarakat pengguna yang ditargetkan. 2. Menganalisis isi sumber informasi (dokumen) 3. Merepresentasikan isi sumber informasi dengan cara tertentu yang memungkinkan untuk dipertemukan dengan pertanyaan (query) pengguna. 4. Merepresentasikan pertanyaan (query) pengguna dengan cara tertentu yang memungkinkan untuk dipertemukan sumber informasi yang terdapat dalam basis data. 5. Mempertemukan pernyataan pencarian dengan data yang tersimpan dalam basis data. 6. Menemu-kembalikan informasi yang relevan. 7. Menyempurnakan unjuk kerja sistem berdasarkan umpan balik yang diberikan oleh pengguna. 2.2 Model Ruang Vektor Mandala (2002, hal: 3) menyatakan bahwa model sistem temu kembali informasi menentukan detail sistem temu kembali informasi yaitu meliputi representasi dokumen maupun query, fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query. Salah satu model sistem temu kembali informasi yang paling awal digunakan adalah model boolean. Model boolean merepresentasikan dokumen sebagai suatu himpunan kata-kunci (set of keywords). Sedangkan query direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi boolean
9 15 merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari model boolean adalah himpunan dokumen yang relevan. Kekurangan dari model boolean ini antara lain: 1. Hasil pencarian dokumen berupa himpunan, sehingga tidak dapat dikenali dokumen-dokumen yang paling relevan atau agak relevan (partial match). 2. Query dalam ekspresi boolean dapat menyulitkan pengguna yang tidak mengerti tentang ekpresi boolean. Kekurangan dari model boolean diperbaiki oleh model ruang vektor yang mampu menghasilkan dokumen-dokumen terurut berdasarkan tingkat kerelevanannya dengan query pengguna. Selain itu, pada model ruang vektor, query dapat berupa sekumpulan kata-kata dari penguna dalam ekspresi bebas, dengan kata lain query juga dinyatakan sebagai himpunan kata-kata atau istilah dengan bahasa sehari-hari (Mandala, 2004). Metode Ruang Vektor adalah suatu metode untuk merepresentasikan sistem temu kembali informasi. Suatu sistem temu kembali informasi terdiri atas dua bagian, yaitu penyimpanan dokumen dan pemrosesan query. Untuk mengimplementasikan metode ruang vektor, diasumsikan sudah tersedia sekumpulan term yang dapat mendeskripsikan kumpulan dokumen yang tersimpan dalam suatu sistem temu-kembali informasi. Baik query maupun dokumen-dokumen yang disimpan, dinyatakan dalam bentuk vector (Salton, 1989). Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms index). Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar w i. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n.
10 16 Sebagai contoh terdapat 3 buah kata (T 1, T 2 dan T 3 ), 2 buah dokumen (D 1 dan D 2 ) serta sebuah query Q. Masing-masing bernilai : D1 = 2T 1 +3T 2 +5T3 D2 = 3T 1 +7T 2 +0T Q = 0T1+0T 2 +2T 3 3 Maka representasi grafis dari ketiga vektor ini adalah T 3 5 D 1 = 2T 1 + 3T 2 + 5T 3 Q = 0T 1 + 0T 2 + 2T 3 D 2 = 3T 1 + 7T 2 + T T 1 T 2 7 Gambar 2.6 Representasi dokumen dan query pada ruang vektor (Mandala, 2002) Koleksi dokumen direpresentasi pula dalam ruang vektor sebagai matriks kata-dokumen (terms-documents matrix). Nilai dari elemen matriks w ij adalah bobot kata i dalam dokumen j. Permasalahan pembobotan kata (terms weighting) dalam dokumen akan dibahas pada bagian selanjutnya. Misalkan terdapat sekumpulan kata T sejumlah n, yaitu T = (T 1, T 2,, T n ) dan sekumpulan dokumen D sejumlah m, yaitu D = (D 1, D 2,, D m ) serta w ij adalah bobot kata i pada dokumen j. Maka gambar 2.7 adalah representasi matriks kata-dokumen (Mandala, 2002).
11 17 Gambar 2.7 Representasi matriks kata-dokumen Beberapa karakteristik dari model ruang vektor dalam sistem temu kembali informasi adalah 1. model ruang vektor berdasarkan pada term 2. mendukung penentuan peringkat dokumen 3. model ruang vector memiliki prinsip dasar: a) dokumen direpresentasikan dengan menggunakan vektor term b) ruang dimensi ditentukan oleh term- term c) query direpresentasikan dengan menggunakan vektor term 4. model ruang vektor memerlukan a) bobot term (term weight) untuk vektor dokumen b) bobot term untuk query 5. kinerja model sistem temu kembali informasi ini a) efisien b) mudah dalam representasi c) dapat diimplementasikan pada document-matching yaitu : Prosedur model ruang vektor dapat dikelompokkan menjadi tiga tahap 1. Pengideks-an dokumen 2. Pembobotan (weighting), untuk menghasilkan dokumen yang relevan
12 18 3. Memberikan peringkat dokumen berdasarkan ukuran kesamaan (similarity measure) Pengindeksan Dokumen 1. Parsing mengambil term-term dari dokumen dan query dengan cara memotong string input berdasarkan tiap kata yang menyusunnya (Lusiana et al, 2008). Elemen teks (string input) dipisahkan dengan teknik parsing menggunakan fungsi split dimana pemisahan string dilakukan berdasarkan white space (spasi dan tab) untuk kemudian diletakkan pada array 2. Stopword removing menghilangkan stopword pada string input yang menyusun dokumen dan query, contoh: User could find relevant information by using search engine. Dilakukan parsing: - user - user - could - could - find - find - relevant - relevant - information hasil stopword removing - information - by - using - using - search - search - engine - engine
13 19 Dalam proses ini digunakan sebuah daftar kata buang (stoplist) yaitu daftar kata-kata yang tidak digunakan (dibuang) karena tidak signifikan dalam membedakan dokumen atau query. Stoplist ini terdiri atas 658 kata, umumnya berupa kata tugas, kata hubung, kata bantu, yang mempunyai fungsi dalam kalimat penyusun dokumen tetapi tidak memiliki arti. Daftar stopword terlampir bersama dengan listing program Proses yang dilakukan dalam tahap penghilangan stopword ini adalah: - string input yang telah di pisah melalui proses parsing pada tahap pengindeksan sebelumnya dimasukkan dalam array - array yang berisi string tersebut kemudian melalui proses penyaringan stopword. - apabila string dalam array sama dengan string dalam array stopword maka string tersebut akan dieliminasi - jika tidak sama, maka string tersebut akan diteruskan ke tahap pengindeksan selanjutnya yaitu stemming Penggunaan stopword removing dalam proses pengindeksan dokumen dan query akan dapat meningkatkan kinerja mesin pencari. Jika stopword terdapat pada masukan query yang diberikan pengguna, dan stopword tersebut tidak dihilangkan, hal ini akan menyebabkan hampir semua dokumen dalam koleksi akan di-retrieve, karena sebahagian besar term penyusun dokumen adalah berupa kata hubung, kata bantu, maupun kata ganti, yang merupakan bagian dari stopword. Dengan demikian akan semakin jauh dari fungsi utama suatu sistem temu kembali informasi karena tidak dapat memberikan dokumen yang relevan dengan permintaan pengguna. Penghilangan stopword setelah proses parsing pada pengindeksan dokumen akan dapat mempercepat proses mesin pencari karena dapat mengurangi jumlah term yang akan di-matching-kan antara dokumen dan query serta yang akan dicari
14 20 bobotnya dalam proses perankingan dokumen, dapat menghemat ruang memori dan menghasilkan dokumen yang relevan berdasarkan hasil perhitungan bobot term query pada dokumen (Jones-Willet, 1997). 3. Stemming Menurut Peter Willet (1997) stemming adalah proses untuk menggabungkan atau memecahkan setiap varian-varian suatu kata menjadi kata dasar. Stem (akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran), contohnya kata connect adalah stem dari connected, connecting, connection, dan connections. Metode stemming memerlukan input berupa term yang terdapat dalam dokumen. Sedangkan outputnya berupa stem. Ada tiga jenis metode stemming, antara lain : I. II. III. Successor Variety (SV) : lebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem. Contoh untuk katakata : corpus, able, axle, accident, ape, about menghasilkan SV untuk kata apple : a. Karena huruf pertama dari kata apple adalah a, maka kumpulan kata yang ada substring a diikuti b, x, c, p disebut SV dari a sehingga a memiliki 4 SV. b. Karena dua huruf pertama dari kata apple adalah ap, maka kumpulan kata yang ada substring ap hanya diikuti e disebut SV dari ap sehingga ap memiliki 1 SV. N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama berdasarkan karakter-karakter (substring) yang teridentifikasi sepanjang N karakter. Affix Removal (penghilangan imbuhan) : membuang prefix (awalan) dan suffix (akhiran) dari term menjadi suatu stem. Yang paling sering
15 21 digunakan adalah algoritma Porter Stemmer karena modelnya sederhana dan effisien. a. Jika suatu kata diakhiri dengan ies tetapi bukan eies atau aies, maka ies di-replace dengan y b. Jika suatu kata diakhiri dengan es tetapi bukan aes atau ees atau oes, maka es di-replace dengan e c. Jika suatu kata diakhiri dengan s tetapi bukan us atau ss, maka s di-replace dengan NULL Stemming Algorithm Gambar 2.8 Jenis-jenis Metode Stemming (Jones-Willet, 1997) Porter stemmer merupakan algoritma penghilangan akhiran morphological dan infleksional yang umum dari bahasa Inggris. Algoritma ini terdiri dari himpunan kondisi atau action rules. Kondisi dikelompokkan menjadi tiga kelas, yakni : I. Kondisi pada stem Ukuran (measure), dinotasikan dengan m, dari sebuah stem berdasarkan pada urutan vokal-konsonan. m = 0, contoh : TR, EE, TREE, Y, BY m = 1, contoh : TROUBLE, OATS, TREES, IVY m = 2, contoh : TROUBLES, PRIVATE, OATEN
16 22 *<X> *v* berarti stem berakhir dengan huruf x berarti stem mengandung sebuah vokal *d berarti stem diakhiri dengan konsonan dobel *o berarti stem diakhiri dengan konsonan vokal konsonan, berurutan, di mana konsonan akhir bukan w, x, atau y. II. III. Kondisi pada suffix (akhiran) Kondisi pada rule : rule-rule dibagi menjadi step-step. Rule-rule dalam sebuah step diuji secara berurutan, dan hanya 1 rule dari suatu step yang diterapkan. { step1a(word); step1b(stem); if (the second or third rule of step 1b was used) step1b1(stem); step1c(stem); step2(stem); step3(stem); step4(stem); step5a(stem); step5b(stem); } Gambar 2.9 Flow Control Algoritma Porter (Jones-Willet, 1997)
17 23 Step (langkah-langkah) tahapan pada algoritma Porter Stemmer : Step 1a : remove plural suffixation, yaitu menghapus/ mengganti akhiran pada kata yang berbentuk jamak, berupa akhiran sses menjadi ss, ies menjadi i, ss (tidak diganti), dan akhiran s hingga didapatkan stem Tabel 2.1 Remove Plural Suffixation Step 1b : remove verbal inflection, yaitu menghapus/ mengganti akhiran pada kata yang mengalami modulasi lisan/ pengucapan, berupa akhiran eed (jika terdapat paling kurang sebuah huruf vokalkonsonan berurutan) menjadi ee, serta akhiran ed dan ing (tidak diganti) untuk kata yang hanya memiliki sebuah huruf vokal, dan dihapus untuk yang memiliki lebih dari satu huruf vokal Tabel 2.2 Remove Verbal Inflexion Step 1b1 : continued for -ed and -ing rules, berupa tahap lanjutan untuk rule akhiran ed dan ing. Hasil stemming pada akhiran ed dan ing pada step sebelumnya akan di-stemming lagi yaitu dengan menghapus kata yang berakhiran at (diganti menjadi ate), bl menjadi ble, iz menjadi ize, untuk kata yang diakhiri dengan dobel huruf konsonan dan tidak berakhir dengan huruf l, s, atau z akan diganti menjadi kata yang berakhir satu huruf konsonan saja, jika kata berakhir dengan huruf l, s, atau z maka tidak diganti, dan untuk kata yang diakhiri dengan huruf konsonan vokal konsonan berurutan, di
18 24 mana konsonan akhir bukan w, x, atau y dan hanya terdapat satu urutan huruf vokal-konsonan di dalamnya maka ditambahkan e Tabel 2.3 Continued for -ed and -ing Rules Step 1c : y and i, jika kata mengandung sebuah huruf vokal dan berakhiran y akan diganti dengan i Tabel 2.4 y and i Step 2 : peel one suffix off for multiple suffixes, dengan kata tersebut memiliki paling kurang sebuah huruf vokal-konsonan berurutan, yaitu kata berakhiran ational atau ation atau ator (menjadi ate), tional (menjadi tion), enci (menjadi ence), anci (menjadi ance), izer atau ization (menjadi ize), iviti atau iveness (menjadi ive), ality atau alism atau alli (menjadi al), biliti (menjadi ble), abli (menjadi able), ently (menjadi ent), eli (menjadi e), ousli dan ousness (menjadi ous), fulness (menjadi ful)
19 25 Tabel 2.5 Peel One Suffix Off for Multiple Suffixes Step 3 : dengan kata tersebut memiliki paling kurang sebuah huruf vokal-konsonan berurutan, kata berakhiran ative atau ful atau ness akan dihapus, kata berakhiran icate atau iciti atau ical (menjadi ic), alize (menjadi al) Tabel 2.6 Step 3 Step 4 : delete last suffix, dengan kata tersebut memiliki paling kurang dua huruf vocal-konsonan berurutan, kata berakhiran al, ance, ence, er, ic, able, ible, ant, ement, ment, ent, ion, ou, ism, ate, iti, ous, ive, dan ize akan dihapus
20 26 Tabel 2.7 Delete Last Suffix Step 5a : remove e, menghapus akhiran e jika kata tersebut paling kurang memiliki dua huruf vocal-konsonan yang berurutan atau memiliki sebuah huruf vocal-konsonan berurutan dan tidak diakhiri dengan huruf konsonan vokal konsonan berurutan, di mana konsonan akhir bukan w, x, atau y Tabel 2.8 Remove e Step 5b : reduction, jika kata hanya memiliki sebuah huruf vokalkonsonan berurutan dan tidak berakhir dengan dobel huruf konsonan dan huruf l maka diganti dengan akhiran satu huruf konsonan saja Tabel 2.9 Reduction 4. Term weighting (pembobotan term)
21 Pembobotan kata (term weighting) Sistem Temu Kembali Informasi berhadapan dengan pencarian informasi yang sesuai dengan query pengguna dari koleksi dokumen. Koleksi dokumen tersebut terdiri dari dokumen-dokumen yang beragam panjangnya dengan kandungan term yang berbeda pula. Hal yag perlu diperhatikan dalam pencarian informasi dari koleksi dokumen yang heterogen adalah pembobotan term. Term dapat berupa kata, frase atau unit hasil indexing lainnya dalam suatu dokumen yang dapat digunakan untuk mengetahui konteks dari dokumen tersebut. Karena setiap kata memiliki tingkat kepentingan yang berbeda dalam dokumen, maka untuk setiap kata tersebut diberikan sebuah indikator, yaitu term weight. Term weighting atau pembobotan term sangat dipengaruhi oleh hal-hal berikut ini (Mandala, 2004): 1. Term Frequency (tf) factor, yaitu faktor yang menentukan bobot term pada suatu dokumen berdasarkan jumlah kemunculannya dalam dokumen tersebut. Nilai jumlah kemunculan suatu kata (term frequency) diperhitungkan dalam pemberian bobot terhadap suatu kata. Semakin besar jumlah kemunculan suatu term (tf tinggi) dalam dokumen, semakin besar pula bobotnya dalam dokumen atau akan memberikan nilai kesesuian yang semakin besar. 2. Inverse Document Frequency (idf) factor, yaitu pengurangan dominansi term yang sering muncul di berbagai dokumen. Hal ini diperlukan karena term yang banyak muncul di berbagai dokumen, dapat dianggap sebagai term umum (common term) sehingga tidak penting nilainya. Sebaliknya faktor kejarangmunculan kata (term scarcity) dalam koleksi dokumen harus diperhatikan dalam pemberian bobot. Menurut Mandala (dalam Witten, 1999) Kata yang muncul pada sedikit dokumen harus dipandang sebagai kata yang lebih penting (uncommon tems) daripada kata yang muncul pada banyak dokumen. Pembobotan akan memperhitungkan faktor kebalikan frekuensi
22 28 dokumen yang mengandung suatu kata (inverse document frequency). Hal ini merupakan usulan dari George Zipf. Zipf mengamati bahwa frekuensi dari sesuatu cenderung kebalikan secara proposional dengan urutannya. Metode TF-IDF merupakan metode pembobotan term yang banyak digunakan sebagai metode pembanding terhadap metode pembobotan baru. Pada metode ini, perhitungan bobot term t dalam sebuah dokumen dilakukan dengan mengalikan nilai Term Frequency dengan Inverse Document Frequency. Pada Term Frequency (tf), terdapat beberapa jenis formula yang dapat digunakan yaitu (Mandala, 2004): 1. tf biner (binery tf), hanya memperhatikan apakah suatu kata ada atau tidak dalam dokumen, jika ada diberi nilai satu, jika tidak diberi nilai nol 2. tf murni (raw tf), nilai tf diberikan berdasarkan jumlah kemunculan suatu kata di dokumen. Contohnya, jika muncul lima kali maka kata tersebut akan bernilai lima. 3. tf logaritmik, hal ini untuk menghindari dominansi dokumen yang mengandung sedikit kata dalam query, namun mempunyai frekuensi yang tinggi. tf = 1 + log (tf) (2.1) 4. tf normalisasi, menggunakan perbandingan antara frekuensi sebuah kata dengan jumlah keseluruhan kata pada dokumen. tf = x tf max tf (2.2) Inverse Document Frequency (idf) dihitung dengan menggunakan formula
23 29 idf j = log (D /df j ) (2.3) dimana D df j adalah jumlah semua dokumen dalam koleksi adalah jumlah dokumen yang mengandung term t j Menurut Defeng (dalam Robertson, 2004) Jenis formula yang akan digunakan untuk perhitungan term frequency (tf) yaitu tf murni (raw tf). Dengan demikian rumus umum untuk TF-IDF adalah penggabungan dari formula perhitungan raw tf dengan formula idf (rumus 2.3) dengan cara mengalikan nilai term frequency (tf) dengan nilai inverse document frequency (idf) : w = tf idf ij ij j w ij = tf ij log (D /df j ) (2.4) Keterangan : w ij adalah bobot term t j terhadap dokumen d i tf ij D df j adalah jumlah kemunculan term t j dalam dokumen d i adalah jumlah semua dokumen yang ada dalam database adalah jumlah dokumen yang mengandung term t j (minimal ada satu kata yaitu term t j ) Berdasarkan rumus 2.4, berapapun besarnya nilai tf ij, apabila D = df j maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan bobotnya menjadi sebagai berikut: w = tf ij ij ( log (D /df j ) + 1 ) (2.5)
24 30 berikut ini diberikan contoh perhitungan bobot dokumen terhadap query yang diberikan pengguna, dengan menggunakan metode pembobotan TF-IDF (rumus 2.5) di atas: pengguna memberikan query : gold silver truck sehingga didapatkan query terms (Q): - gold - silver - truck dalam koleksi dokumen terdapat: dokumen 1 (d1) = Shipment of gold damaged in a fire. dokumen 2 (d2) = Delivery of silver arrived in a silver truck. dokumen 3 (d3) = Shipment of gold arrived in a truck Jadi total jumlah dokumen dalam koleksi (D) = 3 Untuk setiap query dan dokumen dalam koleksi, dilakukan pemotongan string berdasarkan tiap kata yang menyusunnya, menghilangkan tanda baca, angka dan stopword: Setelah melalui proses ini, maka kata of, in, dan a pada ketiga dokumen dihapus lalu di-stemming sehingga didapatkan term-term ( documents terms) sebagai berikut: - ship - gold - damage - fire - deliver - silver - arrive - truck Pada tahap ini tiap dokumen diwujudkan sebagai sebuah vektor dengan elemen sebanyak term query yang terdapat dalam tiap dokumen yang berhasil
25 31 dikenali dari tahap ekstraksi dokumen sebelumnya. Vektor tersebut beranggotakan bobot dari setiap term query yang dihitung berdasarkan metode TF-IDF gold silver truck Gambar 2.10 Representasi Term Query pada Ruang Vektor Fungsi metode ini adalah untuk mencari representasi nilai dari tiap dokumen dalam koleksi. Dari sini akan dibentuk suatu vektor antara dokumen dan query yang ditentukan oleh nilai bobot term query dalam dokumen. Semakin besar nilai perhitungan bobot yang diperoleh maka semakin tinggi tingkat similaritas dokumen terhadap query. Contohnya untuk perhitungan bobot (w) term query silver dalam dokumen2 (d2) = Delivery of silver arrived in a silver truck, yaitu: jumlah kemunculan term silver dalam dokumen 2 (d2) adalah sebanyak dua kali (tf = 2), total dokumen yang ada di koleksi sebanyak tiga dokumen (D=3), dari ketiga dokumen dalam koleksi, term silver muncul pada dokumen 2 (d2), sehingga total dokumen yang mengandung term silver adalah satu dokumen (df = 1), sehingga dapat diperoleh nilai bobot term silver pada dokumen 2 (d2) w ij = tf ij ( log (D /df j ) + 1 ) w ij = 2 * ( log ( 3 / 1 ) + 1 ) w ij = 2 * ( ) w ij = 2.954
26 32 Dengan demikian dapat diperoleh nilai bobot (w) untuk setiap term pada query dalam masing-masing dokumen: Tabel 2.10 Perhitungan Pembobotan TF-IDF Term Query dalam Setiap Dokumen tf df D IDF IDF+1 W = tf* (IDF+1) Q d1 d2 d3 df d1 d2 d3 gold silver truck sum(d1) sum(d2) sum(d3) Nilai Bobot setiap Dokumen = Pemeringkatan (Perankingan) Dokumen Setelah bobot masing-masing dokumen diketahui, maka dilakukan proses pemeringkatan atau perankingan dokumen berdasarkan besarnya tingkat kerelevanan (kesesuaian) dokumen terhadap query, dimana semakin besar nilai bobot dokumen terhadap query maka semakin besar tingkat similaritas dokumen tersebut terhadap query yang dicari. Tabel 2.11 Hasil Pembobotan dan Perankingan Dokumen terhadap Query d1 d2 d3 W Rank III I II Dengan demikian dapat dihasilkan daftar dokumen teranking berdasarkan nilai kesesuaian (similarity) antara dokumen dan query masukan yang kemudian akan diberikan kepada pengguna. Dari hasil pembobotan dan perankingan dapat diketahui bahwa dokumen 2 (d2) memiliki tingkat relevansi tertinggi kemudian disusul dengan dokumen 3 (d3) lalu dokumen 1 (d1).
27 Evaluasi Sistem Temu Kembali Informasi Mandala (2002, hal: 7) menyatakan bahwa dalam bidang temu kembali informasi (information retrieval) terdapat berbagai metode yang digunakan dalam pembobotan kata, pengukuran kesesuaian, perangkingan, model sistem temu kembali informasi dan lain-lain. Sehingga diperlukan suatu ukuran sebagai perbandingan keefektifan metode-metode tersebut. Pada gambar 2.11 ditunjukkan bahwa evaluasi dapat dilakukan dengan menggunakan koleksi pengujian. Gambar 2.11 lustrasi penggunaan koleksi pengujian Kakas Evaluasi Berikut adalah penjelasan mengenai beberapa hal-hal berkenaan dengan analisis performansi suatu sistem temu kembali informasi Koleksi Pengujian Performansi sistem temu kembali informasi berhubungan dengan relevansi dokumen-dokumen yang dihasilkannya terhadap suatu query. Pengukuran performansi atau evaluasi sistem temu kembali informasi tidak dapat dilakukan bila seluruh dokumen yang relevan terhadap suatu query tidak diketahui sebelumnya. Seluruh dokumen relevan hampir tidak pernah diketahui, terutama untuk koleksi dokumen yang besar. Untuk mengatasi permasalahan ini maka dibuatlah koleksi pengujian.
28 34 Koleksi pengujian merupakan suatu kumpulan dokumen. Dari kumpulan dokumen tersebut ditentukan sekumpulan query mengenai koleksi. Beberapa ahli yang mengenal kumpulan dokumen tersebut menentukan relevansi dokumen-dokumen berdasar query. Sehingga didapatkan koleksi pengujian lengkap dengan sekumpulan query dan dokumen-dokumen yang telah ditentukan relevansinya. Pembentukan koleksi dokumen yang berukuran besar memerlukan kerja keras dari banyak pihak (Mandala, 2002).
BAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
Lebih terperinciSistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)
Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,
Lebih terperinciSISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak
SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas
Lebih terperinciIMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI SKRIPSI ATIKA ZAFIKRI
IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI SKRIPSI ATIKA ZAFIKRI 041401058 PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN S-1 ILMU KOMPUTER FAKULTAS
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1 Pengertian Stemming Stemming merupakan suatu proses atau cara dalam menemukan kata dasar dari suatu kata. Stemming sendiri berfungsi untuk menghilangkan variasi-variasi morfologi
Lebih terperinciIMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI
IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik
Lebih terperinciTugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System
Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem
Lebih terperinciText & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.
Lebih terperinciPEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN
PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi
Lebih terperinciRETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Information Retrieval (IR) 2.1.1 Pengertian IR Beberapa ahli mendefinisikan Information Retrieval sebagai berikut: Manning(2007), mendefinisikan bahwa Information Retrieval adalah
Lebih terperinciINFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER
INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,
Lebih terperinciTugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System
Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus
Lebih terperinciSistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)
Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15
Lebih terperinciBAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
Lebih terperinciInformation Retrieval
Information Retrieval Budi Susanto Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity?
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
Lebih terperinciIMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN
Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas
Lebih terperinciBAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih
Lebih terperinciSistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN
Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza
Lebih terperinciPemanfaatan Aljabar Vektor Pada Mesin Pencari
Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia
Lebih terperinciTEMU KEMBALI INFORMASI
JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR Konsep IR Model IR Konsep Boolean Model Pemodelan IR Model IR Konsep Boolean Model Model IR didefinisikan sebagai empat komponen, yaitu:
Lebih terperinciJULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan
Lebih terperinciPENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL
Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,
Lebih terperincicommit to user BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek
Lebih terperinciAplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System)
Aplikasi Aljabar Vektor pada Sistem Temu-balik Informasi (Information Retrieval System) IF3 Aljabar Geometri Oleh: Rinaldi Munir Program Studi Informatika, STEI-ITB Rinaldi Munir - IF3 Aljabar Geometri
Lebih terperinci1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah
1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari
Lebih terperinciPERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency
PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya
Lebih terperinciPeningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25
54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi
Lebih terperinciRANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciPERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY
Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik
Lebih terperinciAnalisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak
Lebih terperinciPENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR
PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan
Lebih terperinciPENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI
18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,
Lebih terperinciPemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami
Lebih terperinciBAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan
Lebih terperinciAnalisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem
Lebih terperinciPengujian Kerelevanan Sistem Temu Kembali Informasi
Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Information Retrieval Stefan Buttcher, (MIT 2010) Information Retrieval System atau Sistem Temu Balik Informasi merupakan bagian dari computer science tentang pengambilan informasi
Lebih terperinci1. Pendahuluan. 1.1 Latar belakang
1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu
Lebih terperinciBAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan
BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &
Lebih terperinciDefinisi. Company Logo
TEMU BALIK INFORMASI Definisi Cara sistematik mencari kembali seluruh atau sebagian informasi ilmiah yang pernah dihasilkan/ditulis/diterbitkan mengenai subjek tertentu untuk jangka waktu tertentu dan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciFatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang
45 Dinamika Teknik Januari IMPLEMENTASI SEARCH ENGINE (MESIN PENCARI) MENGGUNAKAN METODE VECTOR SPACE MODEL Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang Abstract Growth of Machine
Lebih terperinciSISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR
SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik
Lebih terperinciBab 1. KONSEP DASAR SISTEM TEMU KEMBALI INFORMASI
Bab 1. KONSEP DASAR SISTEM TEMU KEMBALI INFORMASI Tipe Sistem Informasi Sistem Temu Kembali Informasi (Information Retrieval System - IRS) merupakan salah satu tipe sistem informasi. Selain Sistem Temu
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan
Lebih terperinciTEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK
F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas
Lebih terperinciSistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient
Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,
Lebih terperinciBAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai
Lebih terperinciPENDAHULUAN. Latar belakang
Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara
Lebih terperinciBAB II TINJAUAN PUSTAKA
11 BAB II TINJAUAN PUSTAKA 2.1 Sistem Temu Kembali Informasi Temu Kembali informasi (IR) adalah Proses, metode, dan prosedur yang digunakan untuk menyeleksi informasi yang relevan yang tersimpan dalam
Lebih terperinciText Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta
Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk
Lebih terperinciUKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN
BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam
Lebih terperinciBAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen
BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi
Lebih terperinciPENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.
PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut
Lebih terperinciWEB MINING UNTUK PENCARIAN DOKUMEN BAHASA INGGRIS MENGGUNAKAN HILL CLIMBING AUTOMATIC CLUSTER
WEB MINING UNTUK PENCARIAN DOKUMEN BAHASA INGGRIS MENGGUNAKAN HILL CLIMBING AUTOMATIC CLUSTER Hervilorra Eldira 1, Entin Martiana K 2., S.Kom M.Kom, Nur Rosyid M 2., S.Kom 1 Mahasiswa, 2 Dosen Pembimbing
Lebih terperincicommit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari
Lebih terperinciText Pre-Processing. M. Ali Fauzi
Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.
Lebih terperinciBAB I PERSYARATAN PRODUK
BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciTEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL
TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL Giat Karyono 1, Fandy Setyo Utomo 2 1 Program Studi Teknik Informatika, STMIK AMIKOM Purwokerto E-mail
Lebih terperinciIntegrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
Lebih terperinciImplementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan
Lebih terperinciBAB 3 ANALISA DAN PERANCANGAN
BAB 3 ANALISA AN PERANCANGAN 3.1 Gambaran Umum Pada masa sekarang ini, proses pencarian dokumen dalam web seperti Google, Yahoo, dan sebagainya dilakukan dengan menginput query yang diinginkan pada kotak
Lebih terperinciBAB I PENDAHULUAN 1.1 LATAR BELAKANG
BAB I PENDAHULUAN Pada bab ini akan dibahas latar belakang penelitian, perumusan masalah, tujuan penelitian, manfaat penelitian dan batasan masalah. 1.1 LATAR BELAKANG Perkembangan penggunaan informasi
Lebih terperinciBAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Lebih terperinciImplementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information
Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Ratnadira Widyasari 13514025 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi
Lebih terperinciINFORMATION RETRIEVAL DOKUMEN TESIS UNTUK MENGETAHUI KEMIRIPANNYA DENGAN PENELITIAN YANG TELAH ADA
INFORMATION RETRIEVAL DOKUMEN TESIS UNTUK MENGETAHUI KEMIRIPANNYA DENGAN PENELITIAN YANG TELAH ADA Monica Mayeni 1, Wing Wahyu Winarno 2, Andi Sunyoto 3 1 Mahasiswa Pascasarjana MTI STMIK AMIKOM Yogyakarta
Lebih terperinciINDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id
Lebih terperinciIndexing dan Bahasa Penelusuran
LOGO Indexing dan Bahasa Penelusuran Sugeng Priyanto Indexing Definisi : sebuah proses untuk melakukan pengindeksan terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai. Proses
Lebih terperinciPENERAPAN ALGORITMA GENETIKA PADA RELEVANCE FEEDBACK DALAM SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN BINARY INDEPENDENCE MODEL (BIM) TUGAS AKHIR
PENERAPAN ALGORITMA GENETIKA PADA RELEVANCE FEEDBACK DALAM SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN BINARY INDEPENDENCE MODEL (BIM) TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar
Lebih terperinciBAB 2 LANDASAN TEORI
6 BAB 2 LANDASAN TEORI 2.1 Sinonim kata 2.1.1. Definisi Sinonim Menurut Chaer (2009), Relasi makna adalah hubungan kemaknaan atau relasi semantik antara sebuah kata atau satuan bahasa lainnya dengan akta
Lebih terperinciVECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA 2.1 Data Mining Data mining adalah istilah yang digunakan untuk menemukan pengetahuan baru yang tersembunyi di dalam penyimpanan data yang berukuran besar. Data mining merupakan
Lebih terperinciBAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya perkembangan teknologi dewasa ini telah menyebabkan aliran informasi begitu lancar
Lebih terperinciPENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA
PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA Suprianto 1), Sunardi 2), Abdul Fadlil 3) 1 Sistem Informasi STMIK PPKIA Tarakanita Rahmawati 2,3 Magister Teknik Informatika Universitas
Lebih terperinciSISTEM TEMU KEMBALI INFORMASI
SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik
Lebih terperinciText & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen
Lebih terperinciSistem Temu Kembali Informasi/ Information Retrieval
Sistem Temu Kembali Informasi/ Information Retrieval Pemodelan IR Imam Cholissodin S.Si., M.Kom. Table Of Content 1. Boolean Retrieval Model Boolean Index Inverted Index 2. Boolean Query Retrieval 3. Vector
Lebih terperinciTabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita
6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional
Lebih terperinciInera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL
Lebih terperinciImplementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan
Scientific Journal of Informatics Vol. 2, No. 2, November 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Implementasi Vector Space Model dalam Pembangkitan Frequently
Lebih terperinciIMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB
IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi
Lebih terperinciBAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN
28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi
Lebih terperinciContoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor
Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak
Lebih terperinci