Text dan Web Mining - Budi Susanto UKDW 1. Text dan Web Mining - Budi Susanto UKDW 2

Ukuran: px
Mulai penontonan dengan halaman:

Download "Text dan Web Mining - Budi Susanto UKDW 1. Text dan Web Mining - Budi Susanto UKDW 2"

Transkripsi

1 Text dan Web Mining - Budi Susanto UKDW 1 VEKTORISASI DOKUMEN Budi Susanto Text dan Web Mining - Budi Susanto UKDW 2 Tujuan Memahami metode-metode yang diterapkan untuk pembentukan vektor dokumen 1

2 Text dan Web Mining - Budi Susanto UKDW 3 Pendahuluan Dokumen bukanlah data terstruktur karena jauh dari bentuk tabel (baris dan kolom). Perlu metodologi pembentukan suatu data terstruktur untuk mewakili dokumen. Langkah awal adalah harus menentukan features yang mewakiliki seluruh kumpulan dokumen. Text dan Web Mining - Budi Susanto UKDW 4 Koleksi Dokumen Dalam suatu permasalahan text mining, dokumendokumen yang akan diproses harus diidentifikasikan. Intervensi manusia dalam pengumpulan dokumen dapat mengontrol integritas proses koleksi dokumen Selanjutnya fokus pada pembersihan dokumen-dokumen tersebut dan memastikan berkualitas. 2

3 Text dan Web Mining - Budi Susanto UKDW 5 Koleksi Dokumen Ketika koleksi dokumen dalam jumlah yang sangat besar, terkadang dibutuhkan penerapan teknik data sampling: Untuk memilih himpunan dokumen yang relevan Contoh berdasar timestamp Contoh lain berdasar kemiripan dokumen Text dan Web Mining - Budi Susanto UKDW 6 Koleksi Dokumen Marijn Koolen dan Jaap Kamps (2010) mengungkapkan bahwa: The amount of relevant information increases with collection size. Menambahkan dokumen ke dalam koleksi akan menyebabkan semakin berkurangnya informasi yang dikebalikan: karena semakin banyak informasi yang sudah ditutupi oleh koleksi, maka akan semakin sulit menambahkan informasi baru. The amount of redundant information increases with collection size. Redudansi informasi akan menyebabkan kolek dokumen yang besar berpotensi merugikan. id= &dl=acm&coll=dl&cfid= &cftoken=

4 Text dan Web Mining - Budi Susanto UKDW 7 Koleksi Dokumen Text dan Web Mining - Budi Susanto UKDW 8 Memilih Sampling Pendekatan umum: Dipilih secara acak n% dari m dokumen Pendekatan Kennard-Stone 4

5 Text dan Web Mining - Budi Susanto UKDW 9 Pendeteksi Duplikasi Dokumen Conrad et al. (2004) mengatakan dua dokumen adalah near duplicate jika berbagi lebih dari 80% terminologi yang sama dan perbedaan panjang keduanya tidak lebih dari 20%. Pemanfaatan nilai hash (MD5 misalnya) terhadap tiap dokumen (exact duplicate) Menerapkan Shingles (Word N-grams) Jarak dengan Jaccar, SMC, Cosine Text dan Web Mining - Budi Susanto UKDW 10 K-Shingling K-Singling suatu dokumen mentransformasikan dokumen ke dalam suatu himpunan yang berisi semua window dari k kata bersambungan. Contoh: Nama saya text dan web mining. Matakuliah ini adalah luar biasa. 4-singles = { nama saya text dan Saya text dan web Text dan web mining Dan web mining matakuliah Web mining matakuliah ini Mining matakuliah ini adalah Matakuliah ini adalah luar Ini adalah luar biasa } 5

6 Text dan Web Mining - Budi Susanto UKDW 11 K-Shingling S k (d) menyatakan k-shingling dokumen d Ressemblance (kemiripan) d1 dan d2 R(d1,d2) = Sk(d1) Sk(d2) / Sk(d1) Sk(d2) Ukuran jarak d1 dan d2 Δ(d1,d2) = 1-R(d1,d2) Text dan Web Mining - Budi Susanto UKDW 12 Jaccard dan SMC SMC (Simple Matching Coefficient) jaccard 6

7 Text dan Web Mining - Budi Susanto UKDW 13 Cossine Sering digunakan untuk frekuensi kemunculan kata suatu dokumen Text dan Web Mining - Budi Susanto UKDW 14 Beberapa Koleksi Reuters corpus RCV1 Brown corpus Lancaster-Oslo-Bergen corpus (LOB) Penn Tree Bank TREC (Text Retrieval and Evaluation Conferences) Gutenberg Project MEDLINE 7

8 Text dan Web Mining - Budi Susanto UKDW 15 Standarisasi Dokumen Koleksi dokumen juga sebaiknya di simpan dalam suatu format dokumen yang seragam. Format XML menjadi pilihan terbaik. DBMS yang mendukung penyimpanan teks dapat dimanfaatkan. Text dan Web Mining - Budi Susanto UKDW 16 Deretan Karakter Hal pertama yang perlu dipertimbangkan adalah format character set yang digunakan. ASCII tidak menjadi masalah Bagaimana dengan UTF, UNICODE? Bagaimana dengan dokumen MS WORD? XML? yang mengandung entitas karakter dan sebagainya. Sistem penulisan karakter Arabic apakah sama dengan Latin atau Katagana atau sejenis yang lain? 8

9 Text dan Web Mining - Budi Susanto UKDW 17 Unit Dokumen File dalam suatu folder dalam suatu inbox Mengandung attachment Sebuah file EPUB terdiri dari beberapa file HTML. Text dan Web Mining - Budi Susanto UKDW 18 Bagaimana Anda melakukan Tokenisasi? JEJU, KOMPAS.com - Persediaan tuna global menipis akibat penangkapan berlebih. Menurut daftar merah International Union for Conservation of Nature (IUCN), saat ini lima dari delapan spesies tuna tergolong kategori terancam atau hampir punah. Para pemerhati konservasi mengemukakan peringatan mengenai hal ini pula dalam Kongres Konservasi Dunia (World Conservation Congress) IUCN di Jeju, Korea Selatan, hari Sabtu (8/9). Tuna sirip biru Atlantik adalah yang paling terancam ketersediaannya. Ikan ini merupakan favorit para pecinta makanan sushi Jepang, dan dihargai tinggi. Rekor tertinggi seekor ikan dengan berat 592 pon (269 kilogram) pernah dinilai seharga 56,49 juta yen (sekitar USD). 9

10 Text dan Web Mining - Budi Susanto UKDW 19 Tokenisasi A token is an instance of a sequence of characters in some particular document that are grouped together as a useful semantic unit for processing. A type is the class of all tokens containing the same character sequence. A term is a (perhaps nor- malized) type that is included in the IR system s dictionary. Text dan Web Mining - Budi Susanto UKDW 20 Tokenisasi Pada pendekatan modern, yang tersimpan dalam index atau vektor adalah suatu bentuk token yang telah melalui proses normalisasi. Tokenisasi perlu juga memperhatikan bahasa yang digunakan dalam dokumen. Terdapat beberapa token yang tidak umum Singkatan Sebutan suatu produk , url, nomor nota, dan sebagainya 10

11 Text dan Web Mining - Budi Susanto UKDW 21 Identifikasi Bahasa Latih pengenalan suatu identifikasi bahasa berdasar suatu corpus teks besar dari suatu bahasa terpilih. Pelatihan yang dimaksud untuk mendapatkan frekuensi/kompresi terhadap kemunculan n-gram. Gunakan hasil pelatihan untuk menilai teks yang baru. Text dan Web Mining - Budi Susanto UKDW 22 Pelatihan Identifikasi Bahasa Untuk tiap corpus, kumpulkan statistik kemunculan dari kemunculan n-gram dalam corpus c dengan panjang c. Hitung probabilitas kemunculan n-gram i William B. Cavnar and John M. Trenkle, N-Gram-Based Text Categorization. 11

12 Text dan Web Mining - Budi Susanto UKDW 23 Identifikasi Bahasa suatu Teks Untuk setiap pengenal bahasa Untuk sebuah dokumen tidak dikenal, hitung statistik kemunculan dari n-gram dalam dokumen d dengan panjang d. Hitung probabilitas kemunculan n-gram j Hitung jarak dengan model tiap bahasa Text dan Web Mining - Budi Susanto UKDW 24 N-Gram-Based Text Categorization 12

13 Text dan Web Mining - Budi Susanto UKDW 25 Contoh sederhana Sample 1 Test Sample 2 Test Saya makan nasi makan I eat rice makan say i e aya ea ya eat a m at ma t r mak ri aka ric kan ice an n n mak na aka nas kan asi Pendeteksian dengan ML (n-gram kata) Text dan Web Mining - Budi Susanto UKDW 26 13

14 Text dan Web Mining - Budi Susanto UKDW 27 Contoh Sederhana add-one smoothing Text dan Web Mining - Budi Susanto UKDW 28 Contoh Sederhana add-one smoothing 14

15 Text dan Web Mining - Budi Susanto UKDW 29 Stemming dan Lemmatization Tujuan: untuk mengurangi perubahan bentuk atau turunan dari suatu kata. Stemming Menggunakan proses heuristik untuk membuang awalan dan akhiran Lemmatization Menerapkan kamus kontrol dan analisis morfologi Biasanya membuang akhiran Text dan Web Mining - Budi Susanto UKDW 30 Stemmer untuk Indonesia Algoritma Nazief dan Adriani Algoritma Idris dan Mustapha Algoritma Arifin dan Setiono Algoritma Ahmad, Yussof dan Sembok Algoritma Vega 15

16 Text dan Web Mining - Budi Susanto UKDW 31 Afiks (Imbuhan) Bahasa Indonesia Empat macam: Prefiks afiks yang dilekatkan di depan kata dasar Sufiks afiks yang dilekatkan di belakang kata dasar Konfiks gabungan prefiks dan sufiks yang mengapit kata dasar dan membuat suatu kesatuan infiks bentuk afiks yang diletakkan di tengah kata dasar Text dan Web Mining - Budi Susanto UKDW 32 Algoritma Bobby Nazief dan Mirna Adriani 1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes ( -lah, -kah, -ku, -mu, atau - nya ) dibuang. Jika berupa particles ( -lah, -kah, - tah atau -pun ) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns ( -ku, -mu, atau - nya ), jika ada. 16

17 Text dan Web Mining - Budi Susanto UKDW 33 Algoritma Bobby Nazief dan Mirna Adriani 3. Hapus Derivation Suffixes ( -i, -an atau -kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an atau -kan ) dikembalikan, lanjut ke langkah 4. Text dan Web Mining - Budi Susanto UKDW 34 Algoritma Bobby Nazief dan Mirna Adriani 4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 17

18 Text dan Web Mining - Budi Susanto UKDW 35 Algoritma Bobby Nazief dan Mirna Adriani 5. Melakukan Recoding. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Text dan Web Mining - Budi Susanto UKDW 36 Algoritma Bobby Nazief dan Mirna Adriani Tipe awalan ditentukan melalui langkah-langkah berikut: 1. Jika awalannya adalah: di-, ke-, atau se- maka tipe awalannya secara berturut-turut adalah di-, ke-, atau se-. 2. Jika awalannya adalah te-, me-, be-, atau pe- maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya. 3. Jika dua karakter pertama bukan di-, ke-, se-, te-, be-, me-, atau pe- maka berhenti. 4. Jika tipe awalan adalah none maka berhenti. Jika tipe awalan adalah bukan none maka awalan dapat dilihat pada Tabel 2. Hapus awalan jika ditemukan. 18

19 Text dan Web Mining - Budi Susanto UKDW 37 Algoritma Bobby Nazief dan Mirna Adriani Text dan Web Mining - Budi Susanto UKDW 38 Algoritma Bobby Nazief dan Mirna Adriani 19

20 Text dan Web Mining - Budi Susanto UKDW 39 Algoritma Bobby Nazief dan Mirna Adriani Text dan Web Mining - Budi Susanto UKDW 40 Feature Selection Memilih k-top dari bobot Bobot dapat dilakukan dengan TF/IDF Dapat menerapkan validasi regresi linier Information Gain untuk tiap kategori 20

21 Text dan Web Mining - Budi Susanto UKDW 41 TERIMA KASIH! 21

Budi Susanto VEKTORISASI DOKUMEN

Budi Susanto VEKTORISASI DOKUMEN Budi Susanto VEKTORISASI DOKUMEN Tujuan Memahami metode-metode yang diterapkan untuk pembentukan vektor dokumen Pendahuluan Dokumen bukanlah data terstruktur karena jauh dari bentuk tabel (baris dan kolom).

Lebih terperinci

SISTEM TEMU BALIK INFORMASI

SISTEM TEMU BALIK INFORMASI SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU

Lebih terperinci

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sentimen Analisis Analisis sentimen juga dapat dikatakan sebagai opinion mining. Analisis sentimen dapat digunakan dalam berbagai kemungkian domain, dari produk konsumen, jasa

Lebih terperinci

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING Julianto Wibowo Mahasiswa Program Studi Teknik Informatika, STMIK Budi Darma Medan Jl. Sisimangaraja

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Natural Language Processing Natural language processing (NLP), merupakan salah satu pendekatan terkomputerisasi untuk menganalisa teks berdasarkan aspek teori dan teknologi. Menurut

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Pengertian Plagiarisme Kata plagiarisme berasal dari kata Latin plagiarius yang berarti merampok, membajak. Plagiarisme merupakan tindakan pencurian atau kebohongan intelektual.

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Vol 2, No 3 Juni 2012 ISSN 2088-2130 Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Fika Hastarita Rachman Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Pengertian Stemming Stemming merupakan suatu proses atau cara dalam menemukan kata dasar dari suatu kata. Stemming sendiri berfungsi untuk menghilangkan variasi-variasi morfologi

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA ISSN (Print) : 1693-1173 ISSN (Online) : 2548-4028 IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA Dwi Wahyudi 1), Teguh Susyanto 2), Didik Nugroho

Lebih terperinci

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat BAB III LANDASAN TEORI 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat memahami dengan cepat isi dari bacaan tersebut. Memahami isi bacaan melalui

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Analisis sentimen Analisis sentimen atau opinion mining merupakan proses memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan informasi sentimen

Lebih terperinci

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia ISSN : 088-9984 Seminar Nasional dan ExpoTeknik Elektro 0 Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia Jiwa Malem Marsya ) dan Taufik Fuadi Abidin ) ) Data Mining and IR Research Group FMIPA

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Text mining Menurut Feldman dan Sanger (Feldman dan Sanger, 2007), text mining dapat didefinisikan secara luas sebagai proses pengetahuan intensif yang memungkinkan pengguna berinteraksi

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia Hargyo Tri Nugroho I. Program Studi Sistem Komputer, Universitas Multimedia

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya. Selain itu juga berfungsi untuk memberikan gambaran dan solusi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar BAB I PENDAHULUAN 1.1. LATAR BELAKANG Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar 35 imbuhan resmi yang disebutkan dalam Kamus Besar Bahasa Indonesia. Imbuhan-imbuhan ini dapat

Lebih terperinci

Preprocessing Text Mining Pada Box Berbahasa Indonesia

Preprocessing Text Mining Pada  Box Berbahasa Indonesia Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Preprocessing Text Mining Pada Email Box Berbahasa Indonesia Gusti Ngurah Mega Nata 1), Putu Pande Yudiastra 2) STMIK STIKOM

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB 2 LANDASAN TEORI. 2.1 Text mining BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.

Lebih terperinci

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING Noor Ifada, Husni, Rahmady Liyantanto Jurusan Teknik Informatika, Fakultas Teknik, Universitas Truojoyo

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari negara Indonesia. Bahasa Indonesia memiliki sekitar 23 juta penutur asli pada tahun 2010, dan lebih dari 140.000.000 penutur

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Ratnadira Widyasari 13514025 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

1. Pendahuluan 2. Kajian Pustaka

1. Pendahuluan 2. Kajian Pustaka 1. Pendahuluan Evaluasi hasil belajar menjadi komponen yang sangat penting dalam proses pembelajaran, karena hasil evaluasi merupakan indikator dari pemahaman siswa terhadap materi ajar yang diberikan.

Lebih terperinci

JARO-WINKLER DISTANCE DAN STEMMING UNTUK DETEKSI DINI HAMA DAN PENYAKIT PADI

JARO-WINKLER DISTANCE DAN STEMMING UNTUK DETEKSI DINI HAMA DAN PENYAKIT PADI Seminar Nasional Sistem Informasi Indonesia, 2-3 November 2015 JARO-WINKLER DISTANCE DAN STEMMING UNTUK DETEKSI DINI HAMA DAN PENYAKIT PADI Fairly Okta mal 1), Ristu Saptono 2) Meiyanto Eko Sulistyo 3)

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity

Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity 1) Tjiong Debora Yulianti, 2) Ade Iriani, 3) Hendry Fakultas Teknologi Informasi Universitas

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP Oleh Kadek Versi Yana Yoga,0815051046 Jurusan Pendidikan Teknik Informatika Fakultas Teknik dan Kejuruan

Lebih terperinci

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP Hak cipta dan penggunaan kembali: Lisensi ini mengizinkan setiap orang untuk menggubah, memperbaiki, dan membuat ciptaan turunan bukan untuk kepentingan komersial, selama anda mencantumkan nama penulis

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

Information Retrieval

Information Retrieval Information Retrieval Budi Susanto Information Retrieval Information items content Feature extraction Structured Structured Document Document representation representation Retrieval model: relevance Similarity?

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal Soedirman Jl. Mayjen Sungkono Blater Km

Lebih terperinci

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta Budi Susanto Versi 1.0 29/08/2012 1 Memahami pengertian dari text mining dan web mining Memahami latar belakang perlunya pengolahan dokumen teks dan web Memahami arsitektur dasar aplikasi text dan web

Lebih terperinci

Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing

Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing Jurnal Telematika, vol.8 no.1, Institut Teknologi Harapan Bangsa, Bandung, Indonesia Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB Harry Hartanto #1, The Houw Liong

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan yang pesat di bidang teknologi informasi terutama internet, telah menimbulkan lonjakan informasi yang hebat. Hal ini terjadi karena internet memungkinkan banyak

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT 10108371 Latar Belakang Masalah 1. Jumlah buku yang semakin banyak. 2. Belum adanya sistem pencarian informasi buku

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Information Retrieval (pencarian Informasi) adalah proses pemisahan dokumen-dokumen dari sekumpulan dokumen yang ada untuk memenuhi kebutuhan pengguna. Jumlah

Lebih terperinci

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

Jurnal String Vol.1 No.2 Tahun 2016 ISSN : PERBANDINGAN ALGORITMA STEMMING PORTER DENGANARIFIN SETIONO UNTUK MENENTUKAN TINGKAT KETEPATAN KATA DASAR Dian Novitasari Program Studi Teknik Informatika, Universitas Indraprasta PGRI Emai : diannovita.unindra@gmail.com

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Video Video merupakan teknologi pemrosesan sinyal elektronik yang mewakilkan gambar bergerak. Istilah video juga sering digunakan sebagai singkatan dari video tape, perekaman

Lebih terperinci

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori mengenai pendeteksian kemiripan dokumen teks yang mengkhususkan pada pengertian dari keaslian dokumen, plagiarisme, kemiripan dokumen, dan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Text Mining Text mining, yang juga disebut sebagai Teks Data Mining (TDM) atau Knowledge Discovery in Text (KDT), secara umum mengacu pada proses ekstraksi informasi dari dokumen-dokumen

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang Plagiarisme atau sering disebut plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah-olah karangan

Lebih terperinci

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP Hak cipta dan penggunaan kembali: Lisensi ini mengizinkan setiap orang untuk menggubah, memperbaiki, dan membuat ciptaan turunan bukan untuk kepentingan komersial, selama anda mencantumkan nama penulis

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1. Data Mining Data mining adalah proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai untuk meningkatkan

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era BAB I PENDAHULUAN 1.1 Latar Belakang Information retrieval atau disingkat dengan IR adalah menemukan bahan (dokumen) dari dokumen terstruktur (biasanya teks) yang memenuhi kebutuhan informasi pada ruang

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.

Lebih terperinci

Implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk Mendeteksi Kemiripan Teks

Implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk Mendeteksi Kemiripan Teks Implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk Mendeteksi Kemiripan Teks Radiant Victor Imbar, Adelia 2, Mewati Ayub 3, Alexander Rehatta 4,2 Jurusan S Sistem Informasi, 3,4 Jurusan

Lebih terperinci

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

STUDI PERBANDINGAN ALGORITMA - ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA. Manase Sahat H Simarangkir

STUDI PERBANDINGAN ALGORITMA - ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA. Manase Sahat H Simarangkir STUDI PERBANDINGAN ALGORITMA - ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA Manase Sahat H Simarangkir Magister Teknik informatika, Komputer, Universitas Presiden Jababeka Education Park Jl.

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Bab 1 Pendahuluan 1.1 Pengantar

Bab 1 Pendahuluan 1.1 Pengantar Bab 1 Pendahuluan 1.1 Pengantar Pada awalnya komputer hanya dapat digunakan oleh mereka yang ahli, peneliti, dan orang-orang yang punya keahlian khusus. Kini penggunaan komputer tidak hanya terbatas bagi

Lebih terperinci

Teknik Informatika UKDW Yogyakarta

Teknik Informatika UKDW Yogyakarta Budi Susanto Versi 1.1 15/01/2013 1 Memahami pengertian dari text mining dan web mining Memahami latar belakang perlunya pengolahan dokumen teks dan web Memahami arsitektur dasar aplikasi text dan web

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

PERBANDINGAN PENGUNAAN STEMMING PADA DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN METODE RABIN KARP DAN JACCARD SIMILARITY

PERBANDINGAN PENGUNAAN STEMMING PADA DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN METODE RABIN KARP DAN JACCARD SIMILARITY PERBANDINGAN PENGUNAAN STEMMING PADA DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN METODE RABIN KARP DAN JACCARD SIMILARITY Adji Sukmana 1), Kusrini 2), Andi Sunyoto 3) 1,2,3) Magister Teknik Informatika, Universitas

Lebih terperinci

UKDW. Bab 1 PENDAHULUAN

UKDW. Bab 1 PENDAHULUAN Bab 1 PENDAHULUAN 1.1 Latar Belakang Skripsi merupakan tugas akhir mahasiswa S1 yang bersifat mandiri dan wajib untuk mendapatkan gelar sarjana. Seorang mahasiswa yang akan menulis tugas akhir harus mencari

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Bab ini akan membahas tentang analisa dan perancangan aplikasi source detection pada kasus plagiarisme dokumen menggunakan biword winnowing dan retrieval berbasis Okapi BM25.

Lebih terperinci

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. 2. Penyimpanan serta penyebaran (sharing) materi ajar masih membutuhkan

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. 2. Penyimpanan serta penyebaran (sharing) materi ajar masih membutuhkan 149 BAB IV HASIL PENELITIAN DAN PEMBAHASAN 4.1. Analisis Masalah Berdasarkan latar belakang yang sudah diuraikan, maka permasalahan yang mendasari penelitian ini adalah: 1. Materi ajar masih dimiliki oleh

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Algoritma Rabin-Karp Algoritma Rabin-Karp adalah suatu algoritma pencarian string yang diciptakan Michael O. Rabin dan Richard M. Karp pada tahun 1987 yang menggunakan fungsi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

LAMPIRAN A: Kode Program

LAMPIRAN A: Kode Program 68 LAMPIRAN A: Kode Program 1. proses_teks_tanpa_stemming_executor.php

Lebih terperinci