Text dan Web Mining - Budi Susanto UKDW 1. Text dan Web Mining - Budi Susanto UKDW 2

dokumen-dokumen yang mirip
Budi Susanto VEKTORISASI DOKUMEN

SISTEM TEMU BALIK INFORMASI

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

BAB II LANDASAN TEORI

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

BAB II LANDASAN TEORI

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

BAB II LANDASAN TEORI

commit to user BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

BAB II LANDASAN TEORI

Text Pre-Processing. M. Ali Fauzi

BAB II LANDASAN TEORI

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

BAB II LANDASAN TEORI

BAB 2 LANDASAN TEORI

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

IMPLEMENTASI DAN ANALISIS ALGORITMA STEMMING NAZIEF & ADRIANI DAN PORTER PADA DOKUMEN BERBAHASA INDONESIA

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB 2 TINJAUAN PUSTAKA

Analisa dan Evaluasi Afiks Stemming untuk Bahasa Indonesia

BAB II LANDASAN TEORI

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

BAB III ANALISIS DAN PERANCANGAN

BAB III METODOLOGI PENELITIAN

Gambar 1.1 Proses Text Mining [7]

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar

Preprocessing Text Mining Pada Box Berbahasa Indonesia

BAB IV ANALISA DAN PERANCANGAN

BAB 2 LANDASAN TEORI. 2.1 Text mining

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

BAB I PENDAHULUAN 1.1 Latar Belakang

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

1. Pendahuluan 2. Kajian Pustaka

JARO-WINKLER DISTANCE DAN STEMMING UNTUK DETEKSI DINI HAMA DAN PENYAKIT PADI

JULIO ADISANTOSO - ILKOM IPB 1

Personalisasi Modul Similaritas Pencarian Lowongan Kerja dengan Algoritma Extended Weighted Tree Similarity

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB III METODELOGI PENELITIAN

BAB 2 LANDASAN TEORI

Information Retrieval

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

ROCCHIO CLASSIFICATION

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

PENCARIAN ALAMAT FASILITAS UMUM MENGGUNAKAN METODE VECTOR SPACE MODEL ( STUDI KASUS KOTA PEKANBARU ) TUGAS AKHIR

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB II LANDASAN TEORI

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

BAB III METODOLOGI PENELITIAN

BAB 3 LANDASAN TEORI

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB 2 TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

beberapa tag-tag lain yang lebih spesifik di dalamnya.

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

SISTEM TEMU KEMBALI INFORMASI

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

BAB 3 LANDASAN TEORI

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

Implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk Mendeteksi Kemiripan Teks

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

STUDI PERBANDINGAN ALGORITMA - ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA. Manase Sahat H Simarangkir

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Bab 1 Pendahuluan 1.1 Pengantar

Teknik Informatika UKDW Yogyakarta

BAB 1 PENDAHULUAN UKDW

BAB II LANDASAN TEORI

PERBANDINGAN PENGUNAAN STEMMING PADA DETEKSI KEMIRIPAN DOKUMEN MENGGUNAKAN METODE RABIN KARP DAN JACCARD SIMILARITY

UKDW. Bab 1 PENDAHULUAN

BAB IV ANALISA DAN PERANCANGAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. 2. Penyimpanan serta penyebaran (sharing) materi ajar masih membutuhkan

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN Latar Belakang

BAB V EKSPERIMEN TEXT CLASSIFICATION

LAMPIRAN A: Kode Program

Transkripsi:

Text dan Web Mining - Budi Susanto UKDW 1 VEKTORISASI DOKUMEN Budi Susanto Text dan Web Mining - Budi Susanto UKDW 2 Tujuan Memahami metode-metode yang diterapkan untuk pembentukan vektor dokumen 1

Text dan Web Mining - Budi Susanto UKDW 3 Pendahuluan Dokumen bukanlah data terstruktur karena jauh dari bentuk tabel (baris dan kolom). Perlu metodologi pembentukan suatu data terstruktur untuk mewakili dokumen. Langkah awal adalah harus menentukan features yang mewakiliki seluruh kumpulan dokumen. Text dan Web Mining - Budi Susanto UKDW 4 Koleksi Dokumen Dalam suatu permasalahan text mining, dokumendokumen yang akan diproses harus diidentifikasikan. Intervensi manusia dalam pengumpulan dokumen dapat mengontrol integritas proses koleksi dokumen Selanjutnya fokus pada pembersihan dokumen-dokumen tersebut dan memastikan berkualitas. 2

Text dan Web Mining - Budi Susanto UKDW 5 Koleksi Dokumen Ketika koleksi dokumen dalam jumlah yang sangat besar, terkadang dibutuhkan penerapan teknik data sampling: Untuk memilih himpunan dokumen yang relevan Contoh berdasar timestamp Contoh lain berdasar kemiripan dokumen Text dan Web Mining - Budi Susanto UKDW 6 Koleksi Dokumen Marijn Koolen dan Jaap Kamps (2010) mengungkapkan bahwa: The amount of relevant information increases with collection size. Menambahkan dokumen ke dalam koleksi akan menyebabkan semakin berkurangnya informasi yang dikebalikan: karena semakin banyak informasi yang sudah ditutupi oleh koleksi, maka akan semakin sulit menambahkan informasi baru. The amount of redundant information increases with collection size. Redudansi informasi akan menyebabkan kolek dokumen yang besar berpotensi merugikan. http://dl.acm.org/citation.cfm? id=1835586&dl=acm&coll=dl&cfid=155824736&cftoken=35757112 3

Text dan Web Mining - Budi Susanto UKDW 7 Koleksi Dokumen Text dan Web Mining - Budi Susanto UKDW 8 Memilih Sampling Pendekatan umum: Dipilih secara acak n% dari m dokumen Pendekatan Kennard-Stone 4

Text dan Web Mining - Budi Susanto UKDW 9 Pendeteksi Duplikasi Dokumen Conrad et al. (2004) mengatakan dua dokumen adalah near duplicate jika berbagi lebih dari 80% terminologi yang sama dan perbedaan panjang keduanya tidak lebih dari 20%. Pemanfaatan nilai hash (MD5 misalnya) terhadap tiap dokumen (exact duplicate) Menerapkan Shingles (Word N-grams) Jarak dengan Jaccar, SMC, Cosine Text dan Web Mining - Budi Susanto UKDW 10 K-Shingling K-Singling suatu dokumen mentransformasikan dokumen ke dalam suatu himpunan yang berisi semua window dari k kata bersambungan. Contoh: Nama saya text dan web mining. Matakuliah ini adalah luar biasa. 4-singles = { nama saya text dan Saya text dan web Text dan web mining Dan web mining matakuliah Web mining matakuliah ini Mining matakuliah ini adalah Matakuliah ini adalah luar Ini adalah luar biasa } 5

Text dan Web Mining - Budi Susanto UKDW 11 K-Shingling S k (d) menyatakan k-shingling dokumen d Ressemblance (kemiripan) d1 dan d2 R(d1,d2) = Sk(d1) Sk(d2) / Sk(d1) Sk(d2) Ukuran jarak d1 dan d2 Δ(d1,d2) = 1-R(d1,d2) Text dan Web Mining - Budi Susanto UKDW 12 Jaccard dan SMC SMC (Simple Matching Coefficient) jaccard 6

Text dan Web Mining - Budi Susanto UKDW 13 Cossine Sering digunakan untuk frekuensi kemunculan kata suatu dokumen Text dan Web Mining - Budi Susanto UKDW 14 Beberapa Koleksi Reuters corpus RCV1 Brown corpus Lancaster-Oslo-Bergen corpus (LOB) Penn Tree Bank TREC (Text Retrieval and Evaluation Conferences) Gutenberg Project MEDLINE 7

Text dan Web Mining - Budi Susanto UKDW 15 Standarisasi Dokumen Koleksi dokumen juga sebaiknya di simpan dalam suatu format dokumen yang seragam. Format XML menjadi pilihan terbaik. DBMS yang mendukung penyimpanan teks dapat dimanfaatkan. Text dan Web Mining - Budi Susanto UKDW 16 Deretan Karakter Hal pertama yang perlu dipertimbangkan adalah format character set yang digunakan. ASCII tidak menjadi masalah Bagaimana dengan UTF, UNICODE? Bagaimana dengan dokumen MS WORD? XML? yang mengandung entitas karakter dan sebagainya. Sistem penulisan karakter Arabic apakah sama dengan Latin atau Katagana atau sejenis yang lain? 8

Text dan Web Mining - Budi Susanto UKDW 17 Unit Dokumen File dalam suatu folder Email dalam suatu inbox Mengandung attachment Sebuah file EPUB terdiri dari beberapa file HTML. Text dan Web Mining - Budi Susanto UKDW 18 Bagaimana Anda melakukan Tokenisasi? JEJU, KOMPAS.com - Persediaan tuna global menipis akibat penangkapan berlebih. Menurut daftar merah International Union for Conservation of Nature (IUCN), saat ini lima dari delapan spesies tuna tergolong kategori terancam atau hampir punah. Para pemerhati konservasi mengemukakan peringatan mengenai hal ini pula dalam Kongres Konservasi Dunia (World Conservation Congress) IUCN di Jeju, Korea Selatan, hari Sabtu (8/9). Tuna sirip biru Atlantik adalah yang paling terancam ketersediaannya. Ikan ini merupakan favorit para pecinta makanan sushi Jepang, dan dihargai tinggi. Rekor tertinggi seekor ikan dengan berat 592 pon (269 kilogram) pernah dinilai seharga 56,49 juta yen (sekitar 737.000 USD). http://sains.kompas.com/read/2012/09/12/20015474/lima.dari.delapan.spesies.tuna.hampir.punah 9

Text dan Web Mining - Budi Susanto UKDW 19 Tokenisasi A token is an instance of a sequence of characters in some particular document that are grouped together as a useful semantic unit for processing. A type is the class of all tokens containing the same character sequence. A term is a (perhaps nor- malized) type that is included in the IR system s dictionary. Text dan Web Mining - Budi Susanto UKDW 20 Tokenisasi Pada pendekatan modern, yang tersimpan dalam index atau vektor adalah suatu bentuk token yang telah melalui proses normalisasi. Tokenisasi perlu juga memperhatikan bahasa yang digunakan dalam dokumen. Terdapat beberapa token yang tidak umum Singkatan Sebutan suatu produk Email, url, nomor nota, dan sebagainya 10

Text dan Web Mining - Budi Susanto UKDW 21 Identifikasi Bahasa Latih pengenalan suatu identifikasi bahasa berdasar suatu corpus teks besar dari suatu bahasa terpilih. Pelatihan yang dimaksud untuk mendapatkan frekuensi/kompresi terhadap kemunculan n-gram. Gunakan hasil pelatihan untuk menilai teks yang baru. Text dan Web Mining - Budi Susanto UKDW 22 Pelatihan Identifikasi Bahasa Untuk tiap corpus, kumpulkan statistik kemunculan dari kemunculan n-gram dalam corpus c dengan panjang c. Hitung probabilitas kemunculan n-gram i William B. Cavnar and John M. Trenkle, N-Gram-Based Text Categorization. 11

Text dan Web Mining - Budi Susanto UKDW 23 Identifikasi Bahasa suatu Teks Untuk setiap pengenal bahasa Untuk sebuah dokumen tidak dikenal, hitung statistik kemunculan dari n-gram dalam dokumen d dengan panjang d. Hitung probabilitas kemunculan n-gram j Hitung jarak dengan model tiap bahasa Text dan Web Mining - Budi Susanto UKDW 24 N-Gram-Based Text Categorization 12

Text dan Web Mining - Budi Susanto UKDW 25 Contoh sederhana Sample 1 Test Sample 2 Test Saya makan nasi makan I eat rice makan say 1 0.0769 i e 1 0.125 aya 1 0.0769 ea 1 0.125 ya 1 0.0769 eat 1 0.125 a m 1 0.0769 at 1 0.125 ma 1 0.0769 t r 1 0.125 mak 1 0.0769 1 0.3333 0.256410 ri 1 0.125 aka 1 0.0769 1 0.3333 0.256410 ric 1 0.125 kan 1 0.0769 1 0.3333 0.256410 ice 1 0.125 an 1 0.0769 n n 1 0.0769 0 mak 1 0.3333 0.3333333 na 1 0.0769 0 aka 1 0.3333 0.3333333 nas 1 0.0769 0 kan 1 0.3333 0.3333333 asi 1 0.0769 13 0.7692308 8 1 Pendeteksian dengan ML (n-gram kata) Text dan Web Mining - Budi Susanto UKDW 26 13

Text dan Web Mining - Budi Susanto UKDW 27 Contoh Sederhana add-one smoothing Text dan Web Mining - Budi Susanto UKDW 28 Contoh Sederhana add-one smoothing 14

Text dan Web Mining - Budi Susanto UKDW 29 Stemming dan Lemmatization Tujuan: untuk mengurangi perubahan bentuk atau turunan dari suatu kata. Stemming Menggunakan proses heuristik untuk membuang awalan dan akhiran Lemmatization Menerapkan kamus kontrol dan analisis morfologi Biasanya membuang akhiran Text dan Web Mining - Budi Susanto UKDW 30 Stemmer untuk Indonesia Algoritma Nazief dan Adriani Algoritma Idris dan Mustapha Algoritma Arifin dan Setiono Algoritma Ahmad, Yussof dan Sembok Algoritma Vega http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.59.4851&rep=rep1&type=pdf 15

Text dan Web Mining - Budi Susanto UKDW 31 Afiks (Imbuhan) Bahasa Indonesia Empat macam: Prefiks afiks yang dilekatkan di depan kata dasar Sufiks afiks yang dilekatkan di belakang kata dasar Konfiks gabungan prefiks dan sufiks yang mengapit kata dasar dan membuat suatu kesatuan infiks bentuk afiks yang diletakkan di tengah kata dasar Text dan Web Mining - Budi Susanto UKDW 32 Algoritma Bobby Nazief dan Mirna Adriani 1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes ( -lah, -kah, -ku, -mu, atau - nya ) dibuang. Jika berupa particles ( -lah, -kah, - tah atau -pun ) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns ( -ku, -mu, atau - nya ), jika ada. 16

Text dan Web Mining - Budi Susanto UKDW 33 Algoritma Bobby Nazief dan Mirna Adriani 3. Hapus Derivation Suffixes ( -i, -an atau -kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an atau -kan ) dikembalikan, lanjut ke langkah 4. Text dan Web Mining - Budi Susanto UKDW 34 Algoritma Bobby Nazief dan Mirna Adriani 4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 17

Text dan Web Mining - Budi Susanto UKDW 35 Algoritma Bobby Nazief dan Mirna Adriani 5. Melakukan Recoding. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Text dan Web Mining - Budi Susanto UKDW 36 Algoritma Bobby Nazief dan Mirna Adriani Tipe awalan ditentukan melalui langkah-langkah berikut: 1. Jika awalannya adalah: di-, ke-, atau se- maka tipe awalannya secara berturut-turut adalah di-, ke-, atau se-. 2. Jika awalannya adalah te-, me-, be-, atau pe- maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya. 3. Jika dua karakter pertama bukan di-, ke-, se-, te-, be-, me-, atau pe- maka berhenti. 4. Jika tipe awalan adalah none maka berhenti. Jika tipe awalan adalah bukan none maka awalan dapat dilihat pada Tabel 2. Hapus awalan jika ditemukan. 18

Text dan Web Mining - Budi Susanto UKDW 37 Algoritma Bobby Nazief dan Mirna Adriani Text dan Web Mining - Budi Susanto UKDW 38 Algoritma Bobby Nazief dan Mirna Adriani 19

Text dan Web Mining - Budi Susanto UKDW 39 Algoritma Bobby Nazief dan Mirna Adriani Text dan Web Mining - Budi Susanto UKDW 40 Feature Selection Memilih k-top dari bobot Bobot dapat dilakukan dengan TF/IDF Dapat menerapkan validasi regresi linier Information Gain untuk tiap kategori 20

Text dan Web Mining - Budi Susanto UKDW 41 TERIMA KASIH! 21