Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

dokumen-dokumen yang mirip
Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

Teknik Informatika UKDW Yogyakarta

JULIO ADISANTOSO - ILKOM IPB 1

BAB II LANDASAN TEORI

Text Pre-Processing. M. Ali Fauzi

BAB I PENDAHULUAN Latar Belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB III METODOLOGI PENELITIAN

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB I PENDAHULUAN. tersebut dibuktikan dengan semakin canggihnya perangkat keras seperti prosesor,

BAB III ANALISIS DAN PERANCANGAN

SISTEM TEMU KEMBALI INFORMASI

BAB III METODELOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

ROCCHIO CLASSIFICATION

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

BAB I PERSYARATAN PRODUK

BAB II LANDASAN TEORI

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB 1 PENDAHULUAN UKDW

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB III METODE PENELITIAN

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB V EKSPERIMEN TEXT CLASSIFICATION

Penanganan Kasus Overstemming dan Understemming dengan Modifikasi Algoritma Stemming

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

beberapa tag-tag lain yang lebih spesifik di dalamnya.

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Text dan Web Mining - Budi Susanto UKDW 1. Text dan Web Mining - Budi Susanto UKDW 2

BAB 2 TINJAUAN PUSTAKA

SISTEM TEMU BALIK INFORMASI

UKDW. Bab 1 PENDAHULUAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ANALISIS CLUSTER PADA DOKUMEN TEKS

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2.

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

BAB I PENDAHULUAN. 1.1 Latar Belakang

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

BAB 1 PENDAHULUAN Latar Belakang Masalah

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

BAB II TINJAUAN PUSTAKA

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTER

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

KLASIFIKASI PADA TEXT MINING

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN 1.1 Latar Belakang

HASIL DAN PEMBAHASAN

BAB 3 ANALISA DAN PERANCANGAN

Budi Susanto VEKTORISASI DOKUMEN

BAB II LANDASAN TEORI

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

BAB 1 PENDAHULUAN UKDW

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

BAB I PENDAHULUAN Latar Belakang Masalah

negative, false positive, dan false negative seperti yang dapat dilihat pada Tabel 1.

1. IDENTITAS PENGUSUL 2. JUDUL TUGAS AKHIR 3. LATAR BELAKANG JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

BAB II LANDASAN TEORI

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB I PENDAHULUAN I-1

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB IV PREPROCESSING DATA MINING

PENDAHULUAN. Latar belakang

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

TEMU KEMBALI INFORMASI

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB II LANDASAN TEORI

BAB IV ANALISA DAN PERANCANGAN

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Document Indexing dan Term Weighting. M. Ali Fauzi

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

Sistem Temu Kembali Informasi/ Information Retrieval

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

1BAB I PENDAHULUAN 1.1 Latar Belakang

Transkripsi:

Text Mining Budi Susanto

Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document

Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu. Proses data mining untuk data dokumen atau teks memerlukan lebih banyak tahapan, mengingat data teks memiliki karakteristik yang lebih kompleks daripada data biasa.

Karakteristik Dokumen Teks Menurut Loreta Auvil dan Duane Searsmith dari University of Illinois, karakteristik dokumen teks: database teks yang berukuran besar, memiliki dimensi yang tinggi, yakni satu kata merupakan satu dimensi, mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulan kata satu dengan lain dapat memiliki arti yang berbeda, banyak mengandung kata ataupun arti yang bias (ambiguity), dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yang baku, karena di dalamnya terkadang muncul istilah slank seperti r u there?, helllooo bosss, whatzzzzzzz up?, dan sebagainya.

Proses Text Mining Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. Bentuk perubahan yang dilakukan adalah ke dalam spreadsheet, kolom menunjuk dokumen dan baris menunjuk kata, sedangkan selnya menunjuk frekuensi kata dalam dokumen.

Proses Text Mining

Dokumen Plain text Format Elemen XML, HTML, RTF, ODT, email, dsb. Format Biner PDF, DOC, dsb.

Tokenisasi Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata. bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan. Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata. Namun untuk karakter petik tunggal ('), titik (.), semikolon (;), titk dua (:) atau lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata. Sebagai contoh antara tahu, tempet dan sambal dengan 100,56.

Tokenisasi Dalam memperlakukan karakter-karakter dalam teks sangat tergantung sekali pada kontek aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur bahasa (grammatikal).

Tokenisasi: Bagaimana dengan ini? Karakter Nonalphanumeric contoh: Yahoo!, AT&T, dsb. Sebuah titik (.) biasanya untuk tanda akhir kalimat, tapi dapat juga muncul dalam singkatan, inisial orang, alamat internet Contoh: Sdr., S.Kom., 192.168.1.1, ukdw.ac.id Tanda hypen (-) biasanya muncul untuk menggabungkan dua token yang berbeda untuk membentuk token tunggal. Tapi dapat pula ditemukan untuk menyatakan rentang nilai, kata berulang, dsb. Contoh: x-ray, 32-120, lari-lari.

Tokenisasi: Bagaimana dengan ini? Karakter slash ( / ) sebagai pemisah fle atau direktori atau url ataupun untuk menyatakan dan atau Contoh: /opt/rapidminer, www.google.com/search? num=100&q=text+mining, Ibu/Bapak. URL. Format nomor telepon. Emoticon Format angka Frase

Tokenisasi

Lemmatization Setelah deretan karakter telah disegmentasi ke dalam kata-kata (token), langkah berikut yang mungkin dilakukan adalah mengubah setiap token ke bentuk standard. Proses ini disebut menerapkan stemming dan atau lemmatization. Tujuan: untuk mendapatkan bentuk dasar umum dari suatu kata. Contoh: Am, are, is => be Car, cars, car's, cars' => car

Lemmatization Stemming Proses heuristic yang memotong akhir kata, dan sering juga membuang imbuhan. Lemmatization Serupa dengan stemming, hanya lebih baik hasilnya. Memperhatikan kamus dan analisis morfologi. Menghasilkan kata dasar (lemma)

Porter Stemming Algoritma stemming Porter didasarkan pada ide bahwa akhiran dalam bahasa Inggris sebagian besar terbentuk dari kombinasi akhiran yang lebih kecil dan sederhana. Proses penanggalan dikerjakan pada serentetan langkah, yang mensimulasikan perubahan bentuk dan penurunan dari sebuah kata. Pada setiap langkah, sebuah akhiran tertentu dibuang berdasar aturan substitusi. Sebuah aturan substitusi diterapkan ketika sekumpulan kondisi/batasan untuk aturan tersebut terpenuhi. Salah satu contoh kondisi adalah jumlah minimal dari hasil stem (disebut juga ukuran (measure)). Kondisi sederhana lain dapat berupa apakah akhir dari stem konsonan atau vokal.

Porter Stemming Terdapat banyak aturan lain. Kunjungi: htp://snowball.tartarus.org/algorithms/porter/stemmer.html

Contoh Perbandingan Stemmer http://www.cs.waikato.ac.nz/~eibe/stemmers/ http://www.comp.lancs.ac.uk/computing/research/stemming/

ZIPF's LAW Kita menggunakan sedikit kata lebih sering dan jarang untuk sebagian besar kata lain. Rata-rata 20% kata-kata berperan sebagai mayoritas kata dalam suatu teks. Kita dapat memilih kata-kat sehingga kita mengkomunikasikan pesan dengan jumlah kata yang lebih sedikit. the product of the frequency of a word and its rank will be approximately the same as the product of the frequency and rank of another word.

Membangun Vektor untuk Prediksi Karakteristik ciri/sifat sebuah dokumen dinyatakan oleh token atau kata-kata di dalamnya.

Membangun Vektor untuk Prediksi Himpunan ciri-ciri yang terkumpul disebut sebagai kamus (dictionary). Token-token atau kata-kata dalam kamus membentuk dasar untuk membuat sebuah matrik angka yang sangat berkaitan dengan kumpulan dokumen yang di analisis. Sehingga, setiap sel berisi ukuran dari sebuah ciri/sifat (kolom) untuk sebuah dokumen (baris).

Membangun Vektor untuk Prediksi Dimensi kamus yang dihasilkan tentu saja akan berukuran sangat besar, sehingga perlu dilakukan proses transformasi untuk mengurangi ukuran dimensinya. Beberapa proses transformasi yang dapat diterapkan antara lain: Stopwords, Frequent Words, dan pengurangan token (Stemming atau Sinonim).

Mengubah Dokumen ke sebuah matrix

Mengubah Dokumen ke sebuah matrix Untuk memberikan ketepatan prediksi, perlu dilakukan transformasi tambahan. Menghitung tingkat peran kata dalam corpus. tf-idf (term frequency-inverse document frequency).

Pengukuran Lain

Contoh

Matrik Dokumen

Matrik Dokumen TF-IDF

Feature Selection Teknik pemilihan sebuah subset feature yang relevan untuk membentuk model yang baik.