BAB II LANDASAN TEORI

dokumen-dokumen yang mirip
BAB II LANDASAN TEORI

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI

Gambar 1.1 Proses Text Mining [7]

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB II LANDASAN TEORI

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB III METODELOGI PENELITIAN

Text Pre-Processing. M. Ali Fauzi

BAB II LANDASAN TEORI

BAB 3 LANDASAN TEORI

BAB II LANDASAN TEORI

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

BAB III METODOLOGI PENELITIAN

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB III METODOLOGI PENELITIAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

BAB II LANDASAN TEORI

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI

commit to user BAB II TINJAUAN PUSTAKA

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI)

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 TINJAUAN PUSTAKA

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

BAB 2 TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

SISTEM TEMU BALIK INFORMASI

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB II LANDASAN TEORI

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2.

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

POLA KEMAMPUAN ANAK BERDASARKAN RAPOR MENGGUNAKAN TEXT MINING DAN KLASIFIKASI NEAREST NEIGHBOR

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

Klasifikasi Dokumen Sambat Online Menggunakan Metode K-Nearest Neighbor dan Features Selection Berbasis Categorical Proportional Difference

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB II LANDASAN TEORI

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III ANALISIS DAN PERANCANGAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB 3 LANDASAN TEORI

BAB 2 LANDASAN TEORI

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB 2 LANDASAN TEORI. 2.1 Pengertian Text Mining

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

JULIO ADISANTOSO - ILKOM IPB 1

BAB II LANDASDAN TEORI

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS PENYAKIT PARU-PARU MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS PADA RUMAH SAKIT ALOEI SABOE KOTA GORONTALO

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

BAB II LANDASAN TEORI

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB II TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

BAB III METODE PENELITIAN

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI PADA TEXT MINING

BAB II LANDASAN TEORI

KLASIFIKASI PADA TEXT MINING

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN:

APLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

KLASIFIKASI SMS PADA SISTEM SUPPORT TICKET PENGADUAN PELANGGAN DENGAN MENGGUNAKAN METODE NAÏVE BAYES

Text Mining Classification Sebagai Rekomendasi Dosen Pembimbing Tugas Akhir Program Studi Sistem Informasi

BAB 2 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

Transkripsi:

BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk tujuan tertentu [2]. Definisi lain berkaitan dengan text mining dikatakan bahwa text mining merupakan penambangan data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen dan tujuannya adalah mencari kata- kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antara dokumen [3]. Penambangan teks juga memiliki tujuan dan menggunakan proses yang sama dengan penambangan data, hanya saja memiliki masukan yang berbeda. Masukan untuk penambangan teks adalah data yang tidak atau kurang terstrukur, seperti dokumen Word, PDF, kutipan teks, dll, sedangkan masukan untuk penambangan data adalah data yang terstruktur. [4] II.1.1 Text Preprocessing Text Preprocessing merupakan tahapan dari proses awal terhadap teks untuk mempersiapkan teks menjadi data yang akan diolah lebih lanjut. Sebuah teks yang ada harus dipisahkan, hal ini dapat dilakukan dalam beberapa tingkatan yang berbeda. Suatu dokumen dapat dipecah menjadi bab, sub-bab, paragraf, kalimat dan pada akhirnya menjadi potongan kata/token. Selain itu pada tahapan ini keberadaan digit angka, huruf kapital, atau karakter- karakter yang lainnya dihilangkan dan dirubah. [4] II-1

II-2 Berikut ini proses penjelasan tahapan text preprocessing : 1. Case Folding Pada penjelasan diatas, telah dijelaskan bahwa pada tahapan text preprocessing terdapat beberapa hal yang dirubah, semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. [4] Gambar 2.1 Proses Case Folding 2. Tokenizing Tahap tokenizing adalah tahap pemotongan string input berdasarkan pada tiap kata yang menyusunnya. [3] Gambar 2.2 Proses Tokenizing

II-3 II.1.2 Text Transformation Text Transformation adalah tahapan yang dipergunakan untuk mengubah kata- kata ke dalam bentuk dasar, sekaligus untuk mengurangi jumlah kata- kata tersebut. Pendekatan yang dapat dilakukan dengan stemming dan penghapusan stopwords. [3] 1. Stopword Removal / Filtering Tahap filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). [3] Gambar 2.3 Proses Filtering 2. Stemming Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. [3]

II-4 Gambar 2.4 Proses Stemming II.2 Stemming Bahasa Indonesia Stemming dapat dikatakan proses membentuk suatu kata menjadi kata dasarnya. Misalnya : berkata kata mengatakan kata perkataan kata Untuk bahasa Indonesia beberapa algoritma yang biasanya digunakan antara lain : a. Porter Stemmer. Algoritma ini terkenal digunakan sebagai stemmer untuk bahasa Inggris. Porter Stemmer dalam bahasa Indonesia akan menghasilkan kambiguan karena aturan morfologi bahasa Indonesia.[5] b. Nazief & Adriani Stemmer. Algoritma ini paling sering dibicarakan dalam stemming bahasa indonesia. Algoritma ini merupakan hasil penelitian internal UI (Universitas Indonesia) dan tidak dipublish secara umum [6]. Namu algoritma ini mempunyai dua masalah yang pertama kemampuanya tergantung dari besarnya database kata dasar, dan yang kedua, hasil stemming tidak selalu optimal untuk aplikasi information retrieval.[5] Proses stemming dokumen teks menggunakan Algoritma Porter membutuhkan waktu yang lebih singkat dan presentase keakuratan yang lebih kecil dibandingkan dengan Algoritma Nazief & Adriani.

II-5 II.2.1 Stemming Bahasa Indonesia Algoritma Nazief & Andriani Adapun langkah-langkah yang digunakan oleh algoritma Nazief dan Adriani yaitu sebagai berikut : 1. Kata dicari di dalam daftar kamus. Bila kata tersebut ditemukan di dalam kamus maka dapat diasumsikan kata tersebut adalah kata dasar sehingga algoritma dihentikan. 2. Bila kata di dalam langkah pertama tidak ditemukan di dalam kamus, maka diperiksa apakah surfiks tersebut yaitu sebuah partikel ("-lah" atau "-kah"). Bila ditemukan maka partikel tersebut dihilangkan. 3. Pemerikasaan dilanjutkan pada kata ganti milik ("-ku","-mu","- nya"). Bila ditemukan maka kata ganti tersebut dihilangkan. 4. Memerikas akhiran ("-i", "-an"). Bila ditemukan maka akhiran tersebut dihilangkan. Hingga langkah ke-4 dibutuhkan ketelitian untuk memeriksa apakah akhiran "-an" merupakan hanya bagian dari akgiran "-kan" dan memerikas lagi apakah partikel ("-lah", "-kah") dan kata ganti milik ("-ku","-mu","-nya") yang telah dihilangkan pada langkah 2 dan 3 bukan merupakan bagian dari kata dasar. 5. Memeriksa awalan ("se-","ke-","di-","te-","be-","pe-","me-"). Bila ditemukan, maka awalan tersebut dihilangkan. Pemerikasaan dilakukan dengan berulang mengingat adanya kemungkinan multiprefix. Langkah ke-5 ini juga membutuhkan ketelitian untuk memeriksa kemungkinan peluluhan awalan, perubahan prefix yang disesuaikan dengan huruf awal kata dan aturan kombinasi prefix-suffix yang diperbolehkan.

II-6 6. Setelah menyelesaikan semua langkah dengan sukses, maka algoritma akan mengembalikan kata dasar yang ditemukan. II.3 K-nearest Neighbor Classifier Algoritma k-nearest Neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. KNN termasuk algoritma supervised learning dimana hasil dari query instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada KNN. Kelas yang paling banyak muncul yang akan menjadi kelas hasil klasifikasi [7]. Tujuan dari algoritma ini adalah mengklasifikasikan objek baru berdasarkan atribut dan training sample. Classifier tidak menggunakan model apapun untuk dicocokkan dan hanya berdasarkan pada memori. Diberikan titik query, akan ditemukan sejumlah k obyek atau (titik training) yang paling dekat dengan titik query. Klasifikasi menggunakan voting terbanyak diantara klasifikasi dari k obyek.. algoritma k-nearest neighbor (KNN) menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instance yang baru [7]. Algoritma metode K-Nearest Neighbor (KNN) sangatlah sederhana, bekerja berdasarkan jarak terpendek dari query instance ke training sample untuk menentukan KNN-nya. Training sample diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi menjadi bagian-bagian berdasarkan klasifikasi training sample. Sebuah titik pada ruang ini ditandai kelas c jika kelas c merupakan klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat dari titik tersebut. Dekat atau jauhnya tetangga biasanya dihitung berdasarkan Distance [7].

II-7 II.3.1 Euclidean Distance Jarak Euclidean paling sering digunakan menghitung jarak. Jarak euclidean berfungsi menguji ukuran yang bisa digunakan sebagai interpretasi kedekatan jarak antara dua obyek. yang direpresentasikan sebagai berikut : ( ) Keterangan : dist = Jarak = Data Sample = Data Uji / Training i = Variable Data p = Dimensi Data Semakin besar nilai D akan semakin jauh tingkat keserupaan antara kedua individu dan sebaliknya jika nilai D semakin kecil maka akan semakin dekat tingkat keserupaan antar individu tersebut. Nilai k yang terbaik untuk algoritma ini tergantung pada data. Secara umum, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi semakin kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan menggunakan cross-validation. Kasus khusus dimana klasifikasi diprediksikan berdasarkan training data yang paling dekat (dengan kata lain, k = 1) disebut algoritma nearest neighbor [8].

II-8 II.2.2 Minkowski Distance Minkowski Distance merupakan generalisasi dari Euclidean Distance dan dinyatakan dengan persamaan : ( ) Keterangan : dist = Jarak Qk = Data Sample Pk = Data Uji / Training k = Variable Data n = Dimensi Data r = paramater II.4 Term Frequency Term frequency merupakan salah satu metode untuk menghitung bobot tiap term dalam teks. Dalam metode ini, tiap term diasumsikan memiliki nilai kepentingan yang sebanding dengan jumlah kemunculan term tersebut pada teks (Mark Hall & Lloyd Smith, 1999). Bobot sebuah term t pada sebuah teks dirumuskan dalam persamaan berikut : W(d,t) = TF(d,t) Dimana TF(d,t) adalah term frequency dari term t di teks d. Term frequency dapat memperbaiki nilai recall pada information retrieval, tetapi tidak selalu memperbaiki nilai precision. Hal ini disebabkan term yang frequent cenderung muncul di banyak teks, sehingga term-term tersebut memiliki kekuatan diskriminatif/keunikan yang kecil. Untuk memperbaiki permasalahan ini, term

II-9 dengan nilai frekuensi yang tinggi sebaiknya dibuang dari set term. Menemukan threshold yang optimal merupakan fokus dari metode ini. II.5 Document Frequency Document frequency adalah jumlah dokumen yang mengandung suatu term tertentu. Tiap term akan dihitung nilai document frequency-nya (DF). Lalu term tersebut diseleksi berdasarkan jumlah nilai DF. Jika nilai DF berada di bawah threshold yang telah ditentukan, maka term akan dibuang. Asumsi awalnya adalah bahwa term yang lebih jarang muncul tidak memiliki pengaruh besar dalam proses pengelompokkan dokumen. Pembuangan term yang jarang ini dapat mengurangi dimensi fitur yang besar pada text mining. Perbaikan dalam pengelompokkan dokumen ini juga dapat terjadi jika term yang dibuang tersebut juga merupakan noise term. Document frequency merupakan metode feature selection yang paling sederhana dengan waktu komputasi yang rendah.[10]