BAB II TINJAUAN PUSTAKA

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB II TINJAUAN PUSTAKA"

Transkripsi

1 digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter untuk mengakses data core Twitter (tweet, timeline, user data). Sedangkan SEARCH API digunakan untuk membuat query tweet (Wardhani, 2012) Text Mining Text mining merupakan variasi dari data mining yang digunakan untuk menemukan pola tertentu dari sekumpulan besar data tekstual (Feldman & Sanger, 2007). Salah satu langkah yang dilakukan dalam text mining adalah text preprocessing. Tindakan yang dilakukan pada tahap text preprocessing adalah tolowercase, yaitu mengubah semua karakter huruf menjadi huruf kecil serta tokenizing, yaitu proses pemecahan kalimat menjadi token berupa kata atau term, dimana setiap term dipisahkan oleh delimiter. Tanda titik (.), koma (,), spasi ( ) dan karakter angka yang ada pada kalimat dapat dianggap sebagai delimiter (Weiss et al., 2005) Jaro-Winkler Distance Salah satu metode similaritas yang digunakan untuk mendeteksi kesamaan dua dokumen adalah Jaro metric. Dalam penelitian persamaan dokumen, didapatkan hasil yang baik dengan menggunakan metode Jaro, yang didasarkan pada jumlah dan urutan karakter yang sama antara dua dokumen (Jaro, 1989). Algoritma Jaro mendefinisikan karakter yang sama sebagai karakter pada kedua string yang sama dan memenuhi ketentuan jarak teoritis (Jaro, 1989). Jarak teoritis dua buah karakter yang disamakan dapat dibenarkan jika tidak melebihi nilai persamaan berikut ini: max( s 1, s 2 ) 1 (2.1) 2 5

2 digilib.uns.ac.id 6 Persamaan di bawah ini menunjukkan rumus untuk menghitung jarak (d j ) antara dua string yaitu s 1 dan s 2 pada algoritma Jaro. dimana: d j = 1 3 ( m s 1 + m s 2 + m t m ) (2.2) m = jumlah karakter yang sama dan memenuhi kriteria s 1 = panjang string 1 s 2 = panjang string 2 t = jumlah transposisi Pengembangan dari algoritma Jaro berdasarkan Winkler menggunakan nilai panjang prefix yang sama di awal string dengan nilai maksimal adalah 4 (l) (Winkler, 1999). Persamaan di bawah ini menunjukkan nilai Jaro-Winkler distance (d w ) bila string s 1 dan s 2 yang diperbandingkan. dimana: d j = Jaro distance untuk string s 1 dan s 2 l p d w = d j + (lp(1 d j )) (2.3) = panjang prefix umum di awal string (panjang karakter yang sama sebelum ditemukan ketidaksamaan, maksimal 4) = konstanta scaling factor. Nilai standar untuk konstanta ini menurut Winkler adalah p = 0.1. Semakin tinggi Jaro-Winkler distance untuk dua string maka semakin mirip kedua string tersebut. Nilai terendah Jaro-Winkler distance adalah 0 yang menandakan tidak ada kesamaan antara kedua string. Nilai tertingginya adalah 1 yang menunjukkan kedua string sama persis (Kurniawati et al., 2010) Naïve Bayes Classifier Naïve Bayes Classifier adalah algoritma klasifikasi probabilitas sederhana berdasarkan pada teorema Bayes dengan asumsi yang sangat kuat (naïf) akan independensi dari masing-masing kondisi. Naive Bayes Classifier dikenal sebagai algoritma klasifikasi Bayes sederhana (Lewis, 1992).

3 digilib.uns.ac.id 7 Pada teorema Bayes, bila terdapat dua kejadian yang terpisah (misalkan A dan B), maka teorema Bayes dirumuskan sebagai berikut: P(A B) = P(A) P(B A) (2.4) P(B) Teorema Bayes sering pula dikembangkan mengingat berlakunya hukum probabilitas total menjadi seperti berikut: dimana A 1 UA 2 U UA n = S. P(A B) = P(A)P(B A) n i=1 P(A i B) P(F 1,, F n C) = P(F 1 C)P(F commit 2, to, user F n C, F 1 ) (2.5) Untuk menjelaskan teorema Naïve Bayes, perlu diketahui bahwa proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi sampel yang dianalisis tersebut. Karena itu, teorema Bayes diatas disesuaikan sebagai berikut: P(C F 1,, F n ) = P(C)P(F 1,,F n C) P(F 1,,F n ) (2.6) Dimana variabel C merepresentasikan kelas, sementara variabel F1 Fn merepresentasikan karakteristik-karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel dengan karakteristik tertentu dalam kelas C (posterior) adalah peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan peluang kemunculan karakteristik-karakteristik sampel pada kelas C (disebut juga likelihood), dibagi dengan peluang kemunculan karakteristik-karakteristik sampel secara global (disebut juga evidence). Sehingga rumus diatas dapat juga ditulis secara sederhana sebagai berikut: Posterior = prior likelihood evidence (2.7) Nilai evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari posterior tersebut yang nantinya akan dibandingkan dengan nilai-nilai posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan. Penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan P(F 1,, F n C) menggunakan aturan perkalian menjadi sebagai berikut:

4 digilib.uns.ac.id 8 = P(F 1 C)P(F 2 C, F 1 )P(F 3, F n C, F 1, F 2 ) = P(F 1 C)P(F 2 C, F 1 ) P(F n C, F 1, F 2,, F n 1 ) (2.8) Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak dan semakin kompleksnnya faktor-faktor syarat yang mempengaruhi nilai probabilitas, yang hampir mustahil untuk dianalisa satu per satu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah digunakan asumsi independensi yang sangat tinggi (naïf), bahwa masing-masing petunjuk (F 1, F 2,, F n ) saling bebas (independen) satu sama lain. Dengan asumsi tersebut, maka berlaku suatu kesamaan sebagai berikut: untuk i j, sehingga: P(F i F j ) = P(F i F j ) P(F j ) = P(F i )P(F j) P(F j ) = P(F i ) (2.9) P(F i C, F j ) = P(F i C) (2.10) Dari persamaan di atas dapat disimpulkan bahwa asumsi independensi naïf tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran P(F 1,,F n C) dapat disederhanakan menjadi seperti berikut: P(F 1 F n C) = P(F 1 C)P(F 2 C) P(F n C) n = i=1 P(F i C) (2.11) Dengan kesamaan diatas, persamaan teorema Bayes dapat dituliskan sebagai berikut: 1 P(C F 1 F n ) = P(F 1, F 2,, F n ) P(C) P(F i C) membandingkan nilai posterior untuk masing-masing kelas dan mengambil kelas n i=1 P(C F 1 F n ) = P(C) n P(F sz i=1 i C) (2.12) Persamaan diatas merupakan model dari teorema Naïve Bayes yang selanjutnya akan digunakan dalam proses klasifikasi dokumen. Adapun Z merepresentasikan evidence yang nilainya konstan untuk semua kelas pada satu sampel. Penentuan kelas yang cocok bagi suatu sampel dilakukan dengan cara

5 digilib.uns.ac.id 9 dengan nilai posterior tertinggi. Secara matematis, klasifikasi dirumuskan sebagai berikut: C NB = argmax c C P(C) i=1 P(F i C) (2.13) dengan c yaitu variabel kelas yang tergabung dalam suatu himpunan kelas C. Dapat dilihat bahwa rumusan diatas tidak memuat nilai evidence (Z). Hal ini disebabkan karena evidence memiliki nilai yang positif dan tetap untuk semua kelas sehingga tidak mempengaruhi perbandingan nilai posterior. Karena itu, faktor Z ini dapat dihilangkan. Algoritma Naïve Bayes Classifier ini dapat digunakan bila sebelumnya telah tersedia data yang dijadikan acuan untuk melakukan klasifikasi (Natalius, 2010) Laplacian Smoothing Untuk mengatasi nilai probabilitas kondisional pada Naïve Bayes Classifier yang dapat saja bernilai 0, digunakan teknik smoothing. Salah satu teknik smoothing sederhana yang kerap diterapkan pada algoritma Naïve Bayes Classifier adalah Laplacian Smoothing. Cara yang digunakan pada teknik Laplacian Smoothing adalah dengan cara menambahkan angka 1 pada perhitungan Likelihood (Dai et al., 2007). Sehingga untuk algoritma Naïve Bayes Classifier, perhitungan nilai Likelihood menjadi seperti berikut ini: n P(F i C) = 1+n(F i,c) W + n(c) (2.14) dimana n(f i,c) adalah jumlah term F i yang ditemukan di seluruh data pelatihan dengan kategori C, n(c) adalah jumlah term di seluruh data pelatihan dengan kategori C, dan W adalah jumlah seluruh term dari seluruh data pelatihan (Dai et al., 2007) Vector Space Model Representasi satu set dokumen sebagai vector dalam ruang vektor dikenal sebagai Vector Space Model (VSM) dan merupakan dasar untuk sejumlah operasi pengambilan informasi seperti penilaian dokumen dalam query, klasifikasi dan clustering dokumen (Manning et al., 2009).

6 digilib.uns.ac.id 10 VSM digunakan untuk mengukur kemiripan antara dua buah dokumen. Dokumen merupakan vector berdimensi n dan parameter t adalah semua term yang ditemukan dalam vocabulary tanpa duplikasi (Isa & Abidin, 2013). Gambar 2.1 memperlihatkan tiga buah vector pada ruang dimensi 3. Nilai kosinus digunakan untuk mengukur tingkat kesamaan antar dua vector. Pada gambar 2.1, P 1 adalah vektor dari dokumen pembanding, sementara P 2 dan P 3 adalah vektor dari dokumen yang dibandingkan. Gambar 2.1 Vector Space Model (Isa & Abidin, 2013) Pembobotan TF x IDF Term Frequency (TF) adalah jumlah kemunculan term t pada dokumen d, yang dirumuskan sebagai freq(d, t). Matriks bobot term frequency atau TF(d,t) menunjukkan hubungan antara term t dengan dokumen d, dimana jika dokumen d tidak mengandung term t maka bobotnya bernilai 0, dan sebaliknya. Fungsi di bawah ini menunjukkan perhitungan nilai TF (Han & Kamber, 2006). TF(d, t) = freq (d, t) (2.15) Document Frequency (DF) merupakan jumlah dokumen yang mengandung term t. Inverse Document Frequency (IDF) menunjukkan pembobotan dari term t. Term yang jarang muncul dalam dokumen memiliki nilai IDF yang tinggi, sementara term yang sering muncul dalam dokumen memiliki nilai IDF yang lebih rendah. Fungsi di bawah ini menunjukkan perhitungan nilai IDF (Manning et al., 2009): N IDF commit (t) = to log user df(t) (2.16)

7 digilib.uns.ac.id 11 Nilai TF-IDF dalam Vector Space Model dihitung dengan fungsi sebagai berikut (Han & Kamber, 2006): Cosine Similarity TFIDF(d, t) = TF (d, t) IDF(t) (2.17) Untuk menghitung kesamaan antara kedua dokumen dalam vector space, maka akan dihitung nilai cosine similarity dari representasi vektor kedua dokumen (Manning et al., 2009). Sim(P 1,P 2 ) = Cos θ = P 1 P 2 P 1 P 2 (2.18) Pada fungsi diatas, pembilang merepresentasikan nilai dot product dari kedua vektor, sedangkan penyebut merepresentasikan nilai perkalian dari Euclidean length kedua vektor. Nilai dot product dari kedua vektor dapat dicari dengan fungsi sebagai berikut (Manning et al., 2009): M P 1 P 2 = i=1 P 1 i P (2.19) 2i Sedangkan nilai Euclidean length dari vector P dapat dicari dengan fungsi di bawah ini (Manning et al., 2009): P = M 2 i=1 P i (2.20) Jika nilai cosine similarity dari kedua vector adalah 1 maka kedua dokumen adalah sama persis. Jika nilai cosine similarity adalah 0 maka dapat dikatakan bahwa kedua dokumen tidak sama Confusion Matrix Confusion matrix merupakan matriks yang menampilkan prediksi klasifikasi dan klasifikasi yang aktual. Confusion matrix berukuran LxL, dimana L adalah jumlah label klasifikasi yang berbeda. Tabel di bawah ini menunjukkan confusion matrix untuk L=2 (Kohavi & Provost, 1998). Tabel 2.1 Confusion Matrix untuk L = 2 (Kohavi & Provost, 1998) Prediksi Negatif Positif Aktual Negatif a b Positif c d

8 digilib.uns.ac.id 12 Nilai akurasi didapatkan dari rumus di bawah ini: Akurasi = a+d a+b+c+d Nilai true positive rate didapatkan dari rumus di bawah ini: True positive rate = d c+d Nilai true negative rate didapatkan dari rumus di bawah ini: True negative rate = a a+b Nilai false positive rate didapatkan dari rumus berikut: False positive rate = b a+b Nilai false negative rate didapatkan dari rumus di bawah ini: False negative rate = c c+d (2.21) (2.22) (2.23) (2.24) (2.25) Gambar 2.2 menunjukkan perubahan dari extended confusion matrix berukuran 3x3 menjadi berukuran 2x2, dengan kelas A sebagai kelas positif dan kelas Not A sebagai kelas negatif. Gambar 2.2 Extended confusion matrix 3x3 (Felkin, 2007) 2.2. Penelitian Terkait 1. Is Naïve Bayes a Good Classifier for Document Classification? (Ting et al., 2011) Penelitian ini dilakukan untuk melihat performa metode Naïve Bayes pada klasifikasi dokumen. Hasil menunjukkan bahwa Naïve Bayes merupakan metode klasifikasi paling baik jika dibandingkan dengan metode lain seperti decision tree, neural network dan support vector machines dalam hal akurasi dan efisiensi komputasi. Penggunaan commit to metode user Naïve Bayes dalam proses

9 digilib.uns.ac.id 13 klasifikasi dapat mencapai keakuratan hingga 97%, sementara metode lain memiliki tingkat keakuratan dibawah 97%. Jika sebelum klasifikasi dilakukan proses preprocessing dan feature selection maka keakuratan metode klasifikasi Naïve Bayes dapat mencapai 97%, namun jika kedua proses tersebut tidak dilakukan maka keakuratannya mencapai 96.9%. 2. Klasifikasi Teks Dengan Naïve Bayes Classifier (NBC) Untuk Pengelompokan Teks Berita dan Abstract Akademis (Hamzah, 2012) Penelitian ini mengkaji kinerja metode Naïve Bayes Classifier untuk kategorisasi teks berita dan teks akademik. Penelitian menggunakan data 1000 dokumen berita dan 450 dokumen abstrak akademik. Hasil penelitian menunjukkan pada dokumen berita, akurasi maksimal dicapai 91% dengan dokumen latih sebanyak 900 dokumen dan dokumen uji sebanyak 100 dokumen. Sedangkan pada dokumen akademik, akurasi maksimal dicapai 82% dengan dokumen latih sebanyak 405 dokumen dan dokumen uji sebanyak 45 dokumen. Sementara baik pada dokumen berita maupun dokumen akademik, penggunaan 50% dokumen sebagai dokumen pelatihan memberikan kinerja akurasi diatas 75%. Algoritma NBC memiliki kinerja yang baik untuk klasifikasi dokumen teks, baik dokumen berita maupun dokumen akademik. 3. Comparison Between The Probabilistic and Vector Space Model For Spam Filtering (Bansal, 2012) Penelitian ini berfokus pada perbandingan dua buah metode yakni metode probabilistic dan vector space model untuk penyaringan spam pada surat elektronik. Hasil yang didapatkan adalah metode probabilistic memiliki tingkat kemudahan, fleksibilitas dan performa yang lebih baik dibandingkan dengan metode vector space model. 4. Mengukur Tingkat Kesamaan Paragraf Menggunakan Vector Space Model Untuk Mendeteksi Plagiarisme (Isa & Abidin, 2013) Penelitian ini dilakukan untuk mendeteksi kesamaan antar dokumen. Similaritas setiap paragraf dalam dokumen dihitung dengan menggunakan

10 digilib.uns.ac.id 14 algoritma vector space model. Dokumen yang digunakan sebanyak dokumen yang berasal dari repository beberapa universitas di Indonesia. Pengujian algoritma dilakukan menggunakan beberapa jenis query, yaitu query satu kata, dua kata dan tiga kata. Total query adalah 15, masing-masing 5 query untuk setiap jenis. Kemiripan antar paragraf dibagi menjadi tiga kelompok yaitu kemiripan dengan similaritas rendah, sedang dan tinggi. Similaritas sedang memiliki nilai similaritas antara %, similaritas sedang memiliki nilai kesamaan antara %, sedangkan similaritas tinggi memiliki nilai kemiripan antara %. Hasil kajian menggunakan query satu kata menunjukkan bahwa pasangan paragraf dalam kelompok similaritas tinggi lebih banyak dibanding dengan pasangan paragraf dengan similaritas sedang dan rendah. Hasil query dua kata menunjukkan hasil bahwa jumlah pasangan paragraf dengan similaritas tinggi lebih banyak bila dibanding dengan similaritas rendah dan sedang. Hasil query dengan tiga kata menunjukkan bahwa pasangan paragraf dengan similaritas tinggi dapat dideteksi dengan baik. Hasil rata-rata similaritas untuk semua query menunjukkan bahwa pasangan paragraf dengan tingkat similaritas tinggi dapat dideteksi dengan baik. Kesimpulan dalam penelitian ini adalah algoritma vector space model dapat mendeteksi dengan baik kesamaan dokumen melalui kesamaan paragraf dalam dokumen Kerangka Pemikiran Berdasarkan penelitian tersebut, penelitian yang akan dilakukan adalah mengklasifikasikan data berupa mentions Twitter menjadi keluhan, berita dan spam dengan menggunakan algoritma Naïve Bayes Classifier. Selanjutnya, setiap mentions yang diklasifikasikan sebagai keluhan akan dikelompokkan berdasarkan kesamaan term dengan algoritma Cosine Similarity. Rekomendasi solusi kemudian akan diberikan terhadap setiap mentions yang diklasifikasikan sebagai keluhan.

11 digilib.uns.ac.id 15 yang ada. Tabel di bawah ini menunjukkan matriks penelitian dari penelitian terkait Tabel 2.2 Matriks penelitian No. Penulis (Tahun) Judul Metode Hasil 1. S.L. Ting W.H. Ip A.H.C. Tsang (2011) Is Naïve Bayes a Good Classifier for Document Classification? 2. Amir Hamzah (2012) 3. S. Bansal (2012) 4. T.M. Isa T.F. Abidin (2013) 5. Aisha Alfiani M. (2014) Klasifikasi Teks Dengan Naïve Bayes Classifier (NBC) Untuk Pengelompokan Teks Berita dan Abstract Akademis Comparison Between The Probabilistic and Vector Space Model For Spam Filtering Mengukur Tingkat Kesamaan Paragraf Menggunakan Vector Space Model Untuk Mendeteksi Naïve Bayes Decision Tree Neural Network Support Vector Machines Naïve Bayes Classifier Probabilistic Vector Space Model Vector Space Model Plagiarisme Sistem Klasifikasi Feedback Pelanggan Dan Rekomendasi Solusi Atas Keluhan Di UPT Puskom UNS Dengan Algoritma Naïve Bayes Classifier Dan Cosine Similarity Naïve Bayes Classifier Cosine Similarity? Naïve Bayes merupakan metode klasifikasi paling baik jika dibandingkan dengan metode lain seperti decision tree, neural network dan support vector machines dalam hal akurasi dan efisiensi komputasi. Pada dokumen berita, akurasi maksimal dicapai 91% dengan 900 dokumen pelatihan dan 100 dokumen pengujian. Pada dokumen akademik, akurasi maksimal dicapai 82% dengan 405 dokumen pelatihan dan 45 dokumen pengujian. Metode probabilistic memiliki tingkat kemudahan, fleksibilitas dan performa yang lebih baik dibandingkan metode Vector Space Model. Algoritma Vector Space Model dapat mendeteksi dengan baik kesamaan dokumen melalui kesamaan paragraf dalam dokumen.

JURNAL ITSMART Vol 4. No 1. Juni 2015 ISSN :

JURNAL ITSMART Vol 4. No 1. Juni 2015 ISSN : SISTEM KLASIFIKASI FEEDBACK PELANGGAN DAN REKOMENDASI SOLUSI ATAS KELUHAN DI UPT PUSKOM UNS DENGAN ALGORITMA NAÏVE BAYES CLASSIFIER DAN COSINE SIMILARITY Aisha Alfiani Mahardhika Jurusan Informatika Universitas

Lebih terperinci

SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika. Disusun Oleh: AISHA ALFIANI MAHARDHIKA

SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika. Disusun Oleh: AISHA ALFIANI MAHARDHIKA SISTEM KLASIFIKASI FEEDBACK PELANGGAN DAN REKOMENDASI SOLUSI ATAS KELUHAN DI UPT PUSKOM UNS DENGAN ALGORITMA NAÏVE BAYES CLASSIFIER DAN COSINE SIMILARITY SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Denny Nathaniel

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Algoritme Pencocokan String (String Matching) Menurut Black (2016), string adalah susunan dari karakter-karakter (angka, alfabet, atau karakte

Algoritme Pencocokan String (String Matching) Menurut Black (2016), string adalah susunan dari karakter-karakter (angka, alfabet, atau karakte II KAJIAN PUSTAKA 2! KAJIAN PUSTAKA 2.1! Ejaan Bahasa Indonesia Ejaan menurut Kamus Besar Bahasa Indonesia (2016) adalah kaidah cara menggambarkan bunyi-bunyi (kata, kalimat, dan sebagainya) dalam tulisan

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.

Lebih terperinci

Prosiding Statistika ISSN:

Prosiding Statistika ISSN: Prosiding Statistika ISSN: 2460-6456 Klasifikasi Text Mining untuk Terjemahan Ayat-Ayat Al-Qur an menggunakan Metode Klasifikasi Naive Bayes Text Mining Classification for Translation of Al-Qur'an Verses

Lebih terperinci

SISTEM KLASIFIKASI KELUHAN PELANGGAN DI UPT TIK UNS MENGGUNAKAN ALGORITMA NAIVE BAYESIAN CLASSIFIER

SISTEM KLASIFIKASI KELUHAN PELANGGAN DI UPT TIK UNS MENGGUNAKAN ALGORITMA NAIVE BAYESIAN CLASSIFIER SISTEM KLASIFIKASI KELUHAN PELANGGAN DI UPT TIK UNS MENGGUNAKAN ALGORITMA NAIVE BAYESIAN CLASSIFIER 1 Ristu Saptono, 2 Wiranto, 3 Wachid Daga Suryono Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen

Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen Samuel Natalius / 18209031 Program Studi Sistem dan Teknologi Informasi Sekolah Teknik Elektro dan Informatika Institut Teknologi

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan Scientific Journal of Informatics Vol. 2, No. 2, November 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Implementasi Vector Space Model dalam Pembangkitan Frequently

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model probabilitistic retrieval dengan metode Simple Term Weights.

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Text mining Menurut Feldman dan Sanger (Feldman dan Sanger, 2007), text mining dapat didefinisikan secara luas sebagai proses pengetahuan intensif yang memungkinkan pengguna berinteraksi

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Saat ini media sosial seperti Twitter telah berkembang pesat. Data global menyebut pada akhir Desember 2014 Twitter memiliki 284 juta pengguna aktif. Dick Costolo

Lebih terperinci

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING Rudhi Ardi Sasmita Jurusan Sistem Informasi, Fakultas Ilmu Komputer, Universitas Narotama Surabaya rudhisasmito@gmail.com Abstrak

Lebih terperinci

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA Suprianto 1), Sunardi 2), Abdul Fadlil 3) 1 Sistem Informasi STMIK PPKIA Tarakanita Rahmawati 2,3 Magister Teknik Informatika Universitas

Lebih terperinci

Online News Classification Using Multinomial Naive Bayes

Online News Classification Using Multinomial Naive Bayes Online News Classification Using Multinomial Naive Bayes Amelia Rahman Informatika, Fakultas MIPA Universitas Sebelas Maret Jalan Ir. Sutami 36A Surakarta amelia.rahman@student.uns.ac.id Wiranto Informatika,

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet memunculkan berbagai metode komunikasi yang mudah, murah, dan cepat. Salah satu media yang paling populer dan sangat cepat berkembang

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

BAB I PENDAHULUAN. commit to user

BAB I PENDAHULUAN. commit to user digilib.uns.ac.id BAB I PENDAHULUAN 1.1. Latar Belakang Indonesia adalah negara agraris yang sebagian besar penduduknya bermata pencaharian sebagai petani, dengan produk unggulan pertanian adalah padi.

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

BAB IV PREPROCESSING DATA MINING

BAB IV PREPROCESSING DATA MINING BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Analisa Masalah Pemilihan dosen pembimbing Tugas Akhir pada jurusan Teknik Informatika Universitas Muhammadiyah Malang dilakukan mahasiswa secara mandiri, hal

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

STIKOM SURABAYA ... (8) (Wibisono, 2005)

STIKOM SURABAYA ... (8) (Wibisono, 2005) PEMBUATAN PROTOTIPE PERANGKAT LUNAK PENGKLASIFIKASIAN KOMPLAIN LAYANAN OPERASIONAL PENGGUNA JASA KEPELABUHANAN MENGGUNAKAN NAÏVE BAYES CLASSIFIER (STUDI KASUS PELABUHAN CABANG TANJUNG PERAK SURABAYA Dodo

Lebih terperinci

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dari pekerjaan dan metode yang digunakan dalam tugas akhir untuk melakukan klasifiksi topik. Pembahasan ini dimulai dengan penjelasan klasifikasi

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun Vol. 4, No. 1, Tahun 2015 61 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : https://jurnal.pcr.ac.id/index.php/jakt/about Email : pustaka@pcr.ac.id Sistem Pendeteksi Kemiripan Proyek Akhir

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Short Message Service (SMS) Short Message Service (SMS) adalah sebuah layanan dasar yang membolehkan pertukaran pesan teks singkat antarpelanggan. Pesan ini dapat dikirim dari perangkat

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #8 Text Classification (Manning, Ch.13, p.288/253) Ad Hoc Retrieval vs Standing Query User mencari informasi dengan memberikan satu atau lebih query terhadap koleksi

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Rizki Tri Wahyuni 1, Dhidik Prastiyanto 2, dan Eko Supraptono 3 Jurusan Teknik Elektro, Fakultas Teknik,

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

Kata kunci : Klasifikasi,Kategori Berita, Text Mining, Tf-Idf, Naive Bayes

Kata kunci : Klasifikasi,Kategori Berita, Text Mining, Tf-Idf, Naive Bayes Analisis Penerapan Algoritma Naive Bayes dalam Pengklasifikasian Konten Berita Bahasa Indonesia Vipy Wahyu Perdana 1, Heru Agus Santoso 2 Teknik Informatika-S1, Fakultas Ilmu Komputer, Universitas Dian

Lebih terperinci

( ) ( ) (3) II-1 ( ) ( )

( ) ( ) (3) II-1 ( ) ( ) BAB II LANDASAN TEORI 2.1 Naïve Bayes Classifier 2.1.1 Teorema Bayes Bayes merupakan teknik prediksi berbasis probabilistik sederhana yang berdasar pada penerapan teorema Bayes (atau aturan Bayes) dengan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci

Jurnal Informatika Mulawarman Vol. 10 No. 1 Februari

Jurnal Informatika Mulawarman Vol. 10 No. 1 Februari Jurnal Informatika Mulawarman Vol. 10 No. 1 Februari 2015 1 KLASIFIKASI DAN PENCARIAN BUKU REFERENSI AKADEMIK MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER (NBC) (STUDI KASUS: PERPUSTAKAAN DAERAH PROVINSI

Lebih terperinci

ALGORITMA NAÏVE BAIYES UNTUK PREDIKSI PROFESI BERDASARKAN SKILL JOB SEEKER

ALGORITMA NAÏVE BAIYES UNTUK PREDIKSI PROFESI BERDASARKAN SKILL JOB SEEKER Seminar Nasional Riset Kuantitatif Terapan 2017 Kendari, 8 April 2017 63 ALGORITMA NAÏVE BAIYES UNTUK PREDIKSI PROFESI BERDASARKAN SKILL JOB SEEKER Dewi Hastuti 1, Ayu Sabrina Syair 2, Asih Setiyorini

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75 JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-75 Pendeteksian Malware pada Lingkungan Aplikasi Web dengan Kategorisasi Dokumen Fransiskus Gusti Ngurah Dwika Setiawan, Royyana

Lebih terperinci

BAB III Landasan Teori

BAB III Landasan Teori BAB III Landasan Teori 3.1 Sistem Rekomendasi Sistem rekomendasi merupakan suatu aplikasi untuk menyediakan dan merekomendasikan suatu item dalam membuat suatu keputusan yang diinginkan oleh pengguna (Ungkawa,

Lebih terperinci

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2.

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2. 1.1 Naive Bayes Classifier Naive bayes classifier merupakan salah satu metode machine learning yang dapat digunakan untuk klasifikasi suatu dokumen. Teorema bayes berawal dari persamaan 2.1, yaitu: (2.1)

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

Implementation of Cosine Similarity and Time Interval Entropy Method to Identify Bot Spammer Account on Twitter

Implementation of Cosine Similarity and Time Interval Entropy Method to Identify Bot Spammer Account on Twitter Implementation of Cosine Similarity and Time Interval Entropy Method to Identify Bot Spammer Account on Twitter Sisca Dewi Priyani Teknik Informatika, FST Universitas Al Azhar Indonesia Jl. Sisingamangaraja,

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan Perkembangan volume dan keragaman informasi yang tersedia di internet saat ini sangat pesat sehingga mendorong tumbuhnya media pemberitaan online.

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas

Lebih terperinci

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI Aulia Essra (1), Rahmadani (2), Safriadi (3) Magister Teknik Informatika, Universitas Sumatera Utara Jl. Universitas No.24A

Lebih terperinci

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing BAB III LANDASAN TEORI Permasalahan yang diselesaikan dalam tesis ini adalah deteksi emosi. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing (Calvo & D'Mello, 2010). Bidang penelitian

Lebih terperinci

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS Vol.2 No.2, November 2017, pp. 7~13 ISSN: 2527-449X E-ISSN: 2549-7421 7 Komparasi Algoritma Support Machine, Naïve Dan C4.5 Untuk Klasifikasi SMS Retno Sari STMIK Nusa Mandiri e-mail: bee.retno@gmail.com

Lebih terperinci

KLASIFIKASI DAN ANALISIS SENTIMEN DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING

KLASIFIKASI DAN ANALISIS SENTIMEN DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING ISSN 1858-4667 JURNAL LINK VOL. 25/No. 2/September 2016 KLASIFIKASI DAN ANALISIS SENTIMEN DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING Badar Said Program Studi Teknik Informatika,

Lebih terperinci

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing Wahib, Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing 83 Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing Aminul Wahib 1, Pasnur 2, Putu Praba Santika

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO Sendy Winanta Yetli Oslan, Gunawan Santoso Abstrak Penjurusan siswa kelas X SMA yang akan naik

Lebih terperinci

Mardi Siswo Utomo Fakultas Teknologi Informasi Universitas Stikubank Semarang

Mardi Siswo Utomo Fakultas Teknologi Informasi Universitas Stikubank Semarang ! " #! " $ # % " & % % '! ( $ ) $ * # ) # +, - - - - - - - - - -. / 0 % $ 1 " 2 ' $ " 3 4 ' 5 6 % 7 + )!, $ 5 & % - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Lebih terperinci