BAB II TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
KLASIFIKASI DOKUMEN KOMENTAR PADA SITUS YOUTUBE MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOR (K-NN)

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. banyak informasi yang tersedia di internet, maka akan semakin sulit juga untuk

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

Gambar 1.1 Proses Text Mining [7]

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB III METODELOGI PENELITIAN

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB II LANDASAN TEORI

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB I PENDAHULUAN 1.1 Latar Belakang

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

BAB III METODOLOGI PENELITIAN

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB 2 TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB III METODE PENELITIAN

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Klasifikasi Dokumen Sambat Online Menggunakan Metode K-Nearest Neighbor dan Features Selection Berbasis Categorical Proportional Difference

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB I PENDAHULUAN. informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

BAB II LANDASAN TEORI

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

BAB II LANDASAN TEORI

BAB 3 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN 1.1 Latar Belakang

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

KLASIFIKASI PADA TEXT MINING

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

KLASIFIKASI PADA TEXT MINING

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

Penerapan Deep Sentiment Analysis pada Angket Penilaian Terbuka Menggunakan K-Nearest Neighbor

PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL-QUR AN DALAM BAHASA INDONESIA

Kata kunci : Klasifikasi,Kategori Berita, Text Mining, Tf-Idf, Naive Bayes

BAB I PENDAHULUAN 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

ROCCHIO CLASSIFICATION

Online News Classification Using Multinomial Naive Bayes

commit to user BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB I. Pendahuluan. 1. Latar Belakang Masalah

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI OPINI PADA DATA TWITTER DENGAN EKSPASI QUERY MENGGUNAKAN PENDEKATAN SINONIM

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

BAB II LANDASAN TEORI

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB 3 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

BAB I PENDAHULUAN.

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

BAB II LANDASAN TEORI

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB V EKSPERIMEN TEXT CLASSIFICATION

POLA KEMAMPUAN ANAK BERDASARKAN RAPOR MENGGUNAKAN TEXT MINING DAN KLASIFIKASI NEAREST NEIGHBOR

BAB II LANDASAN TEORI

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) Edisi...Volume..., Bulan 20..ISSN :

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

1.5 Metode Penelitian

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB II LANDASAN TEORI

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB III METODOLOGI PENELITIAN

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB II LANDASDAN TEORI

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2.

UKDW. Bab 1 PENDAHULUAN

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

UKDW BAB I PENDAHULUAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV HASIL DAN PEMBAHASAN

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Transkripsi:

BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi. Pada penelitian tersebut dikembangkan sistem opinion mining untuk menganalisa opini publik pada perguruan tinggi. Pada subproses document subjectivity dan target detection digunakan Part-of-Speech (POS) Tagging menggunakan Hidden Makov Model (HMM). Kemudian dari hasil POS Tagging tersebut diterapkan rule guna mengetahui dokumen tersebut termasuk opini atau bukan, serta digunakan untuk mengetahui bagian kalimat mana yang menjadi objek dari target opini. Selanjutnya dokumen yang sudah dikenali sebagai opini kemudian dilakukan klasifikasi menggunakan Naive Bayes Clasifier(NBC)ke dalam opini negatif atau opini positif. Ketika di uji didapatkan nilai precision dan recall untuk subproses document subjectivity adalah 0.99 dan 0.88, kemudian untuk subproses target detection adalah 0.92 dan 0.93 serta subproses opinion orientation adalah 0.95 dan 0.94 [6]. 2.1.2. Klasifikasi DeepSentiment Analysis E-Complaint Penelitian ini menggunakan algoritma K-NN untuk mengkategorikan keluhan-keluhan yang diterima oleh salah satu universitas di Indonesia 6

7 melalui sebuah fasilitas E-Complaint yang dimilikinya. Karena begitu banyak data masuk dan SDM yang menanganinya terbatas, maka diperlukan pengelompokan data-data tersebut sehingga mengetahui mana yang diprioritaskan terlebih dahulu. Data-data keluhan tersebut disimpan pada database yang kemudian dilakukan prepocessing data yang terdiri dari proses case folding, tokenizing, filtering, dan stemming. Kemudian dilakukan perhitungan pembobotan kata sehingga dapat dimasukkan ke dalam pengklasifikasian dengan metode K-Nearest Neighbor dan hasilnya dapat ditampilkan oleh sistem. Hasil pengujian dari penelitian ini didapatkan nilai akurasi dengan rata-rata 81,17647% menggunakan proses stemming dan ketika pengujian tanpa menggunakan proses stemming didapatkan nilai akurasi rata-rata hingga 78,82352% [5]. 2.1.3. Sistem Klasifikasi dan Pencarian Jurnal Kebutuhan konsumen akan informasi dalam bentuk jurnal semakin meningkat, sehingga pengelompokkan jurnal dibutuhkan untuk mempermudah pencarian informasi. Pengelompokkan jurnal dengan hanya mengacu pada topik tertentu sulit dilakukan jika menggunakan query biasa. Kemudian peneliti mencoba menggunakan sistem klasifikasi dan pencarian jurnal dengan metode Naive Bayes dan Vector Space Modeldengan pendekatan Cosine diharapkan dapat membantu penentuan topik dan menghasilkan daftar jurnal berdasarkan urutan tingkat kemiripan.untuk mempersiapkan kebutuhan dasar sistem dibutuhkan proses text mining yang

8 terdiri dari text processing dengan parsing, text transformation dengan stemming dan stopword removal, feature selection dan pattern discovery. Terdapat 5 kategori, jumlah data training adalah 250 jurnal dan didapatkan hasil dari naive bayes dengan FS-4 menghasilkan precision sebesar 64% dan VSM menghasilkan recall sebesar 54.8% dan precission sebesar 60.7% dengan jumlah data training 249 jurnal dan token unik sebanyak 3763 token [7]. 2.2. Studi Literatur Studi literatur ini berisi tentang ilmu yang akan diteliti menyangkut teoriteori yang telah ada sebelumnya dan telah digunakan oleh peneliti sebelumnya ataupun teori yang akan digunakan dalam pengembangan penelitian ini. 2.2.1. Text Mining Text mining merupakan bagian dari penerapan data mining yang digunakan untuk mencari pola dalam teks. Berbeda dengan data mining yang menggunakan data biasa, dalam text mining ini yang digunakan adalah data dalam bentuk dokumen atau teks. Text mining ini bertujuan untuk menemukan pola dalam sebuah teks atau dokumen yang sebelumnya tidak terlihat menjadi pola yang diinginkan untuk tujuan tertentu [1]. 2.2.2. Analisis Sentimen Analisis sentimen merupakan bagian dari opinion mining, adalah proses memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan informasi[3]. Dilakukan untuk mengetahui sikap seorang pembicara atau penulis berkaitan dengan topik yang dibahas dari komentar

9 yang di berikan. Komentar dari seseorang yang dipengaruhi oleh emosional penulis (sentiment analysis) nantinya akan dikelompokkan ke dalam kelompok sentiment baik itu positif maupun negatif. Analisis sentimen dapat digunakan untuk melacak sebuah produk, merek maupun orang yang menentukan apakah hal tersebut dianggap sebagai hal yang positif ataupun negatif [1]. Dengan analisis sentimen ini seseorang dapat mengetahui pandangan orang lain terhadap sesuatu hal tertentu yang dapat dijadikan sebagai acuan untuk menentukan keputusannya terhadap sesuatu hal tersebut. 2.2.3. Text Preprocessing Dikarenakan dokumens teks memiliki data yang tidak terstruktur maka digunakanlah text processing ini untuk merubah data yang belum terstruktur itu menjadi sebuah data yang terstruktur sehingga dapat siap untuk digunakan dalam proses selanjutnya. Text Preprocessing ini memiliki beberapa tahapan yaitu: a. Mengekstrak teks yang akan kita olah. b. Melakukan stopword removal, yaitu menghilangkan kata-kata yang tidak bermakna misalkan kata hubung. c. Melakukan stemming, yaitu menghilangkan imbuhan-imbuhan dalam sebuah kata, singkatnya ialah merubah kata berimbuhan menjadi kata dasar.

10 2.2.4. Term Frequency Inverse Document Frequency (TF-IDF) TF (Term Frequency) ialah frekuensi kemunculuan kata pada setiap dokumen, dari TF tersebut didapatkan DF (document frequency) yaitu banyaknya dokumen yang mengandung suatu kata tersebut.tf-idf merupakan sebuah nilai yang digunakan untuk menghitung bobot sebuah kata yang muncul dalam dokumen. TF-IDF didapatkan dari hasil perkalian antar TF dan IDF, dimana IDF merupakan hasil invers dari DF. Perhitungannya dapat dituliskan sebagai berikut [7]: N IDF(w) = log ( ) (1) DF(w) TF IDF(w, d) = TF(w, d) IDF(w) (2) Keterangan: IDF(w) : bobot kata dalam seluruh dokumen w : sebuah kata TF(w,d) : frekuensi kemunculan kata w dalam dokumen d IDF(w) : inverse DF dari kata w N : jumlah seluruh dokumen DF(w) : jumlah dokumen yang mengandung kata w Jika diperhatikan dari perhitungan IDF rumus nomer 1, apabila N = DF(w) maka akan didapatkan hasil 0 (nol). Untuk mensiasati hal tersebut maka dapat ditambahkan nilai 1 pada sisi IDF, dan perhitungan TF (w,d) menjadi sebagai berikut [7]: TF IDF(w, d) = TF(w, d) (log ( N DF(w) ) + 1) (3)

11 Kemudian untuk menstandarisasi nilai TF-IDF ke dalam interval 0 sampai 1 diperlukan normalisasi, rumus (3) dinormalisasi dengan rumus (4) sebagai berikut [7]: TF IDF(w, d) = TF IDF(w,d) n w=1 TF IDF(w,d) 2 (4) Dimana n w=1 TF IDF(w, d) adalah jumlah dari nilai TF-IDF dari kata pertama hingga kata ke n yang terdapat dalam dokumen d. 2.2.5. Cosine Similarity Cosine similarity berfungsi untuk membandingkan kemiripan antar dokumen, dalam hal ini yang dibandingkan adalah query dengan dokumen latih [3]. Dalam menghitung cosine similarity pertama yaitu melakukan perkalian skalar antara query dengan dokumen kemudian dijumlahkan, setelah itu melakukan perkalian antara panjang dokumen dengan panjang query yang telah dikuadratkan, setelah itu di hitung akar pangkat dua. Selanjutnya hasil perkalian skalar tersebut di bagi dengan hasil perkalian panjang dokumen dan query. Rumus dapat dilihat sebagai berikut [7]: cossim(d j, q k ) = n i=1 (td ij tq ik ) n 2 i=1 td ij n tq 2 i=1 ik (5) Keterangan: cossim(dj,qk) tdij tqik n : tingkat kesamaan dokumen dengan query tertentu : term ke-i dalam vektor untuk dokumen ke-j : term ke-i dalam vektor untuk query ke-k : jumlah term yang unik dalam data set

12 2.2.6. K-Nearest Neighbor (K-NN) Algoritma k-nearest neighbor (K-NN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. K-NN termasuk algoritma supervised learning dimana hasil dari query instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada K-NN. Kelas yang paling banyak muncullah yang akan menjadi hasil klasifikasi [4]. Tujuan dari algoritma ini adalah mengklasifikasikan obyek baru bedasarkan atribut dan training sample. Classifier tidak menggunakan model apapun untuk dicocokkan dan hanya berdasarkan pada memori. Diberikan titik query, akan ditemukan sejumlah k obyek atau (titik training) yang paling dekat dengan titik query. Klasifikasi menggunakan voting terbanyak diantara klasifikasi dari k obyek.. algoritma k-nearest neighbor (K-NN) menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instance yang baru [4]. Terdapat dua rumus dalam perhitungan K-NN ini, yang pertama yaitu jika nilai k=1 maka nilai maksimal dari cossim akan menjadi hasil dari klasifikasinya. Dapat dituliskan dalam rumus sebagai berikut : SIM max (X) = max d T SIM(X, d j ) (6) Dimana SIMmax(X) adalah nilai kemiripan dokumen X yang paling tinggi. SIM(X,dj) adalah nilai kemiripan antara dokumen X dengan dokumen latih d. Sedangkan maxd T SIM(X,dj) adalah nilai maksimum

13 kemiripan dokumen X dengan dokumen d yang merupakan bagian dari dokumen latih T [1]. Kemudian jika digunakan k>1 maka perhitungannya adalah dengan menjumlahkan semua nilai kemiripan yang tergolong dalam satu kategori kemudian membandingkan manakah yang lebih besar m p(x, c m ) = l=1 SIM(X, d j ) c m (7) Keterangan: P(x,cm) sim(x,dj) cm yang : probabilitas dokumen X menjadi anggota kategori cm : kemiripan antara dokumen X dengan dokumen latih dj merupakan anggota dari kategori cm m : jumlah sim(x,dj) yang termasuk dalam kategori cm 2.2.7. Confusion Matrix Confusion matrix adalah sebuah metode yang biasa digunakan untuk perhitungan akurasi pada bidang data mining. Confusion matrix ini nantinya akan melakukan perhitungan yang melakukan 4 keluaran, yaitu recall (proporsi kasus positif yang diidentifikasi dengan benar), precision (proporsi kasus dengan hasil positif yang benar, accuracy (perbandingan kasus yang diidentifikasi benar dengan jumlah seluruh kasus) dan eror rate ( kasus yang diidentifikasi salah dengan jumlah seluruh kasus [9]. Rumus metode ini adalah sebagai berikut: recall = d c+d precision = d (b + d)

14 accuracy = (a + d) (a + b + c + d) (b + c) error rate = a + b + c + d Keterangan: a= jika hasil klasifikasi (-) dan data asli (-) b= jika hasil klasifikasi (+) dan data asli (-) c= jika hasil klasifikasi (-) dan data asli (+) d= jika hasil klasifikasi (+) dan data asli (+)