BAB II LANDASAN TEORI 2.1 Tinjauan Pustaka Berikut ini beberapa studi sebelumnya yang terkait dengan penelitian ini adalah sebagai berikut : Analisis Sentimen Masyarakat terhadap Calon Presiden Indonesia 2014 berdasarkan Opini dari Twitter Menggunakan Metode Naïve Bayes Classifier[8]. Dalam penelitian ini, penulis meneliti opini masyarakat terhadap calon presiden Indonesia tahun 2014 yaitu pasangan Prabowo Subianto-Hatta Rajasa dan Joko Widodo-Jusuf Kalla. Penulis menggunakan Naïve Bayes untuk pengklasifikasian dokumen, selain sederhana metode ini mempunyai akurasi yang tinggi jika diaplikasikan dalam data yang besar dan beragam. Data dalam penelitian ini diambil dalam tiga periode yaitu sebelum pemilu legislatif, saat diadakan pemilu legislatif dan setelah deklarasi pengumuman pemilu legislatif kemudian dari data tersebut penulis mengelompokkan opini masyarakat apakah bersifat positif, negatif atau netral. Hasil dari polaritas sentimen, Prabowo Subianto-Hatta Rajasa mendapatkan 47,7% untuk sentimen positif, 26,4% untuk sentimen negatif dan 25,9% untuk sentimen netral sedangkan Joko Widodo-Jusuf Kalla mendapatkan 37,6% sentimen positif, 34,4% sentimen negatif dan 27,9% sentimen netral dengan tingkat akurasi sebesar 90%.
Penerapan Algoritma Genetika Untuk Seleksi Fitur Pada Analisis Sentimen Review Jasa Maskapai Penerbangan Menggunakan Naïve Bayes[9]. Dalam penelitian ini peneliti menerapkan algoritma genetika untuk melakukan seleksi fitur pada dokumen dan algoritma naïve bayes untuk klasifikasi. Penggabungan keduanya bertujuan untuk meningkatkan akurasi. Tokenization, Stopword Removing, Stemming adalah pre-pocessing yang dilakukan sebelum melakukan seleksi fitur. Nilai akurasi yang dihasilkan metode naïve bayes berbasis algoritma genetika adalah 89.5% dan AUC sebesar 0.919 metode tersebut berhasil meningkatkan akurasi sebesar 29.5% dan AUC sebesar 0.407 dari percobaan tanpa menggunakan algoritma genetika sebagai seleksi fitur yang hanya menghasilkan nilai akurasi sebesar 60%. An Ensemble Sentiment Classification System of Twitter Data for Airline Services Analysis[7]. Penelitian ini menggunakan enam metode untuk klasifikasi yaitu Lexicon-based classifier, Naïve Bayes, Bayesian Network, SVM (Support Vector Machine), C4.5 (Decision Tree), Random Forest serta satu metode yang disebut dengan Ensemble Classifier yang menggabungkan lima metode (Naïve Bayes, Bayesian Network, SVM, C4.5 dan Random Forest) untuk mendapatkan akurasi yang lebih tinggi. Dalam penelitian ini terdapat empat kelas yaitu kelas positif (4288 tweet), negatif (35876 tweet), netral (40987 tweet) dan irrelevant (26715 tweet). Perolehan akurasi masing-masing saat tidak dikombinasikan dengan dataset dua kelas (menghilangkan kelas netral dan irrelevant) adalah Lexicon Based 67.9%, Naïve Bayesian 90%, Bayesian Network 91.4%, SVM 84.6%, Random Forest 89.8%.
Metode Lexicon Based tidak ikut dalam kombinasi karena perolehan akurasinya paling sedikit yaitu 67,9%, perolehan akurasi ensemble dengan dataset dua kelas yaitu 91.7% sedangkan perolehan akurasi ensemble untuk dataset tiga kelas yaitu 84.2%. Klasifikasi Teks dengan Naïve Bayes Classifier (NBC) untuk Pengelompokkan Teks Berita dan Abstrak Akademis[10]. Metode Naïve Bayes Classifier (NBC) untuk mengkategorikan dokumen berita dengan 1000 dokumen dan abstrak akademis 450 dokumen, masing-masing dilakukan percobaan sebanyak 7 kali pada percobaan pertama untuk dokumen berita memperoleh akurasi 91% dengan 900 data latih dan 100 data uji, percobaan kedua memperoleh akurasi 87% dengan 800 data latih dan 200 data uji, percobaan ketiga memperoleh akurasi 85% dengan 700 data latih dan 300 data uji, percobaan keempat memperoleh akurasi 84% dengan 600 data latih dan 400 data uji, percobaan kelima memperoleh akurasi 84% dengan 500 data latih dan 500 data uji, percobaan keenam memperoleh akurasi 81% dengan 400 data latih dan 600 data uji, percobaan yang terakhir memperoleh akurasi 74% dengan 300 data latih dan 700 data uji. Sedangkan untuk abstrak akademis pada percobaan pertama memperoleh akurasi 82% dengan 405 data latih dan 45 data uji, pada percobaan memperoleh akurasi 81% dengan 360 data latih dan 90 data uji, pada percobaan ketiga memperoleh akurasi 78% dengan 315 data latih dan 135 data uji, pada percobaan keempat memperoleh akurasi 75% dengan 270 data latih dan 180 data uji, pada percobaan kelima memperoleh akurasi 75% dengaan 225 data latih dan 225 data uji, pada percobaan keenam memperoleh akurasi 68% dengan 180 data latih dan 270 data uji dan pada percobaan terakhir memperoleh akurasi
65% dengan 135 data latih dan 315 data uji. Semakin banyak data latih maka semakin besar akurasi yang didapatkan. Analisis Opini Terhadap Fitur Smartphone pada Ulasan Website Berbahasa Indonesia[11] Pengumpulan data dilakukan dengan cara web scraping yaitu mengambil data review dari website target. Yang termasuk dalam target analisa adalah BOLT 4G Powerphone IVO, Samsung Galaxy Grand I9082 White, Apple iphone 5S 16GB Gold White, Microsoft Lumia Orange dan Nokia Lumia 520 Black. Sebelum dilakukan analisa data yang diperoleh dari web harus melalui tahap preprocessing agar memperoleh review data bersih kemudian Lexicon based, rule bahasa dan score function digunakan untuk menganalisis opini. Dari hasil pengujian diperoleh rata-rata nilai recall dan precision masing-masing sebesar 0.63 dan 0.72 sedangkan akurasinya sebesar 81.76%. Tabel 2. 1 Penelitian Terkait No Peneliti Tahun Judul Metode Hasil 1 Faishol 2013 Analisis Sentimen POS (Part-of- Dalam Nurhuda, Masyarakat terhadap speech) penelitian ini, Sari Calon Presiden Tagging untuk peneliti Widya Indonesia 2014 ekstraksi opini mengambil data Sihwi, berdasarkan Opini dan Naïve yang berupa Afrizal dari Twitter Bayes opini masyarakat Doewes menggunakan Classifier dari twitter Metode Naïve Bayes untuk kemudian
Classifier 2 Risa Wati 2016 Penerapan Algoritma Genetika Untuk Seleksi Fitur Pada Analisis Sentimen Review Jasa Maskapai Penerbangan Menggunakan Naïve Bayes klasifikasi dan mengukur tingkat akurasi. Algoritma Genetika untuk seleksi fitur pada dokumen dan Naïve Bayes untuk klasifikasi. diklasifikasi menggunakan metode Naïve Bayes. Hasil yang didapatkan dari pengujian 100 data random yang sudah diklasifikasi polaritas secara manual dengan menggunakan 1400 data training mendapatkan akurasi sebesar 90%. Penulis menggabungkan Algoritma Genetika sebagai seleksi fitur dan Algoritma Naïve Bayes untuk klasifikasi yang bertujuan untuk meningkatkan akurasi. Hasil
akurasi sebelum menggunakan pemilihan fitur Algoritma Genetika sebesar 60%, adapun hasil setelah menggunakan pemilihan fitur Algoritma Genetika sebesar 89.5% dan AUC sebesar 0.919 maka terjadi peningkatan akurasi sebesar 29.5% dan AUC sebesar 0.407. 3 Yun Wan, 2015 An Ensemble Lexicon-based Metode The Dr. Sentiment classifier, Ensemble Qigang Classification Naïve Bayes Classifier yaitu Gao System of Twitter Classifier, metode yang Data for Airline Bayesian menggabungkan Sevices Analysis Network 5 metode classifier, sekaligus (naïve SVM, C4.5 bayes, Bayesian Decision Tree, network, SVM,
Random Forest, Ensemble Classifier The C4.5 dan Random Forest) memperoleh akurasi tertinggi yaitu sebesar 91.7%, metode Lexicon-based classifier memperoleh akurasi paling rendah yaitu sebesar 67.9% saja. Untuk tingkat akurasi metode lainnya yaitu Naïve Bayes sebesar 90%, Bayesian Network sebesar 91.4%, SVM sebesar 84.6%, C4.5 sebesar 86% dan Random Forest sebesar 89.8% perolehan akurasi tersebut berdasarkan
dataset yang menggunakan dua kelas (kelas positif dan negatif) sedangkan perolehan akurasi untuk dataset yang menggunakan tiga kelas (ditambahkan kelas netral) sama saja urutannya tetapi nilai akurasi pada masingmasing metode sedikit menurun. 4 Amir 2012 Analisa Klasifikasi Naïve Bayes Dilakukan Hamzah Teks dengan Naïve Classifier sebanyak 7 kali Bayes Classifier percobaan untuk (NBC) untuk dokumen berita Pengelompokkan maupun Teks Berita dan dokumen abstrak Abstrak Akademis akademis pada percobaan pertama dengan
jumlah data latih dan data uji 9:1 dari dokumen seluruhnya meghasilkan akurasi yang paling tinggi kemudian data latih dikurangi jumlahnya akurasinya berkurang juga. Penggunaan data latih sebesar 50% dari data seluruhnya memperoleh hasil akurasi lebih dari 75%. 5 Doni 2016 Analisis Opini Lexicon based, Hasil akurasi yag Setyawan, terhadap Fitur rule bahasa didapatkan Edi Smartphone pada dan score dalam penelitian Winarko Ulasan Website function. ini adalah Berbahasa Indonesia 81.76% dengan nilai recall dan precisionnya masing-masing adalah 0.63 dan
0.72. Pengumpulan data dilakukan web scraping yaitu dengan mengumpulkan review opini masyarakat di web target. 2.2 Landasan Teori 2.2.1. Twitter Twitter adalah sosial media yang dibatasi dengan 140 karakter untuk sekali berkicau. Twitter disebut jejaring sosial berupa microblog karena situs ini memungkinkan penggunanya mengirim dan membaca pesan blog[12]. Selain siapa saja dapat menggunakan twitter dan penggunaannya yang mudah (user friendly) banyak sekali informasi yang ada di twitter seperti berita apa yang sedang ramai diperbincangkan dunia, informasi mengenai pekerjaaan, artis favorit dan teman teman kita. Berikut adalah dampak positif dan negatif yang ditimbulkan twitter: Positif : Sebagai media informasi, promosi dan komunikasi. Tanpa melakukan login sudah mendapatkan update informasi yang ada di twitter. Untuk meraih kepopuleran, misalnya kita meng-upload sesuatu yang membuat user lain suka dan simpati maka kita mendapatkan kepopuleran lewat twitter.
Banyak teman baru yang dapat kita peroleh melalui twitter. Negatif : Dapat menimbulkan konflik antar pengguna. Banyaknya spam yang ada di twitter sehingga membuat penggunanya tidak nyaman. Jika kecanduan dengan twitter menyebabkan rasa malas. 2.2.1.1. API Twitter Karena twitter menghasilkan jutaan tweet setiap harinya developer menyediakan API Twitter (Application Programming Interface) untuk menyimpan tweet tersebut agar mempermudah seseorang untuk mengakses informasi yang ada didalamnya untuk tujuan pengembangan aplikasi. Untuk dapat mengakses API Twitter dibutuhkan Consumer Key dan Consumer Secret keduanya berfungsi agar twitter mengetahui aplikasi yang kita buat [6]. Langkah pertama yang dilakukan adalah login dengan akun twitter ang kita miliki ke http://dev.twitter.com dan http://twitter.com lalu ikuti langkah-langkah yang ada didalamnya dan sediakan nomor handphone yang aktif untuk mendapatkan kode konfirmasi. Setelah mendapatkan API key, API secret, Access token dan Access token secret, API Twitter dapat diakses. 2.2.2. Text Mining Text Mining dapat diartikan sebagai penambangan teks yang bertujuan untuk mendapatkan data berupa dokumen yang tidak terstruktur sehingga dapat dilakukan analisis agar dokumen menjadi
terstruktur dan informasi dapat diperoleh dari dokumen tersebut. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan teks, preprocessing akan konten teks, pengumpulan data statistic serta indexing analisis sentimen[13]. Contoh pemanfaatan text mining antara lain untuk menyaring spam di email, pencarian lirik lagu di google, mengklasifikasi dokumen. 2.2.3. Sentimen Analisis Sentimen analisis adalah ungkapan perasaan yang diubah menjadi bentuk tekstual yang memiliki tujuan untuk menganalisis, memahami, mengolah dan mengekstrak data tekstual yang berupa opini terhadap entitas seperti produk, servis, organisasi, individu dan topik tertentu. Tugas dasar dalam analisis sentimen adalah mengelompokkan popularitas dari teks yang ada dalam dokumen, apakah pendapat yang dikemukakan bersifat positif, negatif atau netral[16]. Sentimen analisis atau dapat disebut juga opinion mining dapat mempengaruhi sikap seseorang terhadap suatu objek dan dimanfaatkan untuk mengetahui kelebihan dan kekurangan objek tersebut. 2.2.4. Situs Belanja Online Situs belanja online adalah website yang menjual produk secara elektronik menggunakan bantuan jaringan internet dan alat elektronik lainnya untuk melakukan transaksi. Ada empat macam e- commerce yaitu : a. C2C (Customer to Customer) adalah situs e-commerce yang penjualnya mendaftarkan diri kesebuah market place yang meyediakan tempat penjual dan pembeli untuk bertemu jadi penjual yang sudah memilki akun dapat menjual barang miliknya yang baru maupun bekas dengan meng-upload gambar ke website market place agar menarik pembeli, jika pembeli tertarik dengan
barang yang ditawarkan mereka dapat menghubungi kontak yang tersedia. Pihak market place tidak bertanggung jawab atas pengiriman barang, contohnya seperti KasKus, OLX, Jualo. b. B2B (Bussiness to Bussiness) hampir sama seperti yang pertama hanya saja bukan individu yang menjual barang melainkan perusahaan yang berperan sebagai produsen/distributor yang menawarkan barangnya ke perusahaan lain, contohnya seperti Alibaba, Indonetwork. c. B2C (Bussiness to Customer) perusahaan menjual barang kepada customer secara langsung tanpa perantara market place dengan kata lain perusahaan memiliki toko online sendiri mereka bertangung jawab pada pengiriman barang, transaksi transfer uang meskipun barang yang dijual bukan produk dari perusahaan mereka sendiri, contohnya seperti Matahari Mall, Berrybenka, Zalora. d. B2B2C (Bussiness to Bussiness to Customer) hampir sama seperti yang ketiga perbedaannya perusahaan/individu yang bertidak sebagai distributor dapat meng-upload gambar barang yang akan dijual ke website market place transaksi dilakukan melalui pihak market place kemudian baru diberikan pada pihak distributor, contohnya seperti Tokopedia, Sociolla, Shopee, Lazada, Bukalapak. Berikut adalah kelebihan dan kelemahan situs belanja online : Kelebihan : Tidak dibatasi wilayah jika ingin membeli dan dapat diakses kapan saja dimana saja. Seringkali diadakan diskon, kupon potongan untuk berbelanja dan gratis ongkos kirim.
Menghemat biaya akomodasi karena tidak usah datang ke toko. Menambah keuntungan bagi penjual karena tidak usah membangun toko sungguhan. Kekurangan : Transaksi bergantung pada rasa saling percaya, adanya jaringan internet, listrik dan rekening/atm. Sering terjadi penipuan yang dilakukan oleh penjual maupun pembeli. Tidak dapat mengecek barang. Banyak situs belanja online yang tidak mau bertanggung jawab jika ada pembeli yang ingin menukar barang. 2.2.5. Prepocessing Data tweet yang telah diambil dari twitter masih berupa data mentah maka dari itu dilakukan tahap preprocessing untuk mendapatkan data bersih agar dapat diproses ke tahap selanjutnya. Tahapan yang dilakukan adalah cleansing data, case folding, tokenizing dan filtering yang terdiri dari stopword removal serta stemming. 2.2.5.1. Cleansing Data Dilakukan untuk mengurangi noise pada data tweet. Kata-kata yang tidak penting dihilangkan seperti URL, hashtag (#), username (@username), email, emoticon ( :@, :*, :D ), tanda baca seperti koma (,), titik (.) dan juga tanda baca lainnya[14]. Tabel 2. 2 Contoh cleansing data Input
@LazadaIDCare kecewa dengan pelayanan dari CS Lazada, kemarin saya diinfokan bisa loh utk aktivasi kembali akun. Output kecewa dengan pelayanan dari CS Lazada kemarin saya diinfokan bisa loh utk aktivasi kembali akun 2.2.5.2. Case Folding Dalam penulisan tweet, pasti terdapat perbedaan bentuk huruf, tahapan ini merupakan proses merubah bentuk huruf menjadi huruf kecil (lower case) atau dapat disebut juga penyeragaman bentuk huruf. Tabel 2. 3 Contoh Case Folding Input kecewa dengan pelayanan dari CS Lazada kemarin saya diinfokan bisa loh utk aktivasi kembali akun Output kecewa dengan pelayanan dari cs lazada kemarin saya diinfokan bisa loh utk aktivasi kembali akun 2.2.5.3. Tokenizing Proses tokenizing atau parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Pada dasarnya proses tokenizing adalah pemenggalan kalimat menjadi kata. Tabel 2. 4 Contoh tokenizing Input kecewa dengan pelayanan dari cs lazada kemarin saya diinfokan bisa loh utk aktivasi kembali akun
Output kecewa, dengan, pelayanan, dari, cs, lazada, kemarin, saya, diinfokan, bisa, loh, untuk, aktivasi, kembali, akun 2.2.5.4. Stopword Removal Stopword Removal merupakan proses menghilangkan daftar kata-kata yang tidak mendeskripsikan sesuatu yang semestinya dihilangkan seperti yang, di, ke, itu dan lain sebagainya. Tabel 2. 5 Contoh stopword removal Input kecewa, dengan, pelayanan, dari, cs, lazada, kemarin, saya, diinfokan, bias, loh, untuk, aktivasi, kembali, akun Output kecewa pelayanan cs lazada kemarin saya info bisa aktivasi kembali akun 2.2.5.5. Stemming. Stemming adalah tahapan untuk membuat kata berimbuhan menjadi kata dasar sesuai dengan aturan Bahasa Indonesia yang benar. Tabel 2. 6 Contoh stemming Input kecewa pelayanan cs lazada kemarin saya bisa aktivasi kembali akun Output kecewa pelayanan lazada kemarin saya bisa aktif kembali akun
2.2.5.6. Convert Negation Dalam Bahasa Indonesia terdapat kata tidak, nggak, tak, kurang, tanpa yang disebut kata negasi yaitu kata yang dapat membalikan arti dari kata yang sebenarnya. Tabel 2. 7 Contoh convert negation Input nggak suka belanja di lazada kualitas barang jelek Output nggak_suka belanja di lazada kualitas barang jelek 2.2.6. Opinion Word Adalah kumpulan kamus kata positif dan negatif dalam Bahasa Indonesia. Dibuat pertama kali oleh Liu dalam penelitiannya kemudian diterjemahkan ke dalam Bahasa Indonesia yang berguna untuk menghitung kata sentimen dalam sebuah kalimat. Agar selanjutnya dapat digunakan sebagai rumus untuk menghitung jarak centroid dengan dokumen dalam proses clustering. Dalam kamus kata opinion word terdapat kurang lebih 2400 kata negatif dan 1900 kata positif. Tabel 2. 8 Kumpulan kata positif a+ Ajaib Amat apresiasi bakat Acungan Aklamasi Ambisius Asli bangga Adaptif Akomodatif Andal aspirasi bantuan Adil Akurat Aneh asyik banyak Afinitas alam mimpi Anggun bagos banyak akal Afirmasi Alhamdulillah angin sepoi bagus barang baru
Agilely allahu akbar Angkat bahagia batu permata Agung Altruistis Antusias baik bebas Ahli Aman Antusiasme baik diposisikan bebas masalah Ahlinya Amanah Pik baik sekali bebas pulsa Tabel 2. 9 Kumpulan kata negatif Abnormal agresor amat panas Anarki anjlok Absurd Aib Ambigu Anarkis anomali Acak air terjun Ambivalen Anarkisme antagonis acakacakan Akurat ambivalensi Ancaman antagonisme Acuh Alarm Amoral Aneh antek acuh tak Alas an Amoralitas aneh lagi antiacuh Adiktif alat permainan Ampun Anehnya anti- Amerika Adil Alergi Amuk Angkuh anti-israel Agresi Alergik anak nakal Angriness anti-kita Agresif amat ketakutan anak yatim Anjing antipendudukan 2.2.7. Clustering Data mentah yang diperoleh dari twitter termasuk data unsupervised, yaitu data yang belum memiliki label maka dari itu dilakukan proses clustering untuk memberikan label data yang telah diberikan label disebut data supervised.
2.2.7.1. K-Means Langkah-langkah perhitungan clustering dengan menggunakan metode k-means : 1. Menentukan jumlah dokumen yang akan di clustering. 2. Menentukan pusat cluster (centroid) secara acak. Dalam perhitungan kali ini terdiri dari dua pusat cluster yaitu C1 sebagai centroid negatif dan C2 sebagai centroid positif.. 3. Setiap dokumen dihitung jaraknya ke centroid menggunakan persamaan euclidean distance. Rumus euclidean distance, yaitu : ( ) ( ) ( ) Dimana : ( ) = jarak antara dokumen i dan j ( ) = selisih kuadrat jarak antara dokumen i dan j pada dokumen yang pertama ( ) = selisih kuadrat jarak antara dokumen i dan j pada dokumen yang kedua. e. Menghitung jarak cluster C1 (positif) f. Menghitung jarak cluster C2 (negatif) 4. Mengelompokkan semua dokumen berdasarkan jarak yang terkecil. 5. Menghitung nilai rata-rata dari dokumen yang ada pada centroid yang sama untuk menentukan centroid baru.
6. Kemudian hitung kembali jarak antara dokumen dengan centroid menggunakan euclidean distance. 7. Jika centroid baru tidak sama dengan centroid lama maka kembali ke langkah dua. 2.2.8. Klasifikasi Klasifikasi adalah proses menemukan model dari sebuah data. Tujuan dari klasifikasi adalah untuk mengambil suatu keputusan dengan memprediksi suatu kasus berdasarkan hasil klasifikasi yang diperoleh. Dalam proses pengklasifikasian terdapat 2 proses yang dilakukan yaitu : a. Proses training Pada proses ini dilakukan training set yang sudah diketahui label-labelnya untuk membangun model[15]. b. Proses testing Proses ini untuk mengetahui keakuratan model yang dibangun pada proses training, umumnya digunakan data yang disebut data test set untuk memprediksi label[15]. 2.2.8.1. Naïve Bayes Classifier Naïve Bayes Classifier adalah algoritma kalsifikasi yang mudah, sederhana dan paling umum digunakan untuk klasikasi dokumen. Langkah perhitungan Naïve Bayes Classifier adalah : Tabel 2. 10 Contoh data latih Dok Teks label
D1 terimakasih lazada barang pesanan saya C2(positif) sudah sampai dengan selamat pengemasan barang juga bagus. Good. D2 ngeri belanja di lazada banyak barang palsu C1(negatif) D3 suka belanja di lazada lengkap kualitas C2(positif) bagus harganya murah D4 barang di lazada jelek seperti dipasar C1(negatif) 1. Menentukan data uji Tabel 2. 11 Data Uji kapok belanja di lazada sudah transfer uang barang tidak dikirim 2 Menentukan probabilitas kategori dari data latih P(+) = P(-) = 3 Menghitung probabilitas kosakata (tf) dari data latih Tabel 2. 12 Frekuensi kata Kata D1 D2 D3 D4 Terimakasih 1 0 0 0 Lazada 1 1 1 1 Barang 2 1 0 1 pesan 1 0 0 0 Sampai 1 0 0 0 Selamat 1 0 0 0 Kemas 1 0 0 0
Bagus 1 0 1 0 Ngeri 0 1 0 0 Belanja 0 1 1 0 Palsu 0 1 0 0 Suka 0 0 1 0 Lengkap 0 0 1 0 Kualitas 0 0 1 0 Harga 0 0 1 0 Murah 0 0 1 0 Jelek 0 0 0 1 Pasar 0 0 0 1 4 Menghitung probabilitas untuk setiap kelas data latih P(wk) = Dimana, P(wk) = probabilitas term Pk+1 = query + angka satu agar hasil perhitungan tidak nol n = semua jumlah kata yang muncul di outcome dokumen vocab = total kata keseluruhan a. Probabilitas untuk sentimen positif P(terimakasih +) = P(lazada +) = P(barang +) = P(pesan +) =
P(sampai +) = P(selamat +) = P(kemas +) = P(bagus +) = P(ngeri +) = P(belanja +) = P(palsu +) = P(suka +) = P(lengkap +) = P(kualitas +) = P(harga +) = P(murah +) = P(jelek +) = P(pasar +) = b. Probabilitas untuk sentimen negatif P(terimakasih -) = P(lazada -) = P(barang -) = P(pesan -) = P(sampai -) =
P(selamat -) = P(kemas -) = P(bagus -) = P(ngeri -) = P(belanja -) = P(palsu -) = P(suka -) = P(lengkap -) = P(kualitas -) = P(harga -) = P(murah -) = P(jelek -) = P(pasar -) = 5 Menentukan Vmap untuk data uji Vmap= P(wk c)xp(c) a. Vmap untuk sentimen positif P(positif) x P(kapok +) x P(belanja +) x P(lazada +) x P(uang +) x P(barang +) x P(- kirim +) = b. Vmap untuk sentimen negatif
P(negatif) x P(kapok -) x P(belanja -) x P(lazada -) x P(uang -) x P(barang -) x P(- kirim -) = (ini masuknya data uji) 6 Kasifikasi data uji Jadi data uji tersebut termasuk dalam kategori kelas negatif (-) karena nilai P(-) > P(+). 2.2.9. Evaluasi dan Validasi Proses evaluasi dan validasi yamg digunakan yaitu K-Fold Cross Validation. Dataset dibagi menjadi sejumlah K-buah partisi secara acak. Kemudian dilakukan sejumlah K-kali percobaan, dimana masing-masing percobaan menggunakan data partisi ke-k sebagai data uji dan memanfaatkan sisa partisi lainnya sebagai data latih. Contohnya diambil 8 data untuk proses k-fold validation seperti dibawah ini : Tabel 2. 13 Dataset K1 K2 K3 K4 K5 K6 K7 K8 Tabel 2. 14 Data Eksperimen Data eksperimen Data Latih Data Uji ke- 1 K2,K3,K4,K5,K6,K7,K8 K1 2 K1,K3,K4,K5,K6,K7,K8 K2 3 K1,K2,K4,K5,K6,K7,K8 K3 4 K1,K2,K3,K5,K6,K7,K8 K4 5 K1,K2,K3,K4,K6,K7,K8 K5
6 K1,K2,K3,K4,K6,K7,K8 K6 7 K1,K2,K3,K4,K5,K6,K8 K7 8 K1,K2,K3,K4,K5,K6,K7 K8 Akurasi Akurasi = Dimana : TP (True Positive) merupakan jumlah data kelas positif yang diklasifikasikan sebagai kelas positif. TN (True Negative) merupakan jumlah data kelas negatif yang diklasifikasikan sebagai kelas negatif. FP (False Positive) merupakan jumlah data kelas negatif yang diklasifikasikan sebagai kelas positif. FN (False Negative) merupakan jumlah data kelas positif yang diklasifikasikan sebagai kelas negatif. Berikut ini contoh jika menggunakan data: Tabel 2. 15 Contoh Kalimat Tweet Kelas sebenarnya Kelas prediksi Hasil ayo belanja aman positif Positif TP tolong respon keluh konsumen positif negatif TN cari cewek ol cocok positif Positif FP call bicara robot bicara keluh negatif negatif FN
a. Pada dokumen pertama kelas sebenarnya adalah positif dan setelah di prediksi menunjukkan kelas positif maka hasil nilai prediksi benar (correct result) atau TP. b. Pada dokumen kedua kelas sebenarnya adalah positif dan setelah di prediksi menunjukkan kelas negatif maka hasil nilai prediksi tidak ada yang benar (correct absence result) atau TN. c. Pada dokumen pertama kelas sebenarnya adalah positif dan setelah di prediksi menunjukkan kelas positif dengan data tidak sesuai maka hasil tidak sesuai dengan nilai prediksi (unexpeted result) atau FP. d. Pada dokumen pertama kelas sebenarnya adalah negatif dan setelah di prediksi menunjukkan kelas negatif dengan data tidak sesuai maka hasil prediksi salah (missing result) atau FN. 2.2.10. Kerangka Pemikiran Tabel 2. 16 Kerangka Pikir
Masalah Konsumen sering kali bingung untuk menentukkan situs belanja online mana yang akan dipilih untuk berbelanja, sering membaca opini tetapi tidak dapat menyimpulkan karena data terlalu banyak. Tujuan Menyimpulkan opini masyarakat tentang situs belanja online yang memberikan pelayanan paling baik dengan menggunakan metode k- means untuk klastering dan metode naïve bayes untuk klasifikasi. Pendekatan Data Metode 1200 data yang sudah melalui K-means untuk clustering dan proses pre-pocessing dan Naïve Bayes Classifier untuk pemberian kelas dengan clustering klasifikasi. dibagi menjadi 2, 800 sebagai data latih dan 400 sebagai data uji dengan perbadingan yang sama setiap situs belanja online. Pengujian Pengujian metode dilakukan dengan k-fold cross validation Hasil Mengetahui situs belanja online mana yang terbaik menurut opini masyarakat dan mengetahui kinerja metode k-means dan naïve bayes.