Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

dokumen-dokumen yang mirip
Analisis Sentimen Tentang Opini Film Pada Dokumen Twitter Berbahasa Indonesia Menggunakan Naive Bayes Dengan Perbaikan Kata Tidak Baku

Jurnal Politeknik Caltex Riau

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER

DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

Bandung, Indonesia Bandung, Indonesia

BAB I PENDAHULUAN 1.1 Latar Belakang

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

BAB 3 LANDASAN TEORI

ABSTRAK. Kata Kunci: analisis sentimen, pre-processing, mutual information, dan Naïve Bayes. UNIVERSITAS KRISTEN MARANATHA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN.

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

Analisis Sentimen Tentang Opini Pilkada Dki 2017 Pada Dokumen Twitter Berbahasa Indonesia Menggunakan Näive Bayes dan Pembobotan Emoji

Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN:

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir

KOREKSI EJAAN QUERY BAHASA INDONESIA MENGGUNAKAN ALGORITME DAMERAU LEVENSHTEIN

SENTIMENT ANALYSIS FOR REVIEW MOBILE APPLICATIONS USING NEIGHBOR METHOD WEIGHTED K-NEAREST NEIGHBOR (NWKNN)

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

BAB II TINJAUAN PUSTAKA

JURNAL SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER SENTIMENT ANALYSIS POLITICAL LEADERS IN TWITTER

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI FUZZY SEARCH UNTUK PENDETEKSI KATA ASING PADA DOKUMEN MICROSOFT WORD

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Analisis Sentimen Dengan Query Expansion Pada Review Aplikasi M- Banking Menggunakan Metode Fuzzy K-Nearest Neighbor (Fuzzy k-nn)

IMPLEMENTASI FUZZY SEARCH UNTUK PENDETEKSI KATA ASING PADA DOKUMEN MICROSOFT WORD

ANALISIS SENTIMEN JASA EKSPEDISI BARANG MENGGUNAKAN METODE NAÏVE BAYES

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

BAB I PENDAHULUAN Latar Belakang

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

BAB II LANDASAN TEORI

Abstrak. Universitas Kristen Maranatha

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. Pada bagian awal penelitian ini dipaparkan secara lengkap latar belakang,

BAB I PENDAHULUAN Latar belakang

ANALISIS SENTIMEN PADA JASA OJEK ONLINE MENGGUNAKAN METODE NAÏVE BAYES

Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

SISTEM ANALISIS SENTIMEN POSITIF DAN NEGATIF MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES PADA KASUS TOKOH PUBLIK CAPRES INDONESIA 2014

Kata Kunci: pengecekan ejaan, kata berimbuhan, string matching, algoritma KMP.

Analisis Sentimen Pada Review Konsumen Menggunakan Metode Naive Bayes Dengan Seleksi Fitur Chi Square Untuk Rekomendasi Lokasi Makanan Tradisional

PERBANDINGAN ANALISIS PENGENALAN HURUF ARAB MENGGUNAKAN METODE JARINGAN SYARAF TIRUAN BACKPROPAGATION DAN K-NEAREST NEIGHBOR

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012

ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER. Abstrak

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

BAB II TINJAUAN PUSTAKA

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

Penerapan Algoritma K-Means untuk Clustering

Pembuatan Program Pembelajaran Integer Programming Metode Branch and Bound. Frengki

Rata-rata token unik tiap dokumen

Klasifikasi Posting Twitter Kemacetan Lalu Lintas Kota Bandung Menggunakan Naive Bayesian Classification

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI

BAB I PENDAHULUAN. dengan lingkungan sosialnya pengguna social media seringkali menceritakan

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang

Text Pre-Processing. M. Ali Fauzi

BAB II LANDASAN TEORI

PROGRAM APLIKASI EDITOR KATA BAHASA INDONESIA MENGGUNAKAN METODE APPROXIMATE STRING MATCHING DENGAN ALGORITMA LEVENSHTEIN DISTANCE BERBASIS JAVA

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI

BAB I PENDAHULUAN 1.1 Latar Belakang

1. Introduction. tertentu memegang peran penting dalam. Abstract

TEXT MINING DALAM ANALISIS SENTIMEN ASURANSI MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER

Aplikasi Opinion Mining dengan Algoritma Naïve Bayes untuk Menilai Berita Online

BAB I PENDAHULUAN. 1.1 Latar Belakang

Jurnal Informatika Mulawarman Vol. 10 No. 1 Februari

SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

Klasifikasi Dokumen Sambat Online Menggunakan Metode K-Nearest Neighbor dan Features Selection Berbasis Categorical Proportional Difference

ANALISA SENTIMEN MENGGUNAKAN NAÏVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP KENAIKAN HARGA JUAL ROKOK PADA MEDIA SOSIAL TWITTER

ABSTRAK. Kata Kunci: City Guide,TOPSIS,Unified Modeling Language

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

PENGEMBANGAN APLIKASI ESTIMASI UKURAN PERANGKAT LUNAK DENGAN PENDEKATAN FUNCTION POINT ANALYSIS

Optimasi Naïve Bayes Dengan Pemilihan Fitur Dan Pembobotan Gain Ratio

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 LANDASAN TEORI

IMPLEMENTASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) UNTUK ANALISA SENTIMEN PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR

OPTIMASI NAÏVE BAYES DENGAN PEMILIHAN FITUR DAN PEMBOBOTAN GAIN RATIO

PENGKLASIFIKASIAN DAUN MANGGA, SALAM DAN SAWO DENGAN MENGGUNAKAN METODE NAIVE BAYES

IMPLEMENTASI ALGORITMA LEVENSHTEIN DISTANCE PADA APLIKASI KAMUS KEPERAWATAN BERBASIS MOBILE TUGAS AKHIR

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASDAN TEORI

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN Latar Belakang

Implementasi Algoritme Modified-Apriori Untuk Menentukan Pola Penjualan Sebagai Strategi Penempatan Barang Dan Promo

Transkripsi:

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 10, Oktober 2017, hlm. 1082-1088 http://j-ptiik.ub.ac.id Analisis Sentimen Pada Ulasan Aplikasi Mobile Menggunakan Naive Bayes dan Normalisasi Kata Berbasis Levenshtein Distance (Studi Kasus Aplikasi BCA Mobile) Ferly Gunawan 1, Mochammad Ali Fauzi 2, Putra Pandu Adikara 3 Program Studi Teknik Informatika, Email: 1 ferlygunawan@gmail.com, 2 moch.ali.fauzi@ub.ac.id, 3 adikara.putra@ub.ac.id Abstrak Perkembangan aplikasi mobile yang pesat membuat banyak aplikasi diciptakan dengan berbagai kegunaan untuk memenuhi kebutuhan pengguna. Setiap aplikasi memungkinkan pengguna untuk memberi ulasan tentang aplikasi tersebut. Tujuan dari ulasan adalah untuk mengevaluasi dan meningkatkan kualitas produk ke depannya. Untuk mengetahui hal tersebut, analisis sentimen dapat digunakan untuk mengklasifikasikan ulasan ke dalam sentimen positif atau negatif. Pada ulasan aplikasi biasanya terdapat salah eja sehingga sulit dipahami. Kata yang mengalami salah eja perlu dilakukan normalisasi kata untuk diubah menjadi kata standar. Karena itu, normalisasi kata dibutuhkan untuk menyelesaikan masalah salah eja. Penelitian ini menggunakan normalisasi kata berbasis Levenshtein distance. Berdasarkan pengujian, nilai akurasi tertinggi terdapat pada perbandingan data latih 70% dan data uji 30%. Hasil akurasi tertinggi dari pengujian menggunakan nilai edit <=2 adalah 100%, nilai edit tertinggi kedua didapat pada nilai edit <=1 dengan akurasi 96,4%, sedangkan nilai edit dengan akurasi terendah diperoleh pada nilai edit <=4 dan <=5 dengan akurasi 66,6%. Hasil dari pengujian Naive Bayes- Levenshtein Distance memiliki nilai akurasi 96,9% dibandingkan dengan pengujian Naive Bayes tanpa Levenshtein Distance dengan nilai akurasi 94,4%. Kata Kunci: analisis sentimen, ulasan, salah eja, levenshtein distance, naive bayes. Abstract The rapid development of mobile application encourages the creation of many applications with a variety of uses to fulfill user needs. Each application allows users to post a review about the application. The aim of the review is to evaluate and improve the quality of future products. For that purpose, analysis sentiment can be used to classify the review into positive or negative sentiment. Application reviews usually have spelling errors which makes them difficult to understand. The word that have spelling error needs to be normalized so it can be transformed into standard word. Hence, words normalization is needed to solve spelling error problem. This research used word normalization based on Levenshtein distance. Based on testing, the highest accuracy is found in ratio of 70% training data and 30% testing data. The highest accuracy of this research using edit value <=2 is 100%, the second highest of edit value is obtained at edit value <=1 with accuracy of 96,4%, while edit value with the lowest accuracy is obtained at edit value <=4 and <=5 with accuracy of 66,6%. The result of using Naive Bayes-Levenshtein Distance has accuracy value of 96,9% compared to Naive Bayes without the Levenshtein Distance with accuracy value of 94,4%. Keywords: sentiment analysis, review, spelling error, levenshtein distance, naive bayes. 1. PENDAHULUAN Aplikasi merupakan program yang dikembangkan untuk memenuhi kebutuhan pengguna (Maryono & Istiana, 2008). Dengan 1 Haryo Prabancono, Aplikasi Android kebutuhan pengguna yang luas hal ini menjadi peluang developer untuk mengembangkan banyak aplikasi. Jumlah aplikasi siap unduh pada tahun 2016 mencapai lebih dari 2 juta aplikasi 1. Dengan jumlah aplikasi yang banyak Solopos,(http://www.solopos.com/2016/04/20/aplika Fakultas Ilmu Komputer Universitas Brawijaya 1082

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1083 semakin memudahkan pengguna dalam berbagai hal. Salah satu aplikasi yang memudahkan pengguna adalah aplikasi m-banking. Aplikasi m-banking merupakan aplikasi yang dapat membantu pengguna dalam hal transaksi perbankan. Layanan yang terdapat pada aplikasi membuat pengguna tanpa perlu repot untuk berkunjung ke ATM ataupun ke bank. Jumlah pemasangan aplikasi m-banking oleh pengguna sangat bervariasi. Jumlah pemasangan aplikasi m-banking yang bersumber dari Google PlayStore menunjukkan bahwa pemasangan aplikasi BCA Mobile mencapai 5 10 juta pengguna, aplikasi BNI Mobile mencapai 1 5 juta pengguna, sedangkan aplikasi Mandiri Mobile mencapai 100 500 ribu pengguna 2. Pada Aplikasi BCA Mobile memungkinkan pengguna untuk memberi ulasan tentang kepuasan pengguna terhadap aplikasi yang digunakan, hal ini bertujuan untuk mengevaluasi kinerja aplikasi sehingga dapat dilakukan perbaikan. Untuk mengetahui hal tersebut perlu dilakukan dengan melakukan analisis sentimen. Analisis sentimen merupakan riset komputasional dari opini, sentimen, dan emosi yang diekspresikan secara tekstual (Liu, 2010). Penggunaan analisis sentimen pada umumnya digunakan untuk menganalisis tentang suatu produk dalam meningkatkan kualitas produk ke depannya. Dalam hal ini analisis sentimen dapat diterapkan pada ulasan aplikasi mobile. Pada ulasan aplikasi mobile terkadang terdapat kesalahan penulisan sehingga sulit dibaca. Hal ini disebabkan oleh beberapa faktor seperti kedekatan huruf pada papan ketik, tidak sengaja salah penulisan dalam mengetik, dan tidak ada pengecekan ulang. Dari hal tersebut perlunya mengartikan ulang kata untuk mengetahui maksud dari ulasan pengguna. Kata tersebut nantinya akan diklasifikasikan agar dapat diketahui masuk ke dalam sentimen yang mana. Dalam hal ini maka dibutuhkan metode klasifikasi untuk menganalisis ulasan. Pada penelitian sebelumnya yang berkaitan dengan analisis sentimen dilakukan oleh Pramastuti (2015). Terdapat beberapa metode klasifikasi yang kemudian dilakukan perhitungan nilai rata-rata menggunakan Average of Probabilities. Klasifikasi tersebut adalah Naive Bayes dan Fuzzy K-Nearest Neighbor. Dari hasil nilai rata-rata kedua metode kemudian dapat diketahui hasil klasifikasi masuk pada sentimen positif atau negatif. Hasil dari penelitian menunjukkan bahwa klasifikasi Naive Bayes memiliki hasil yang lebih baik dibandingkan dengan Fuzzy K-Nearest Neighbor dan Ensemble. Namun, pada penelitian ini memiliki kekurangan dalam hal menangani masalah tentang klasifikasi ulasan singkat, sehingga mengakibatkan menurunnya tingkat akurasi. Penelitian selanjutnya tentang analisis sentimen yang dilakukan Firmansyah (2016). Penelitian ini menggunakan metode Naive Bayes untuk klasifikasi ulasan dan Query Expansion untuk mengoptimalkan ulasan singkat yang merupakan kekurangan dari penelitian sebelumnya. Penelitian ini juga membandingkan hasil antara penggunaan teks pre-processing dan tidak menggunakan teks preprocessing. Hasil penelitian menunjukkan bahwa penggunaan teks pre-processing menghasilkan akurasi yang lebih baik dari pada tidak menggunakan teks pre-processing. Pada penelitian ini hasil akurasi tertinggi didapat pada penggunaan Naive Bayes dan Query Expansion sebesar 98% dibandingkan dengan Naive Bayes tanpa Query Expansion yang memiliki nilai akurasi 95%. Namun pada penelitian ini memiliki kekurangan yaitu dalam menangani masalah tentang kesalahan penulisan sehingga dapat menurunnya nilai akurasi. Penurunan tingkat akurasi dikarenakan analisis sentimen pada penelitian ini menggunakan kata sifat yang berbeda namun memiliki makna sama, sedangkan kata yang mengalami kesalahan penulisan dianggap tidak memiliki kesamaan makna dengan kata sifat lain. Berdasarkan uraian di atas, peneliti mengusulkan penelitian dengan menggunakan metode Naive Bayes untuk klasifikasi ulasan aplikasi mobile dan Levenshtein distance yang digunakan untuk normalisasi kata yang mengalami kesalahan penulisan. 2. METODE USULAN Tahapan analisis sentimen ulasan aplikasi mobile diawali dengan memproses data latih dan data uji dengan teks pre-processing, kemudian data latih dan data uji dilakukan normalisasi kata berbasis Levenshtein distance, tahap terakhir si-android-kuartal-i-2016-ada-111-miliar-unduhandi-google-play-store-711992, diakses 19 Desember 2016) 2 Google Play, (https://play.google.com/store/apps/details?id=co m.bca&hl=in, diakses tanggal 4 April 2017).

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1084 yaitu dengan proses klasifikasi data uji untuk diketahui masuk sentimen positif atau sentimen negatif. Diagram alir sistem secara umum digambarkan pada Gambar 1. Mulai Data latih dan data uji Teks pre-processing Normalisasi kata Levenshtein distance Klasifikasi Naive Bayes Hasil klasifikasi data uji Selesai Gambar 1. Diagram Alir sistem 2.1. Naive Bayes Classifier Naive Bayes Classifier merupakan metode klasifikasi yang berdasar pada teorema Bayes. Metode klasifikasi ini cocok digunakan ketika jumlah masukan yang sangat besar. Klasifikasi ini lebih disukai karena kecepatan dan kesederhanaannya (Goel, et al., 2016). Meskipun klasifikasi ini bisa dibilang klasifikasi yang sederhana, namun hasil yang diperoleh dari klasifikasi ini sering mencapai performa yang sebanding dengan algoritme lain seperti Decision tree, dan Neural Network classifier. Klasifikasi ini selain memperlihatkan tingginya akurasi juga cepat dalam memproses data dalam jumlah yang besar (C.Aggarwal, 2015). Klasifikasi Naive Bayes termasuk ke dalam algoritme pembelajaran Bayes yang dibangun oleh data latih. Tujuan dari algoritma ini untuk memperkirakan probabilitas berdasarkan kategori yang ada pada data latih. Klasifikasi Naive Bayes akan menggabungkan pengetahuan sebelumnya dengan pengetahuan baru (Fiarni, et al., 2016). Proses klasifikasi Naive Bayes secara umum dapat dilihat pada Persamaan (1) (C.Aggarwal, 2015). P(c j w i ) = P(c j) x P(w i c j ) P(w i ) Keterangan: P(c j w i ) : (1) Posterior merupakan peluang kategori j ketika terdapat kemunculan kata i P(w i c j ) : Conditional probability merupakan peluang sebuah kata i masuk ke dalam kategori j P(c j ) : Prior merupakan peluang kemunculan sebuah kategori j P(w i ) : Peluang kemunculan sebuah kata i : Indeks kata yang dimulai dari 1 hingga kata ke-k j : Indeks kategori yang dimulai dari 1 hingga kategori ke-n Peluang kemunculan kata sesungguhnya dapat dihilangkan pada proses perhitungan klasifikasi karena peluang tersebut tidak akan berpengaruh pada perbandingan hasil klasifikasi dari setiap kategori. Proses pada klasifikasi dapat disederhanakan dengan Persamaan (2) (Manning, et al., 2009). P(c j w i ) = P(c j )xp(w i c j ) (2) Untuk menghitung prior atau peluang kemunculan suatu kategori pada semua dokumen dapat dilakukan dengan menggunakan Persamaan (3) (Manning, et al., 2009). P(c j ) = N (3) c j N Keterangan: N cj : Dokumen yang masuk kategori c j N : Jumlah keseluruhan dokumen latih yang digunakan. Pada umumnya data uji memiliki banyak kata yang diproses mulai indeks ke-1 hingga kek, dalam hal ini conditional probability kata w i pada kategori c j dilakukan perkalian dari i=1 sampai i=k sehingga untuk mengetahui nilai posterior dapat dihitung dengan menggunakan Persamaan (4). P(c j w i ) = P(c j )xp(w 1 c j )x xp(w k c j ) (4) 2.1.1 Multinomial Naive Bayes Multinomial Naive Bayes merupakan algoritme yang disebut naive karena mengasumsikan independensi di antara

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1085 kemunculan kata dalam suatu dokumen. Multinomial Naive Bayes tidak memperhitungkan urutan kata dan informasi yang terdapat pada kalimat atau dokumen. Metode Multinomial Naive Bayes dalam melakukan perhitungan peluang sebuah kata masuk ke dalam kategori dapat dilakukan dengan menggunakan persamaan conditional probability. Pada persamaan conditional probability untuk menghindari nilai zero digunakan add-one atau Laplace smooting, dengan menambahkan angka 1 untuk tiap perhitungan kata uji (Manning, et al., 2009). Persamaan conditional probability dapat dilihat pada Persamaan (5). (5) count(w i, c j ) + 1 P(w i c j ) = ( wεv count(w, c j )) + V Keterangan: count(w i, c j ) + 1 merupakan jumlah kemunculan dari kata uji yang muncul dalam kategori c j ditambah dengan 1 untuk menghindari nilai zero. count(w, c j ) merupakan jumlah kemunculan seluruh kata yang ada pada kategori c j. V merupakan jumlah seluruh kata unik yang ada pada seluruh kategori. 2.2. Levenshtein Distance Levenshtein distance atau edit distance merupakan algoritme yang digunakan untuk menghitung jumlah operasi yang paling sedikit antara satu kata dengan kata lain (Adiwidya, 2009). Hasil perhitungan edit distance didapatkan dari matriks yang digunakan untuk menghitung jumlah perbedaan antara dua string. Pada algoritme ini terdapat 3 macam operasi karakter yaitu (Adriyani, et al., 2012): 1. Operasi pengubahan Operasi ini merupakan operasi yang digunakan untuk mengubah suatu karakter dengan karakter lain. Contoh terdapat kata dalsm kata tersebut akan diubah menjadi kata dalam maka karakter s akan diganti dengan karakter a. 2. Operasi penambahan Operasi ini merupakan operasi untuk menambahkan suatu karakter pada suatu kata. Contoh operasi ini adalah ketika terdapat kata kpan yang akan diubah menjadi kata kapan maka akan dilakukan penambahan karakter a setelah karakter k. 3. Operasi penghapusan Operasi penghapusan karakter merupakan operasi yang digunakan untuk menghapus suatu karakter pada kata. Contoh dari operasi ini adalah ketika terdapat kata gelass yang akan diubah menjadi kata gelas, maka karakter s di akhir akan dihilangkan. Pada algoritme ini berjalan mulai dari pojok kiri atas dari sebuah array dua dimensi yang telah diisi karakter string awal dan string target yang kemudian diberikan nilai cost. Pemberian nilai cost terletak pada pojok kanan bawah merupakan nilai edit distance yang menggambarkan jumlah perbedaan kedua kata. Gambar 2. merupakan contoh perhitungan edit distance. Gambar 2. Matriks perhitungan edit distance Contoh pada perhitungan edit distance menggunakan 2 kata yang berbeda kemudian dilakukan perhitungan pada Gambar 1. Nilai edit distance ditunjukkan pada Gambar 1. dengan warna merah. Hasil dari perhitungan edit distance antara kata YAN dan YANG adalah 1. Pengecekan dimulai dari iterasi awal dari kedua kata kemudian dilakukan operasi pengubahan, penambahan dan penghapusan karakter. Pada contoh ini hanya terdapat 1 penyisipan karakter yaitu karakter G pada kata YAN sehingga menjadi YANG. 3. HASIL DAN PEMBAHASAN 3.1. Pengujian teks pre-processing dan variasi Naive Bayes-Levenshtein Distance Pengujian ini bertujuan untuk mengetahui pengaruh penggunaan Levenshtein distance. Penggunaan data uji dilakukan secara acak sesuai dengan jumlah perbandingan penggunaan data. Dengan pengambilan data uji secara acak maka pada pengujian ini dilakukan 3 kali percobaan yang kemudian hasil dari seluruh percobaan dihitung nilai rata-ratanya. Hasil dari pengujian dengan seluruh perbandingan data ditunjukkan pada Gambar 3.

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1086 99,0% 98,0% 97,0% 96,0% 95,0% 94,0% Menggunakan Teks Pre-processing 97% 300 : 100 Latih : Uji Teks pre-processing Naive Bayes 98% Teks pre-processing Naive Bayes-Levenshein Distance 97,50% 97,00% 96,50% 96,00% 95,50% 95,00% 94,50% 94,00% Menggunakan Naive Bayes- Levenshtein Distance 96,60% 70% : 30% 96,90% Data Latih : Data Uji Tanpa teks pre-processing Teks pre-processing Gambar 3. Pengujian teks pre-processing dengan variasi Naive Bayes-Levenshtein Distance Berdasarkan hasil percobaan dengan menggunakan perbandingan data latih 300 ulasan dan data uji 100 ulasan aplikasi BCA mobile, penggunaan Naive Bayes-Levenshtein Distance memiliki hasil yang lebih baik dengan nilai akurasi mencapai 98%, dibandingkan dengan Naive Bayes tanpa Levenshtein Distance yang memiliki nilai akurasi 97%. Hal ini dikarenakan ketika pada data latih dan data uji terdapat kesalahan penulisan kata maka dengan Levenshtein distance kata yang mengalami kesalahan penulisan diubah menjadi kata sesungguhnya, sehingga kata pada data uji memiliki banyak kemunculan kata pada data latih. Semakin banyaknya kata data uji yang sama dengan kata pada data latih maka menghasilkan hasil klasifikasi yang sempurna. 3.2. Pengujian Naive Bayes-Levenshtein Distance dan variasi teks pre-processing Pengujian Naive Bayes-Levenshtein Distance dan variasi teks pre-processing bertujuan untuk mengetahui pengaruh penggunaan teks pre-processing terhadap hasil klasifikasi. Penggunaan data uji dilakukan secara acak sesuai dengan jumlah penggunaan data. Pengujian ini dilakukan 3 kali percobaan yang kemudian hasil dari seluruh percobaan dihitung nilai rata-ratanya. Hasil pengujian ini ditampilkan pada Gambar 4. Gambar 4. Pengujian Naive Bayes-Levenshtein Distance dengan variasi teks pre-processing Berdasarkan hasil percobaan dengan penggunaan jumlah data 200 ulasan, dan dilakukan perbandingan penggunaan data latih 70% dan data uji 30% dengan teks preprocessing menghasilkan nilai akurasi lebih unggul sebesar 96,9% dibandingkan dengan tanpa teks pre-processing yang memiliki akurasi 96,6%. Penggunaan teks pre-processing dan tanpa teks pre-processing memberi pengaruh terhadap hasil klasifikasi. Hal ini dikarenakan pada teks pre-processing memiliki tahapan proses yang mampu mengolah ulasan untuk membantu klasifikasi menjadi baik. Tahapan proses yang sangat berpengaruh adalah filtering dan stemming. Proses filtering menghasilkan kata yang dianggap penting saja, sedangkan stemming mengubah kata berimbuhan dan jamak menjadi kata dasar. Sehingga dengan teks preprocessing menghasilkan hasil klasifikasi yang baik. 3.3. Pengujian variasi teks pre-processing dan variasi Naive Bayes-Levenshtein Distance Pengujian ini bertujuan untuk mengetahui hasil dari keseluruhan percobaan. Penggunaan data uji dilakukan secara acak sesuai dengan jumlah penggunaan data. Dengan pengambilan data uji secara acak maka pada pengujian ini dilakukan 3 kali percobaan yang kemudian hasil dari seluruh percobaan dihitung nilai rataratanya. Hasil dari pengujian ini ditunjukkan pada Gambar 5.

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1087 98% 96% 94% 92% 90% Pengujian keseluruhan 94,40% 96,90% 93,90% 70% : 30% Data Latih : Data Uji 96,60% Teks pre-processing MNB Teks pre-processing MNB-LD Tanpa teks pre-processing MNB Tanpa teks pre-processing MNB-LD 100% 90% 80% 70% 60% 50% 40% Teks pre-processing dengan Naive Bayes- Levenshtein Distance 96,40% 100% 91,60% 66,60%66,60% 70% : 30% Data Latih : Data Uji Nilai edit <= 1 Nilai edit <= 2 Nilai edit <= 3 Nilai edit <= 4 Nilai edit <= 5 Gambar 6. Pengujian pengaruh nilai edit terhadap hasil klasifikasi Gambar 5. Pengujian variasi teks pre-processing dengan variasi Naive Bayes-Levenshtein Distance Percobaan teks pre-processing dengan Naive Bayes-Levenshtein Distance menduduki peringkat terbaik dengan nilai akurasi sebesar 96,9%. Hal ini dikarenakan data uji dilakukan teks pre-processing terlebih dahulu, karena pada proses filtering dan stemming tidak dapat memproses kata yang mengalami kesalahan penulisan maka dilakukan normalisasi kata untuk mengatasi masalah tersebut. Sehingga dengan dilakukannya tahapan proses tersebut dapat menghasilkan klasifikasi yang baik. Beda halnya dengan percobaan lain, hasil klasifikasi dipengaruhi beberapa faktor yaitu kata-kata tidak penting yang memiliki kemunculan tinggi, kata yang sesungguhnya bermakna sama namun penulisannya berbeda, dan tidak seimbangnya jumlah kata positif dan negatif. 3.4. Pengujian pengaruh nilai edit pada hasil klasifikasi Pengujian ini bertujuan untuk mengetahui nilai edit berapa yang paling mempengaruhi hasil klasifikasi. Nilai edit antara kedua kata sangat beragam, mulai 1 hingga ke-n, namun pada pengujian ini dibatasi hingga nilai edit <=5. Pengujian pengaruh nilai edit terhadap hasil klasifikasi dilakukan pada percobaan teks preprocessing dengan Naive Bayes-Levenshtein Distance. Hasil dari pengujian ini ditunjukkan pada Gambar 6. Pengujian pengaruh nilai edit terhadap hasil klasifikasi, nilai edit yang memiliki akurasi tertinggi adalah nilai edit <=2 dengan akurasi sebesar 100%. Hal ini dikarenakan terdapat banyaknya nilai edit 1 dan 2 pada ulasan uji yang mempengaruhi hasil klasifikasi. Tingginya akurasi didapatkan karena ulasan berlabel <=2 memiliki hasil klasifikasi yang sesuai dengan kategori sesungguhnya. Namun, hasil normalisasi kata untuk data latih dan data uji terdapat kata yang mengalami kesalahan penulisan yang diubah menjadi kata yang bermakna lain. 4. KESIMPULAN Berdasarkan hasil pengujian dan analisis yang telah dilakukan, dapat disimpulkan sebagai berikut: 1) Metode klasifikasi Naive Bayes dan Levenshtein distance dapat diterapkan pada analisis sentimen ulasan aplikasi mobile. Data latih dan data uji dilakukan teks preprocessing yang meliputi case folding, delimiter, tokenizing, filtering, dan stemming terlebih dahulu. Kemudian dilakukan proses normalisasi kata berbasis Levenshtein distance. 2) Penggunaan teks pre-processing terhadap hasil klasifikasi memberikan nilai akurasi sebesar 96,9%, lebih unggul dibandingkan dengan tanpa teks pre-processing. 3) Penggunaan algoritme Levenshtein distance untuk normalisasi kata yang mengalami kesalahan penulisan mampu meningkatkan hasil klasifikasi dengan nilai akurasi sebesar 96,9% dibandingkan hanya

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1088 menggunakan klasifikasi Naive Bayes dengan nilai akurasi 94,4%. 4) Pengaruh nilai edit terhadap hasil klasifikasi memiliki hasil bervariasi untuk masing-masing nilai edit. Nilai akurasi tertinggi terdapat pada nilai edit <=2 dengan akurasi 100%. Pramastuti, J. I. R., Indriati & Ridok, A., 2016. Sentimen Analisis Review Aplikasi Mobile Menggunakan Metode Enseble Classified Berbasis Average of Probabilities. Doro, 7(6). DAFTAR PUSTAKA Adiwidya, B. M. D., 2009. Algoritma Levenshtein Distance Dalam Pendekatan Approximate String Matching. Bandung: Institut Teknologi Bandung. Adriyani, N. M. M., Santiyasa, I. W. & Muliantara, A., 2012. Implementasi Algoritma Levenshtein Distance dan Metode Impiris untuk Menampilkan Saran Perbaikan Kesalahan Pengetikan Dokumen Berbahasa Indonesia. JELIKU, 1(1). C.Aggarwal, C., 2015. Data Classification: Algorithms and Applications. Berilustrasi penyunt. New York: CRC Press. Fiarni, C., Maharani, H. & Pratama, R., 2016. Sentiment Analysis System for Indonesia Online Retail Shop Review Using Hierarchy Naive Bayes Technique. Bandung, IEEE. Firmansyah, R. F. N., Fauzi, M. & Afirianto, T., 2016. Sentiment Analysis pada Review Aplikasi Mobile Menggunakan Metode Naive Bayes dan Query Expansion. Doro, 8(28). Goel, A., Gautam, J. & Kumar, S., 2016. Real Time Sentiment Analysis of Tweets Using Naive Bayes. Dehradun, IEEE, pp. 257-261. Liu, B., 2010. Sentiment analysis and subjectivity, Handbook of natural language processing 2. s.l.:chapman and Hall/CRC. Manning, C. D., Raghavan, P. & Schutze, H., 2009. An Introduction to Information Retrieval. Online penyunt. Cambrigde: Cambridge University Press. Maryono, Y. & Istiana, B. P., 2008. Teknologi Informasi & Komunikasi. 1 penyunt. Jakarta: Yudhistira Ghalia Indonesia.