ANALISIS SENTIMEN PADA DATA ULASAN PRODUK TOKO ONLINE DENGAN METODE MAXIMUM ENTROPY

dokumen-dokumen yang mirip
ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED

BAB III METODELOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB II TINJAUAN PUSTAKA

KLASIFIKASI SENTIMEN ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN NAÏVE BAYES

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

Gambar 1.1 Proses Text Mining [7]

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Analisis Sentimen Menggunakan Lexicalized-Hidden Markov Model(L-HMM)

Text Pre-Processing. M. Ali Fauzi

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB III METODOLOGI PENELITIAN

Bandung, Indonesia Bandung, Indonesia

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN. Dataset

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

BAB I PENDAHULUAN.

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

Optimasi Naïve Bayes Dengan Pemilihan Fitur Dan Pembobotan Gain Ratio

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

BAB II LANDASAN TEORI

OPTIMASI NAÏVE BAYES DENGAN PEMILIHAN FITUR DAN PEMBOBOTAN GAIN RATIO

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB II LANDASAN TEORI

ANALISIS SENTIMEN LEVEL KALIMAT PADA ULASAN PRODUK MENGGUNAKAN BAYESIAN NETWORKS

Analisis Sentimen pada Twitter untuk Mengenai Penggunaan Transportasi Umum Darat Dalam Kota dengan Metode Support Vector Machine

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

Prosiding Statistika ISSN:

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Identifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based

SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB III ANALISA DAN PERANCANGAN SISTEM

KLASIFIKASI TOPIK BERITA MENGGUNAKAN MUTUAL INFORMATION DAN BAYESIAN NETWORK

KLASIFIKASI PADA TEXT MINING

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

BAB II LANDASAN TEORI

Klasifikasi Topik pada Lirik Lagu dengan Metode Multinomial Naïve Bayes

Klasifikasi Sentimen pada Movie Review dengan Metode Multinomial Naïve Bayes

KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

BAB III METODOLOGI PENELITIAN

Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik

SENTIMEN ANALYSIS TERHADAP NILAI KEPERCAYAAN SEBUAH ONLINE SHOP DI INSTAGRAM

Jurnal Evolusi Volume 4 Nomor lppm3.bsi.ac.id/jurnal

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

BAB I PENDAHULUAN Latar Belakang

BAB I.PENDAHULUAN Latar Belakang Masalah Perumusan Masalah

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

Spam Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB II LANDASAN TEORI

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

Penerapan Deep Sentiment Analysis pada Angket Penilaian Terbuka Menggunakan K-Nearest Neighbor

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

ANALISA SENTIMEN MENGGUNAKAN NAÏVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP KENAIKAN HARGA JUAL ROKOK PADA MEDIA SOSIAL TWITTER

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

BAB I PENDAHULUAN. 1.1 Latar Belakang

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Online News Classification Using Multinomial Naive Bayes

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB II LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing

Jurnal Evolusi Volume 4 Nomor lppm3.bsi.ac.id/jurnal

Transkripsi:

ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4632 ANALISIS SENTIMEN PADA DATA ULASAN PRODUK TOKO ONLINE DENGAN METODE MAXIMUM ENTROPY SENTIMENT ANALYSIS ON ONLINE STORE PRODUCT REVIEWS WITH MAXIMUM ENTROPY METHOD Alvi Pranandha Syah 1, Adiwijaya 2, Said Al Faraby 3 1,2,3 Prodi S1 Teknik Informatika, Fakultas Informatika, Universitas Telkom 1 alvipranandha@gmail.com, 2 kang.adiwijaya@gmail.com, 3 said.al.faraby@gmail.com Abstrak Seiring dengan perkembangan dunia internet berpengaruh terhadap proses transaksi jual dan beli yang dimana proses sebelumnya bersifat konvensional berubah ke tingkat modern dengan adanya internet atau bisa disebut dengan e-commerce. Perkembangan e-commerce yang sangat cepat merupakan peluang besar bagi produsen untuk memasarkan produknya dan mempromosikannya kepada konsumen. Salah satu hal yang menjadi perhatian konsumen ketika membeli produk adalah review. Konsumen yang ingin membeli suatu produk tentunya akan melihat dari review tersebut apakah baik atau buruk. Dengan banyaknya review akan menyulitkan konsumen apakah produk tersebut layak untuk dibeli atau tidak. Oleh Karena itu, pada penelitian tugas akhir ini akan membuat suatu sistem yang mampu melakukan klasifikasi review tersebut yang bersifat review positif atau review negatif. Data yang digunakan pada penelitian ini yaitu review produk Amazon yang fokus pada kategori cell phones & accessories. Klasifikasi pada penelitian tugas akhir ini yaitu menggunakan metode maximum entropy dan juga menggunakan metode TF-IDF untuk mendapatkan fitur pada produk di dalam review tersebut. Untuk evaluasi menggunakan nilai presisi, recall dan juga f-1 measure. Hasil percobaan terbaik yaitu akurasi 83% dan f-1 measure 90.074% pada iterasi ke 1000. Kata kunci: amazon, review, tf-idf, maximum entropy, cell phones & accessories. Abstract Along with the development affects the process of buying and selling transactions which where the previous conventional process changed to modern level with the internet or we can call it with e-commerce. The rapid development of e-commerce is a great opportunity for manufacturers to market their product and promote them to consumers. One of the things consumers concern when buying a product is a review. Consumers who want to buy a product will certainly see from the review whether good or bad. With the many reviewers will make it difficult for consumers wheter the product is worth buying or not. Therefore, in this final project will create a system that capable of classifying the review is a positive review or a negative review. The data used in this research is an Amazon product review focusing on the cell phones & accessories category. The classification of this final research is using maximum entropy method and also using TF-IDF method to get feature on the product in the review. For evaluation use precision, recall and F-1 Measure. The best result is 83% in accuracy and 90.074% f1-score on the 1000 th iteration. Keywords: amazon, review, tf-idf, maximum entropy, cell phones & accessories. 1 Pendahuluan Seiring dengan perkembangan dunia internet berpengaruh terhadap proses transaksi jual dan beli yang dimana proses sebelumnya bersifat konvensional berubah ke tingkat modern dengan adanya internet atau bisa disebut dengan e-commerce. Perkembangan e-commerce yang sangat cepat merupakan peluang besar bagi produsen untuk memasarkan produknya dan mempromosikannya kepada konsumen. Di dunia ini banyak sekali e- commerce salah satunya yang terkenal adalah Amazon. Pada website Amazon banyak sekali produk-produk yang

ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4633 dijual mulai dari barang-barang elektronik, produk kesehatan dan kecantikan, produk bayi, dan sebagainya. Pada website Amazon sendiri terdapat review dari para pengguna yang sudah membeli suatu produk untuk memberikan komentarnya terhadap produk tersebut. Dengan adanya kolom review akan menjadi masukkan terhadap pihak Amazon serta para pembeli yang ingin membeli produk tersebut jadi lebih mengetahui sebelumnya berdasarkan review para pengguna. Akan tetapi dengan banyaknya review yang ada terkadang pembeli malas membaca satu per satu kolom ulasan tersebut dan hanya melihat komen-komen teratas dengan berbagai rating yang tinggi. Pada review juga terdapat banyak kata-kata yang menjadi masukkan untuk pihak Amazon atau pihak yang memproduksi barang agar barangnya dapat ditingkatkan lagi kualitasnya. Referensi dari Chris Nicolls dan Fei Song diterbitkan pada tahun 2009, dalam penelitiannya mengenai pemilihan feature set untuk meningkatkan performa dari text classification. Mereka menyubutkan bahwa pemilihan feature set pada sentiment analysis cukup berpengaruh terhadap performa serta menggunakan metode maximum entropy untuk metode pengklasifikasiannya. Hal ini dibuktikan dari penelitian mereka dengan menggunakan metode POS Weighting dengan kombinasi 1, 2, 3, 4, dan 5 untuk kategori noun, verb, adv,, dan adj menunjukkan akurasi sebesar 79.41%. Adapun dataset yang digunakan sebanyak 574 reviews untuk 13 produk yang berbeda dengan perbandingan review positif dan negatif 69.5% : 30.5% [1]. Kemudian Referensi dari Amit Gupte, Sourabh Joshi, Praktik Gadhul dan Akhay Kadam yang diterbitkan pada tahun 2014, pada penelitiannya membahas tentang perbandingan pada algoritma klasifikasi yang digunakan pada analisis sentimen. Adapun algoritma yang diuji yaitu naïve bayes, max entropy, boosted trees dan random forest. Beberapa aspek diuji seperti kesederhanaan, performansi, akurasi, memori yang dibutuhkan, hasil akurasi selama periode tertentu dan waktu yang dibutuhkan untuk mengklasifikasi data training. Metode maximum entropy mempunyai tingkat akurasi yang cukup tinggi. Lalu untuk performansinya masih lebih bagus dibanding dengan metode naïve bayes [2]. Oleh sebab itu pada penelitian tugas akhir ini akan membagi suatu ulasan produk berdasarkan opini positif dan opini negatif pada data ulasan produk Amazon mengklasifikasikannya ke dalam kelas positif atau negatif dengan menggunakan metode dalam penggategorian opini yang disebut dengan sentiment analysis. Sentiment analysis merupakan proses memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan informasi sentimen yang terkandung di dalam suatu kalimat opini [3]. Pada permasalahan diatas peneliti ingin membagi suatu opini kedalam opini positif dan opini negatif pada website Amazon dengan kategori penjualan cell phones & accessories. Menggunakan metode tf-idf sebagai pembobotan fitur. Lalu maximum entropy untuk membangun model classifier. Kemudian akan dilakukan pemisahan label kelas positif dan negatif dengan syarat jika kata tersebut bernilai lebih dari sama dengan 0 maka hasilnya adalah positif dan jika bernilai kurang dari 0 maka hasilnya adalah negatif. 2 Topik yang Berkaitan Topik penelitian ini berkaitan erat dengan data mining khusunya fokus di bagian text mining. Salah satu bagian dari text mining yaitu analisis sentimen. Analisis sentimen merupakan salah satu bagian ilmu dari penambangan teks atau text mining yang dimana fokusnya terhadap perasaaan orang-orang yang biasanya direpresentasikan dalam bentuk tulisan. Ulasan pada suatu produk tersebut dapat ditulis oleh pengguna dimanapun termasuk di sosial media. Pada penulisan opini tersebut terkadang terdapat kecondongan suatu opini tersebut bersifat positif ataupun negatif. Terdapat empat level dalam opinion mining, yaitu [4]: 1. Document level sentiment classification Merupakan level opinion mining yang berfokus untuk menentukan suatu kalimat opini merupakan opini positif atau negatif pada suatu dokumen. 2. Sentence level sentiment classification Merupakan level opinion mining yang berfokus mencari struktur kata yang merupakan opini pada suatu kalimat. Pada tugas akhir ini fokus ke bagian sentimen level kalimat. 3. Feature-based opinion mining and summarization Merupakan level dalam opinion mining yang berfokus untuk menentukan ringkasan berdasarkan orienasi opini dan fitur yang telah ada dan sudah diekstrak dalam opini tersebut. 4. Comparative sentence and relation extraction Merupakan level dalam opinion mining yang berfokus untuk menentukan orientasi opini dalam kalimat yang berisi perbandingan dari dua hal yang berbeda.

ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4634 3 Skema yang Diusulkan 3.1 Gambaran Umum Sistem Sistem yang peneliti bangun merupakan sistem yang mampu mengklasifikasikan sentimen pada ulasan produk secara otomatis menggunakan metode maximum entropy. Proses-proses tersebut digambarkan pada Gambar 3-2. Gambar 3-1 Gambaran umum sistem 3.2 Tahapan Tiap Proses 3.2.1 Data Cleaning Sebelum diproses untuk training, sistem hanya mengambil teks ulasan saja Ilustrasi proses ini dapat dilihat pada Tabel 3-1 dan Tabel 3-2. Tabel 3-1 Ilustrasi input data cleaning {"reviewerid": "APX47D16JOP7H", "asin": "120401325X", "reviewername": "RLH", "helpful": [1, 2], "reviewtext": "These make using the home button easy. My daughter and I both like them. I would purchase them again. Well worth the price.", "overall": 3.0, "summary": "Cute", "unixreviewtime": 1381536000, "reviewtime": "10 12, 2013", "label": "Positive"} Tabel 3-2 Ilustrasi output data cleaning These make using the home button easy. My daughter and I both like them. I would purchase them again. Well worth the price. 3.2.2 Case Folding Sistem akan membuat seluruh huruf pada data menjadi huruf kecil. Ilustrasi proses dapat dilihat pada Tabel 3-3 dan Tabel 3-4. Tabel 3-3 Ilustrasi input case folding These make using the home button easy. My daughter and I both like them. I would purchase them again. Well worth the price. Tabel 3-4 Ilustrasi output case folding these make using the home button easy. my daughter and i both like them. i would purchase them again. well worth the price. 3.2.3 Remove Punctuation Sistem akan menghilangkan tanda baca yang ada di dalam dataset. Ilustrasi proses dapat dilihat pada Tabel 3-5 dan Tabel 3-6. Tabel 3-5 Ilustrasi input remove punctuation

ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4635 these make using the home button easy. my daughter and i both like them. i would purchase them again. well worth the price. Tabel 3-6 Ilustrasi output remove punctuation purchase them again well worth the price 3.2.4 Tokenization Sistem akan mengubah teks yang panjang menjadi kata yang berdiri sendiri-sendiri atau disebut token [5]. Ilustrasi proses dapat dilihat pada Tabel 3-7 dan Tabel 3-8. Tabel 3-7 Ilustrasi input tokenization purchase them again. well worth the price Tabel 3-8 Ilustrasi output tokenization these, make, using, the, home, button, easy my daughter, and, I, both, like, them i, would, purchase, them, again well, worth, the, price 3.2.5 Stopword Removal Sistem akan menjadikan teks menjadi huruf kecil, lalu melakukan proses stop word removal atau penghilangan kata yang sering muncul atau disebut stop word [6]. Ilustrasi proses dapat dilihat pada Tabel 3-9 dan Tabel 3-10. Tabel 3-9 Ilustrasi input stopword removal purchase them again. well worth the price Tabel 3-10 Ilustrasi output stopwords removal these, make, using, the, home, button, easy my daughter, and, I, both, like, them i, would, purchase, them, again well, worth, the, price 3.2.6 Lemmatization Merupakan proses untuk menormalisasi suatu teks/kata. Dengan teknik ini sistem akan mengubah kata berimbuhan menjadi bentuk kata dasarnya [7]. Ilustrasi proses dapat dilihat pada Tabel 3-11 dan Tabel 3-12. Tabel 3-11 Ilustrasi input lemmatization purchase them again. well worth the price Tabel 3-12 Ilustrasi output lemmatization these, make, using, the, home, button, easy my daughter, and, I, both, like, them i, would, purchase, them, again well, worth, the, price

ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4636 3.2.7 Stemming Merupakan proses untuk merubah suatu kata menjadi kata dasarnya. Berikut ini merupakan contoh dari proses stemming yang dapat dilihat pada Tabel 3-13 dan Tabel 3-14. Tabel 3-13 Ilustrasi input stemming purchase them again. well worth the price Tabel 3-14 Ilustrasi output stemming these, make, using, the, home, button, easy my daughter, and, I, both, like, them i, would, purchase, them, again well, worth, the, price 3.2.8 Pembangunan Model Classifier Pembangunan model classifier menggunakan maximum entropy. Untuk mencari nilai maximum entropy digunakan nilai entropy. Rumus dari entropy pada tugas akhir ini adalah untuk penanganan teks yang dapat dilihat sebagai berikut ini: n Entropy (X) = i=1 P(x i ) log 2 P(x i ) (1) Secara definisi metode ini merupakan metode yang digunakan untuk mencari probabilitas distribusi yang dimana probabilitas tersebut mempunyai nilai entropy tinggi [8]. Teknik ini juga merupakan salah satu metode yang menggunakan statistika. Metode ini dapat memodelkan sesuatu dengan informasi terbatas dan prinsipnya hanya memodelkan sesuatu dari informasi yang diketahui saja. Dalam penelitian tugas akhir ini penyusun mendefinisikan bahwa hasil adalah anggota dari suatu himpunan Y dan kondisi yang mempengaruhi hasil tersebut didefinisikan sebagai konteks, dimana konteks ini merupakan anggota dari himpunan X. Himpunan X merupakan kombinasi dari fitur-fitur yang digunakan pada penelitian ini. dari metode maximum entropy adalah probabilitas p(y x) dimana y merupakan anggota dari Y, dan x merupakan kondisi yang mungkin dari himpunan X. Hubungan antara konteks dengan hasil direpresentasikan dalam fungsi fitur f(x,y) dan cp(x) merupakan conditional probabillity yang menghasilkan nilai benar (true) atau salah (false) tergantung pada informasi di konteks. Berikut ini adalah fungsi tersebut [9]: f(x, y) = { 1, jika y = y dan cp(x) = benar (2) 0, selain dari pada itu Pada fungsi tersebut, fungsi fiturnya akan bernilai 1 jika y = y selain dari itu akan bernilai 0. Untuk sejumlah data training dan fitur yang digunakan pada training, dihitung conditional probability untuk suatu keadaan (y x) sebagai berikut [9]: p(y x) = i a i f i (x,y) (3) Z a (x) Dimana nilai Z, sebagai berikut [9]: Z a (x) = f a i (x,y) y i i (4) Nilai Z merupakan nilai normalisasi dari setiap kata yang ada di review tersebut. 3.2.9 Evaluasi Pengukuran performa dari model yang telah dibangun diukur menggunakan nilai f1-score yang diperoleh dari hasil prediksi yang direpresentasikan oleh confusion matrix, dijelaskan pada Tabel 3-15. Tabel 3-15 Confusion matrix Actual positive Actual negative Predicted positive TP FP Predicted negative FN TN Penjelasan Tabel 3-15 adalah sebagai berikut:

Akurasi (F1 Score) % ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4637 TP yaitu true positive, ketika stem memprediksi positive dan nilai kelas sebenarnya yaitu positive. TN yaitu true negative, ketika sistem memprediksi negative dan nilai kelas sebenarnya yaitu negative. FP yaitu false negative, ketika sistem memprediksi positive sedangkan nilai kelas sebenarnya bernilai negative. FN yaitu false negative, ketika sistem memprediksi negative sedangkan nilai kelas sebenarnya bernilai positive. Perhitungan nilai accuracy adalah sebagai berikut. accuracy = TP+TN TP+TN+FP+FN (5) Selanjutnya perhitungan F1-Score adalah sebagai berikut. F 1 = 2 precision recall precision+recall (6) Sedangkan untuk mendapatkan nilai precision dan recall adalah sebagai berikut. Precision = Recall = TP TP+FP TP TP+FN (7) (8) 4 Analisis Hasil Pengujian Proses klasifikasi yang dilakukan menggunakan metode maximum entropy dilakukan untuk mengklasifikasikan ulasan produk secara otomatis ke orientasi sentimen positif atau negatif. Untuk mendapatkan hasil yang optimal maka dibangun skema pengujian yang dapat menghasilkan performa klasifikasi yang baik. Untuk mencapai hal itu peneliti meelakukan 4 skema pengujian untuk mendapatkan performa klasifikasi yang baik. Semua skema pengujian akan diukur performanya menggunakan accuracy dan f1-score. Terdapat 4 pengujian yang dilakukan yaitu pengaruh nilai terasi terhadap evaluasi, stopwords vs non stopwords, perbandingan algoritma stemming dan stemming vs lemmatization. Gambar 4-1 sampai 4-4 merupakan grafik hasil pengujian yang dilakukan peneliti dengan menampilkan akurasi dan f1-score. 100.000 90.000 80.000 70.000 60.000 50.000 40.000 30.000 20.000 10.000 0.000 Akurasi F1-Score Iterasi 1000 78.833 88.145 Iterasi 5000 81.333 89.181 Iterasi 10000 83.000 90.074 Gambar 4-1 Hasil evaluasi pada pengujian maximum entropy Pada gambar 4.1 terjadi pengujian iterasi dengan menggunakan stemming. Pengujian dilakukan dengan tiga kali iterasi yaitu iterasi 1000, 5000 dan 10000. Pengujian ini dilakukan untuk mengetahui seberapa besar pengaruh banyaknya iterasi terhadap hasil evaluasi. Hal ini dapat dilihat bahwa semakin tinggi nilai iterasi maka akan

Akurasi (F1 Score) % Akurasi (F1 Score) % ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4638 menghasilkan akurasi dan f1-score yang tinggi. Perubahan iterasi dari 1000 ke 10000 mempunyai kenaikan kurang lebih 5% pada bagian akurasi. Dan pada bagian fi-score mempunyai kenaikan sebesar kurang lebih 2%. 100.000 90.000 80.000 70.000 60.000 50.000 40.000 30.000 20.000 10.000 0.000 Stopwords Non Stopwords Akurasi 78.167 78.000 F1-Score 87.810 87.726 Gambar 4-2 Hasil evaluasi stopwords vs non stopwords Berdasarkan Gambar 4-2 terdapat grafik perbandingan antara penggunaan stopwords dengan tidak menggunakan stopwords. Pada pengujian tersebut dilakukan pengujian iterasi sebesar 1000 kali karena dianggap iterasi yang ideal untuk diujikan pada penelitian kali ini. Pada grafik tersebut dibandingkan akurasi dan f1-score pada penggunaan stopwords dan non stopwords. Hasilnya dapat dilihat bahwa penggunaan stopwords mempunyai perbedaan akurasi yang lebih tinggi dari non stopwords dengan rentang 0.167%. Dan pada nilai f1-score terjadi perbedaan dengan rentang 0.084%. Pengunaan stopwords cukup bagus untuk meningkatkan akurasi dan f-1 score dikarenakan pada stopwords membuang kata-kata yang dianggap tidak penting pada analisis sentimen sehingga kata seperti as, am are, the dll akan dihilangkan karena tidak terlalu berpengaruh pada analisis sentimen. Fokus dari analisis sentimen yaitu pada kata verb dan juga adjective untuk menjadi penilaian bahwa kata tersebut bersifat positif atau negatif yang selanjutnya akan dihitung pada suatu kalimat dan menjadikannya kalimat tersebut berorientasi positif atau negatif. 100.000 90.000 80.000 70.000 60.000 50.000 40.000 30.000 20.000 10.000 0.000 Isri Stemmer Porter Stemmer Lancaster Stemmer Gambar 4-3 Hasil evaluasi perbandingan algoritma stemming Snowball Stemmer Akurasi 78.333 78.667 78.833 78.833 F1-Score 87.893 88.061 88.123 88.145 Berdasarkan Gambar 4-3 terdapat grafik perbandingan antara algoritma stemming yang ada di dalam library python. Diambil sampel empat algoritma tersebut sebagai perbandingan dikarenakan empat algoritma tersebut cukup popular digunakan dalam beberapa penelitian yang melibatkan penggunaan stemming. Iterasinya sama yaitu

Akurasi (F1 Score) % ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4639 sebanyak 1000 kali dilakukan percobaan. Berdasarkan dari hasil akurasi yang didapat bahwasanya akurasi pada snowball stemmer dan lancaster stemmer memiliki nilai yang sama dan tinggi diantara kedua stemming lainnya dengan nilai sebesar 78.833%. Sedangkan pada bagian f1-score nilai tertinggi terdapat pada snowball stemmer dengan nilai 88.145%. Dengan perbandingan keempat algoritma stemming tersebut penulis mengambil kesimpulan bahwa penggunaan snowball stemmer cukup bagus diterapkan pada penelitian kali ini dikarenakan memiliki tingkat akurasi dan f1-score yang cukup baik diantara ketiga stemmer lainnya. Snowball stemmer sendiri dianggap sebagai perbaikan stemmer dari porter stemmer. Porter stemmer sendiri juga melihat bahwa snowball stemmer memiliki waktu komputasi yang lebih cepat dibandingkan porter stemmer. Jadi penggunaan algoritma snowball stemmer memiliki tingkat akurasi dan f1-score yang cukup bagus diantara ketiga algoritma stemmer lainnya. Gambar 4-4 Hasil evaluasi stemming vs lemmatization Berdasarkan Gambar 4-4 dapat dilihat grafik perbandingan antara penggunaan stemming dan lemmatization. Iterasi yang digunakan yaitu sama dengan pengujian sebelumnya sebanyak 1000 kali karena dianggap sebagai pengujian yang ideal. Berdasarkan hasil akurasi dan f1-score dapat dilihat bahwa penggunaan stemming memiliki akurasi yang baik dibandingkan penggunaan lemmatization. Pada bagian akurasi stemming memiliki keunggulan sebesar 0.666% sedangkan pada bagian f1-score memiliki keunggulan sebesar 0.335%. Penggunaan stemming lebih bagus dikarenakan stemmer lebih simpel, lebih kecil dan biasanya lebih cepat dari pada menggunakan lemmatization. Lebih simpel disini dikarenakan stemming memotong akhir kata, dan sering juga membuang imbuhan. Sementara lemma memperhatikan kamus kata dan analisis morfologi dan menghasilkan kata dasar. Kemudian dengan memotong akhir kata pada stemming akan meningkatkan nilai presisi dan recall yang akan meningkatkan nilai f1-score juga [10]. 5 Kesimpulan Berdasarkan hasil pengujian dan analisis yang telah dilakukan sebelumnya, maka dapat diambil kesimpulan sebagai berikut: 1. Sistem yang dibangun dengan menggunakan metode maximum entropy cukup baik digunakan pada kasus ini dengan mengklasifikasikan ke dalam opini positif dan opini negatif dengan akurasi terbaik 83% dan f-1 score 90.074% pada iterasi 10000. 2. Semakin banyak nilai iterasi maka akan menghasilkan akurasi yang cukup tinggi serta f-1 score yang cukup tinggi. 3. Pengunaan stopwords sangat berpengaruh dalam peningkatan hasil evaluasi sistem yaitu sebsar 78.167% akurasi dan 87.810% f1-score. 4. Penggunaan stemming cukup baik dibandingkan dengan lemma pada penelitian ini dengan menghasilkan akurasi sebesar 78.833% dan 88.145% pada nilai f1-score. Daftar Pustaka 100.000 90.000 80.000 70.000 60.000 50.000 40.000 30.000 20.000 10.000 0.000 Stemming Lemmatization Akurasi 78.833 78.167 F1-Score 88.145 87.810

ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4640 [1] C. Nicholls and F. Song, "Improving Sentiment Analysis with Part Of Speech Weighting," in Eighth International Conference on Machine Learning and Cybernetics, Baoding, 2009. [2] A. Gupte, "Comparative Study of Classification Algorithms used in Sentiment Analysis," International Journal of Computer Schience and Information Technologies, vol. 5, no. 5, pp. 6261-6264, 2014. [3] M. A. Imtiyazi, "Sentiment Analysis Berbahasa Indonesia Menggunakan Improved Multinomial Naive Bayes," 2015. [4] B. Liu, in Sentiment Analysis & Opinion Mining, Morgan & Claypool, 2012. [5] G. Grefenstette, Syntactic Wordclass Tagging, Springer Netherlands, 1999. [6] A. Rajaraman, J. Leskovec dan J. D. Ullman, Mining of Massive Datasets, 2014. [7] B. Jongejan dan H. Dalianis, Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike, dalam Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, Suntec, 2009. [8] T. Ahmad, "Identifikasi Pelanggaran Pengguna Listrik Rumah Tangga pada PT PLN Dsitribusi Jawa Barat dan Banten UPJ Bandung Utara Menggunakan Metode Naive Bayes dan Metode Maximum Entropy," 2011. [9] S. Wardoyo, "Opinion Summarization Fitur Produk Elektronik pada Amazon.com dengan Metode Maximum Entropy," 2012. [10] M. Nogwina, "Development of a Stemmer for the IsiXhosa Language," 2015. [11] Adiwijaya, Aplikasi Matriks dan Ruang Vektor, Yogyakarta: Graha Ilmu, 2014. [12] Adiwijaya, Matematika Diskrit dan Aplikasinya, Bandung: Alfabeta, 2016. [13] A. M. A. MS Mubarok, "Aspect-based sentiment analysis to review products using Naive Bayes," in AIP Conference Proceedings 1867, 020060, 2017. [14] A. M. M. a. A. Arifin, "Learning Struktur Bayesian Networks menggunakan Novel Modified Binary Differential Evolution pada Klasifikasi Data," in Indonesia Symposium on Computing (IndoSC) 2016, 2016. [15] R. M. M. a. A. Aziz, "Klasifikasi Topik pada Lirik Lagu dengan Metode Multinomial Naive Bayes," Indonesia Symposium on Computing (IndoSC) 2016, 2016.