BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan media online mendorong munculnya informasi tekstual yang tidak terbatas, sehingga muncul kebutuhan penyajian tanpa mengurangi nilai dari informasi tersebut. Informasi tekstual dikategorikan menjadi dua: fakta dan opini (Bing Liu, 2010). Fakta merupakan ekspresi objektif mengenai suatu entitas, kejadian atau sifat, sedangkan opini adalah ekspresi subjektif yang menggambarkan sentimen seseorang, pendapat atau perasaaan tentang sebuah entitas, kejadian atau sifat. Analisis sentimen yang merupakan bagian dari opinion mining, adalah proses memahami dan mengolah data tekstual secara otomatis untuk mendapatkan informasi (Bo Pang and Lilian Lee, 2008). Dilakukan untuk melihat pendapat terhadap sebuah masalah, atau dapat juga digunakan untuk mengidentifikasi kecenderungan hal di pasar. Besarnya pengaruh dan manfaat dari analisis sentimen, menyebabkan penelitian ataupun aplikasi mengenai analisis sentimen berkembang pesat, bahkan di Amerika kurang lebih 20-30 perusahaan memfokuskan layanannya pada analisis sentimen (Bing Liu, 2010). Pada dasarnya analisis sentimen merupakan klasifikasi, tetapi kenyataannya tidak semudah proses klasifikasi biasa karena terkait penggunaan bahasa, dimana terdapat ambigu dalam penggunaan kata, tidak adanya intonasi dalam sebuah teks, dan perkembangan dari bahasa itu sendiri. Analisis sentimen yang dilakukan pada penelitian kali ini adalah mengenai proses pengklasifikasian data tweet konsumen terhadap produk smartphone kedalam tiga kelas, yaitu kelas sentimen positif, sentimen negatif, dan sentimen netral. Analisis opini berupaya menjawab pertanyaan seperti berapa persentase respon negatif dan positif mengenai produk X?. Perusahaan dan organisasi membutuhkan analisis opini sebagai dasar manajemen merk (brand management), I-1
corporate reputation, rekomendasi sistem marketing, dan intelijen (Amanda Lee Hughes & Leysia Pales, 2009). Merk telah dianggap sebagai salah satu intangible asset yang paling berharga dan manajemen merk adalah prioritas penting bagi pihak manajemen perusahaan dan organisasi (Kevin Lane Keller & Donald R. Lehmann, 2006). Penurunan reputasi perusahaan dapat menyebabkan gangguan terhadap kondisi finansial perusahaan atau bahkan dapat menyebabkan kebangkrutan (Paul A. Argenti & Bob Druckenmiller, 2006). Dalam Tugas Akhir ini, dataset yang digunakan untuk proses sentiment analysis ini berasal dari jejaring sosial Twitter. Langkah ini diambil mengingat media sosial Twitter saat ini merupakan salah satu media sosial yang banyak digunakan untuk mengungkapkan opini mengenai sesuatu hal. Ada dua metode yang akan digunakan pada Tugas Akhir ini, yaitu metode berbasiskan kamus dan metode machine learning. Kedua buah metode ini dipilih untuk dibandingkan performansi dari keduanya. Dari metode berdasarkan kamus, metode yang dipilih adalah Lexicon Based berdasarkan opinion lexicon milik Hu dan Liu. Hu dan Liu telah mengkategorikan hampir 6800 kata yang terbagi menjadi kata positif dan negatif. Untuk metode machine learning, metode yang dipilih adalah Naive Bayes Classifier yang telah di training berdasarkan subjectivity lexicon milik Janyce Wiebe. Hasil sentimen dari lexicon based akan dibandingkan dengan hasil sentiment analysis dari naive bayes classifier untuk mengetahui metode mana yang dapat menghasilkan klasifikasi lebih baik. Penentuan sentimen juga dilakukan menggunakan beberapa skenario terkait penggunaan proses text preprocessing dan feature selection untuk melihat seberapa besar pengaruh ke dua proses tersebut dalam penentuan sentimen pada sebuah opini. Berdasarkan latar belakang pada tugas akhir diatas, penulis tertarik untuk mengangkat tema tugas akhir dengan judul Perbandingan Metode Klasifikasi Naive Bayes Classifier dan Lexicon Based dalam Analisis Sentimen. Pengimplementasian yang digunakan untuk analisis sentimen kali ini adalah dengan menggunakan bahasa pemrograman R. I-2
1.2 Rumusan Masalah Berdasarkan permasalahan yang telah dijelaskan pada bagian latar belakang masalah, maka dapat dirumuskan permasalahan sebagai berikut : 1. Bagaimana pengaruh tahap preprocessing dan feature selection pada performansi Lexicon Based dan Naive Bayes Classifier? 2. Bagaimana unjuk kerja metode Lexicon Based dan Naive Bayes Classifier dalam proses analisis sentimen pada sikap konsumen terhadap produk smartphone? 3. Bagaimana tingkat akurasi metode Lexicon Based pada pembentukan sentimen dibandingkan dengan metode Naive Bayes Classifier? 4. Bagaimana menghitung hasil skor yang dihasilkan oleh metode Lexicon Based dan Naive Bayes Classifier dan membandingkannya dengan skor yang dimiliki ACSI untuk setiap jenis smartphone? 1.3 Tujuan Berdasarkan latar belakang yang telah dikemukakan diatas, tujuan penelitian ini adalah sebagai berikut : 1. Mengetahui pengaruh tahap preprocessing dan feature selection terhadap performansi Lexicon Based dan Naive Bayes Classifier. 2. Melakukan pengklasifikasian terhadap data tweet dengan menggunakan metode Lexicon Based dan Naive Bayes Classifier. 3. Menguji akurasi yang dihasilkan oleh metode Lexicon Based dan membandingkannya dengan metode Naive Bayes Classifier. 4. Mengetahui perbandingan hasil skor yang dihasilkan oleh metode Lexicon Based dan Naive Bayes Classifier dengan skor yang dimiliki ACSI untuk setiap jenis smartphone. I-3
1.4 Batasan Masalah Tanpa mengurangi inti permasalahan, maka permasalahan dibatasi sebagai berikut : 1. Tweet yang digunakan adalah tweet yang berasal dari Twitter dengan hashtag (#) iphone5s dan iphone5c dan telah diklasifikasikan secara manual (berdasarkan logika penulis) terlebih dahulu ke dalam tiga kelas, yaitu positif, negatif, dan netral. 2. Tweet yang merupakan advertisement (iklan) tidak dimasukan dalam kelas manapun (dibuang). 3. Tweet yang menjadi dataset tidak melalui proses subjectivity classification (menentukan kalimat yang merupakan opini atau tidak). 4. Tweet yang digunakan hanya tweet berbahasa Inggris. 5. Tweet berupa teks. 6. Metode yang digunakan adalah berbasiskan kamus (Lexicon-Based) berdasarkan Hu dan Liu opinion lexicon dan Naive Bayes Classifier (NBC) yang telah di training berdasarkan subjectivity lexicon milik Janyce Wiebe. 1.5 Sistematika Penulisan Adapun sistematika pembahasan laporan ini terdiri dari enam bab, yaitu : BAB I BAB II BAB III Pendahuluan. Pada bagian ini akan dibahas mengenai latar belakang masalah, rumusan masalah, tujuan dan manfaat penelitian, batasan masalah dan sistematika penulisan. Landasan Teori. Pada bagian ini akan dibahas mengenai landasan teori yang berkaitan dan digunakan dalam tugas akhir ini. Metodologi. Pada bagian ini akan dibahas mengenai metodologi penelitian yang digunakan dalam tugas akhir ini. I-4
BAB IV BAB V BAB VI Analisis dan Perancangan. Pada bagian ini akan dibahas mengenai kebutuhan-kebutuhan dalam melakukan penelitian. Untuk itu pembahasan ini akan terbagi atas analisis dan perancangan. Implementasi. Pada bagian ini akan dibahas mengenai tahapantahapan apa saja yang dilakukan dalam proses implementasi. Bab ini juga membahas mengenai hasil dari proses implementasi dan analisis. Penutup. Pada bagian ini akan dibahas mengenai kesimpulan dan saran-saran terhadap penelitian yang telah dilakukan. I-5