BAB I PENDAHULUAN 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

3.1 Desain Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN.

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang. Mikroblog adalah salah satu bentuk blog yang memungkinkan

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

JURNAL SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER SENTIMENT ANALYSIS POLITICAL LEADERS IN TWITTER

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Pemilihan presiden merupakan momen penting bagi setiap negara, salah satunya

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

ANALISIS SENTIMEN JASA EKSPEDISI BARANG MENGGUNAKAN METODE NAÏVE BAYES

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

1. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB I PENDAHULUAN. Pada zaman sekarang ini bagi sebagian masyarakat kendaraan bermotor

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 ANALISIS KEBUTUHAN IMPLEMENTASI ALGORITMA

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 3 LANDASAN TEORI

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN 1.1 Latar Belakang

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER

BAB I PENDAHULUAN. Pada bagian awal penelitian ini dipaparkan secara lengkap latar belakang,

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. menggunakan teknologi yang disebut dengan internet. Hal ini, secara tidak

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB 2 LANDASAN TEORI

BAB II LANDASAN TEORI

ANALISIS SENTIMEN TERHADAP OPINI PUBLIK MELALUI JEJARING SOSIAL TWITTER MENGGUNAKAN METODE NAIVE BAYES Alfarizy M. G. ( )

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Agus Soepriadi, 2 Meta Permata. Jurusan Teknik Informatika, STMIK Bandung, Bandung, Indonesia

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB IV HASIL DAN PEMBAHASAN

BAB III METODOLOGI PENELITIAN

TEXT MINING DALAM ANALISIS SENTIMEN ASURANSI MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER

SENTIPOL: Dataset Sentimen Komentar Pada Kampanye PEMILU Presiden Indonesia 2014 Dari Facebook Page

BAB III METODOLOGI PENELITIAN

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

BAB I PENDAHULUAN 1.1 Latar Belakang

Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes

BAB 3 LANDASAN TEORI

BAB IV PREPROCESSING DATA MINING

ANALISIS SENTIMEN PADA JASA OJEK ONLINE MENGGUNAKAN METODE NAÏVE BAYES

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB 3. METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) UNTUK ANALISA SENTIMEN PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR

BAB 3 METODE PENELITIAN

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan informasi sentimen yang terkandung dalam suatu kalimat opini secara otomatis (Rozi, dkk., 2012). Analisis sentimen memungkinkan untuk melacak produk, merek, maupun orang yang menentukan apakah hal tersebut dilihat sebagai suatu hal positif, negatif, atau netral. Hal ini memungkinkan bisnis untuk melacak persepsi produk baru, persepsi merek, manajemen reputasi, dan sebuah pandangan tentang suatu opini pada skala global. Penelitian di bidang analisis sentimen dari suatu data merupakan hal yang penting dan dibutuhkan di era big data seperti saat ini. Sentimen positif menyatakan pemberian nilai yang baik, sentimen negatif menyatakan pemberian nilai yang buruk pada konteks dalam bentuk teks, sedangkan sentimen netral menyatakan pemberian nilai yang tidak berpihak pada baik maupun buruk dan biasanya kalimat dengan sentimen ini tidak mengandung opini di dalamnya. Analisis sentimen dapat diaplikasikan pada perusahaan yang mengeluarkan suatu produk dan menyediakan layanan untuk menerima pendapat (feedback) dari konsumen untuk produk tersebut. Analisis sentimen diaplikasikan untuk mengelompokkan feedback positif, negatif, dan netral dari konsumen sehingga mempercepat dan mempermudah tugas perusahaan untuk meninjau kembali kekurangan produk mereka. Apabila ditemukan adanya sentimen negatif, maka perusahaan dapat dengan cepat mengambil tindakan untuk menanggulanginya. Sebaliknya, jika sentimen positif yang lebih dominan, perusahaan dapat meningkatkan produksi dan distribusi produk. Salah satu perusahaan yang memerlukan adalah provider telekomunikasi seperti Telkomsel, Indosat Oredoo, dan XL Axiata. 1

Banyaknya jumlah pengguna dari provider telekomunikasi membuat perusahaan tersebut harus menyediakan layanan berupa feedback untuk penggunanya agar memudahkan dalam meninjau kembali produknya. Mengingat ketatnya persaingan antara provider satu dengan provider lainnya membuat perusahaan tersebut harus mempertahankan promo yang disukai oleh pelanggan dan mengganti atau memperbaiki promo dan layanan yang tidak disukai dengan cepat dan tepat. Salah satu media yang digunakan sebagai layanan feedback adalah Twitter. Twitter menurut statistiknya adalah jejaring sosial dengan pertumbuhan tercepat sejak tahun 2006. Jejaring sosial yang dibatasi 140 karakter ini mengirim 250 juta tweet tiap harinya. Menurut MIT Technology Review (2013), Indonesia menempati Negara ketiga penyumbang tweet terbanyak dengan jumlah 1 milyar tweet, di bawah Amerika Serikat (3,7 milyar) dan Jepang (1,8 milyar). Jakarta menjadi Twitter Capital City yaitu kota dengan jumlah tweet terbanyak dan teraktif di dunia. Analisis sentimen berguna untuk menganalisis komentar-komentar di Twitter menjadi pengetahuan yang lebih bermakna. Sehingga pengetahuan tersebut dapat dimanfaatkan oleh perusahaan salah satunya adalah provider telekomunikasi dalam memantau penerimaan produk mereka di masyarakat. Beberapa metode yang pernah digunakan pada analisis sentimen adalah Entropy Weighted Genetic Algorithm dan SVM Weight. EWGA menunjukkan performansi yang lebih baik dari SVM Weight (Ahmed dkk, 2007). Selain itu, terdapat Structural Correspondence Learning (SCL), SCLMI dan Baseline, dengan hasil SCL-MI menunjukkan performansi yang lebih baik untuk adaptasi domain (Blitzer dkk, 2007). Pada penelitian Saraswati (2011), dalam mengklasifikasikan opini dalam bentuk paragraf yang terdiri dari beberapa kalimat menggunakan metode Support Vector Machine dan Naïve Bayes Classifier memberikan hasil yang tepat. Namun, metode Support Vector Machine memiliki kelemahan dalam waktu pemrosesan yang cukup lama untuk data yang besar. Sehingga dalam penelitian ini digunakan metode Naïve Bayes Classifier (NBC). 2

Metode Naïve Bayes Classifier dipilih karena metode ini sederhana atau mudah diaplikasikan, memiliki proses komputasi yang cepat, dan akurasi yang tinggi (Korde & Mahender, 2012). Metode Naïve Bayes Classifier untuk klasifikasi atau kategorisasi teks menggunakan fitur n-gram kata yang muncul dalam suatu dokumen sebagai dasar klasifikasinya. Rish (2001) menunjukkan bahwa meskipun asumsi independensi antar kata dalam dokumen tidak sepenuhnya dapat dipenuhi, tetapi kinerja Naïve Bayes Classifier dalam klasifikasi relatif sangat bagus. Berdasarkan hasil eksperimen, Naïve Bayes Classifier terbukti dapat digunakan secara efektif untuk mengklasifikasikan berita secara otomatis dengan akurasi mencapai 90.23% (Wibisono, 2005). Sedangkan untuk penelitian di bidang analisis sentimen dengan objek provider telekomunikasi pernah dilakukan oleh Boy Utomo Manalu (2014). Namun, pada penelitian tersebut belum menggunakan seleksi fitur sehingga didapatkan hasil akurasi 88% dengan jumlah data training masing-masing 1000 data untuk sentimen positif, negatif, dan netral. Tahap pre-processing dalam penelitian ini akan menemukan banyaknya fitur yang diambil dari data Twitter. Fitur tersebut terdiri dari puluhan atau ratusan term unik yang tidak saling berhubungan. Permasalahan yang muncul akibat banyaknya fitur adalah dapat mengurangi kinerja dari klasifikasi. Untuk mengatasi permasalahan tersebut, fitur yang di ekstrak harus di filter sebelum memasuki tahap klasifikasi untuk mendapatkan fitur yang paling relevan dan yang terbaik untuk mewakili dokumen. Oleh sebab itu, diperlukan suatu metode untuk memilih fitur penting yang mewakili dokumen dan dapat mengurangi dimensi ruang fitur karena dapat meningkatkan kinerja klasifikasi. Seleksi fitur adalah proses pemilihan sebuah subset term yang muncul dalam himpunan training. Mutual Information adalah salah satu metode seleksi fitur yang menggunakan informasi kelas dalam data latih, sehingga untuk menggunakan seleksi fitur ini harus tersedia sebuah set pre-classied. Mutual Information digunakan sebagai seleksi fitur dalam penelitian ini karena fungsinya yang cocok untuk menilai term dari isi informasi dalam proses klasifikasi. Hal tersebut disebabkan karena Mutual Information dapat 3

mengukur dependensi acak antar variabel (Battiti, 1994). Penelitian dalam bidang klasifikasi sentimen menggunakan seleksi fitur Mutual Information pernah dilakukan sebelumnya oleh Narayanan. Hasil penelitian menunjukkan bahwa adanya peningkatan akurasi dari 73,77% untuk penggunaan algoritma Naïve Bayes dengan Laplacian Smoothing menjadi 88,80% setelah ditambahkannya seleksi fitur pada algoritma Naïve Bayes (Narayanan dkk., TT). Oleh sebab itu, pada penelitian ini akan diterapkan Mutual Information untuk penyeleksian fitur sebelum diklasifikasi dengan Naïve Bayes Classifier sehingga diharapkan hasil analisis sentimen menjadi lebih akurat. 1.2 Rumusan Masalah Berdasarkan latar belakang di atas, maka dapat dirumuskan beberapa permasalahan sebagai berikut. 1) Bagaimana pengaruh seleksi fitur Mutual Information dalam upaya meningkatkan akurasi dari analisis sentimen dengan Naïve Bayes Classifier? 2) Bagaimana akurasi yang dihasilkan dalam analisis sentimen setelah penambahan seleksi fitur Mutual Information pada metode Naïve Bayes Classifier? 1.3 Batasan Masalah Adapun batasan masalah dalam penelitian ini adalah : 1) Pada penelitian ini dataset yang digunakan adalah tweet yang ditujukan kepada provider telekomunikasi di Indonesia. Tweet tersebut mengandung @ (mention) dan # (hastag) yang diikuti dengan nama provider antara lain, #telkomsel, @simpati, #AS, @indosat, dan lain-lain. 2) Proses stopword hanya berlaku pada kata-kata berbahasa Indonesia saja. 3) Menggunakan metode n-gram kata dengan jumlah n =1, 2, 3, 4 sebagai fitur. 4

1.4 Tujuan Penelitian Adapun tujuan dalam penelitian ini adalah : 1) Untuk mengetahui pengaruh seleksi fitur Mutual Information dalam upaya meningkatkan akurasi dari analisis sentimen dengan Naïve Bayes Classifier. 2) Untuk mengetahui akurasi yang dihasilkan dalam analisis sentimen setelah penambahan seleksi fitur Mutual Information pada metode Naïve Bayes Classifier. 1.5 Manfaat Penelitian Adapun manfaat dalam penelitian ini adalah : 1) Sebagai landasan untuk penelitian selanjutnya yang ingin mengembangkan penelitian mengenai analisis sentimen. 2) Sebagai bahan referensi untuk perusahaan provider telekomunikasi yang ingin memanfaatkan hasil penelitian untuk mendapatkan feedback dengan mudah tanpa menggunakan cara manual atau mendata opini masyarakat satu persatu. 3) Hasil penelitian ini dapat digunakan oleh pihak produsen yaitu pihak perusahaan provider telekomunikasi dalam memantau penerimaan produk dan layanan mereka di masyarakat secara real time. Sehingga berdampak pula pada investasi saham dari perusahaan tersebut untuk menentukan kapan terjadinya aktivitas jual dan beli saham terhadap akumulasi hasil sentimen dari data Twitter melalui sistem ini. 1.6 Metodologi Penelitian Pada bagian metode penelitian menjelaskan langkah-langkah yang dilakukan untuk menerapkan seleksi fitur Mutual Information dalam metode Naïve Bayes Classifier pada sentimen analisis provider telekomunikasi. Adapun sub bahasan langkah-langkah yang akan dijadikan pedoman dalam penelitian ini adalah desain penelitian, pengumpulan data, pengolahan data awal, dan metode yang digunakan. 5

1.6.1 Desain Penelitian Penelitian ini tergolong ke dalam penelitian eksperimental. Objek dalam penelitian ini yaitu sentimen dari tweet pengguna provider telekomunikasi. Sedangkan metode yang digunakan adalah Naïve Bayes Classifier dengan seleksi fitur Mutual Information. Penelitian diawali dengan mengumpulkan data tweet pada Twitter. Setelah data dikumpulkan kemudian data tersebut disimpan ke dalam database. Selanjutnya tahap pre-processing (tolowercase, penghapusan URL, @mention, #hashtag, tokenisasi, dan menghapus stopword). Tahap penyeleksian fitur dengan seleksi fitur Mutual Information, klasifikasi menggunakan metode Naïve Bayes Classifier. Kemudian hasil dari metode di uji tingkat akurasi dan kecepatan pemrosesannya. 1.6.2 Pengumpulan Data Data yang digunakan pada penelitian ini adalah data primer yaitu tweet yang ditujukan kepada provider telekomunikasi di Indonesia dari sosial media Twitter. Pengumpulan data menggunakan Twitter Search API dengan memasukkan keyword-keyword yang berhubungan dengan Provider Telekomunikasi yang dikombinasikan dengan kata-kata sentimen. Langkah dalam mengumpulkan data mengikuti penelitian sebelumnya yaitu menggunakan emoticon dan kata sentimen yang digabungkan dengan nama provider telekomunikasi (Manalu, 2014). Dalam penelitian ini, data terdiri dari 2 bagian yaitu data tweet dan data stopword. 1.6.3 Pengolahan Data Awal Teks dokumen yang telah dimasukkan ke dalam database dirubah semua karakter huruf menjadi huruf kecil melalui proses tolowercase. Kemudian dilakukan penghapusan URL, seperti @mention dan #hashtag yang ada pada tweet tersebut. Tokenisasi (pemotongan string input berdasarkan kata yang menyusunnya) dan menghapus stopword (kata-kata yang tidak berpengaruh terhadap proses klasifikasi). Dalam penelitian ini sistem mempunyai 2 tahapan proses pengolahan data yaitu tahap pembelajaran (training) dan tahap pengujian (testing). 6

Tujuan dari tahap pembelajaran adalah untuk mencari n-gram kata beserta frekuensinya yang nantinya akan digunakan pada proses testing. Sedangkan untuk tahap pengujian bertujuan untuk mengklasifikasikan tweet yang belum diketahui kategorinya. 1.6.4 Metode yang Digunakan Tahap seleksi fitur menggunakan metode Mutual Information. Seleksi fitur adalah proses pemilihan sebuah subset term yang muncul dalam himpunan training. Penggunaan seleksi fitur bermanfaat agar metode pengklasifikasian lebih efisien dengan mengurangi ukuran vocabulary. Selain itu, dapat meningkatkan akurasi klasifikasi dengan membuang fitur yang noise. Sedangkan pada tahap klasifikasi menggunakan Naïve Bayes Classifier yaitu suatu metode klasifikasi yang menggunakan perhitungan probabilitas. Dalam penelitian ini yang menjadi data uji adalah dokumen tweet. Dalam algoritma Naïve Bayes Classifier setiap dokumen direpresentasikan dengan pasangan atribut x1, x2, x3, xn dimana x1 adalah kata pertama, x2 adalah kata kedua dan seterusnya. Sedangkan V adalah himpunan kategori tweet. Pada saat klasifikasi algoritma akan mencari probabilitas tertinggi dari semua kategori dokumen yang diujikan (Vj). 7