BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 2.1 Analisis Sentimen Opinion Mining atau analisis sentimen merupakan salah satu bidang dari ilmu komputer yang mempelajari komputasi linguistik, pengolahan bahasa alami, dan text mining yang bertujuan untuk menganalisa emosi, penilaian, sikap, pendapat, sentimen, evaluasi seseorang terhadap seorang pembicara atau penulis berkenaan dengan suatu produk, layanan, organisasi, individu, tokoh publik, topik, acara, ataupun kegiatan tertentu (Liu, 2012). Proses utama dalam analisis sentimen yaitu mengelompokkan teks yang terdapat dalam sebuah kalimat atau dokumen kemudian menentukan pendapat yang dikemukakan tersebut apakah bersifat positif, negatif, atau netral. Analisis sentimen dapat digunakan untuk mencari pendapat tentang produk, merek atau tokoh publik dan menentukan apakah mereka dilihat positif atau negatif (Saraswati, 2011). Hal ini memungkinkan pengguna untuk mencari informasi tentang: 1) Deteksi Flame (rants buruk), 2) Persepsi produk baru, 3) Persepsi merek, 4) Manajemen reputasi. Sentimen atau opini mengacu pada fokus topik tertentu, pernyataan pada satu topik mungkin akan berbeda makna dengan pernyataan yang sama pada subject yang berbeda. Alasan tersebut menyebabkan beberapa penelitian terutama pada review produk didahului dengan menentukan elemen dari sebuah produk yang sedang dibicarakan sebelum memulai proses opinion mining (Manalu, 2014). 2.2 Naïve Bayes Classifier Naïve Bayes Classifier adalah salah satu metode klasifikasi yang berakar pada teorema Bayes. Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yang sangat kuat (naif) terhadap tingkat independensi dari masing-masing kondisi atau kejadian. Terdapat dua tahap klasifikasi dokumen tweet pada penelitian ini. Tahap pertama adalah proses training terhadap dokumen yang 8

sudah diketahui kategorinya. Sedangkan tahap kedua adalah proses testing yaitu mengklasifikasikan dokumen yang belum diketahui kategorinya. Dalam algoritma Naïve Bayes Classifier setiap dokumen direpresentasikan dengan pasangan atribut x1, x2, x3, xn dimana x1 adalah kata pertama, x2 adalah kata kedua dan seterusnya. Sedangkan V adalah himpunan kategori tweet sebagai berikut: P(V x 1,, x n ) = P(V)P(x 1,,x n V) P(x 1,,x n ) Dimana variabel V merepresentasikan kelas, sementara variabel x 1,, x n merepresentasikan karakteristik-karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel dengan karakteristik tertentu dalam kelas V (posterior) adalah peluang munculnya kelas V (sebelum masuknya sampel tersebut, disebut prior), dikali dengan peluang kemunculan karakteristikkarakteristik sampel pada kelas V (likelihood), dibagi dengan peluang kemunculan karakteristik-karakteristik sampel secara global (evidence). Nilai evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari posterior tersebut yang nantinya akan dibandingkan dengan nilai-nilai posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan. Penjabaran lebih lanjut rumus Naïve Bayes Classifier dapat dilakukan dengan menjabarkan perkalian, menjadi sebagai berikut: P(x 1,, x n V) = P(x 1 V) P(x 2,, x n V, x 1 ) (1) P(x 1,, x n V) menggunakan aturan = P(x 1 V)P(x 2 V, x 1 )P(x 3,, x n V, x n V, x 1, x 2 ) = P(x 1 V)P(x 2 V, x 1 ) P(x n V, x 1, x 2, x n 1 ) (2) Hasil penjabaran persamaan (2) memperlihatkan semakin banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai probabilitas, sehingga menjadi rumit untuk dianalisa satu-persatu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah digunakan asumsi independensi yang sangat tinggi (naif), bahwa masing-masing fitur (x 1, x 2,, x n ) saling bebas (independent) satu sama lain. Dengan asumsi tersebut, maka berlaku suatu kesamaan sebagai berikut: 9

P(x i x j ) = P(x i x j ) P(x j ) untuk i j, sehingga persamaan (3) menjadi = P(x i ) (3) P(x i V, x j ) = P(x i V) (4) Dari persamaan (4) dapat disimpulkan bahwa asumsi independensi naif tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran P(x 1,, x n V) dapat disederhanakan menjadi seperti berikut : P(x 1,, x n V) = P(x 1 V)P(x 2 V) P(x n V)P(x 1,, x n V) (5) n P(x 1,, x n V) = i=1 P(x i V) (6) Dari persamaan (6), persamaan (1) Naïve Bayes Classifier dapat dituliskan sebagai berikut : P(V x 1,, x n ) = P(V) n i=1 P(x i V) P(x 1, x 2, x n ) Persamaan (7) merupakan model dari teorema Naïve Bayes Classifier yang selanjutnya akan digunakan dalam proses klasifikasi dokumen tweet (Dharmawan, 2014). Pada saat klasifikasi algoritma akan mencari probabilitas tertinggi dari semua kategori dokumen yang diujikan, dimana persamaan (7) menjadi sebagai berikut : P(V j x 1,, x n ) = argmax P(V j ) n i=1 P(x i V j ) V P(x 1, x 2, x n ) j V Adapun V j adalah kategori tweet dimana dalam penelitian ini j1 = kategori tweet sentimen negatif, j2 = kategori tweet sentimen positif, dan j3 = kategori tweet sentimen netral. Sedangkan P(x 1, x 2, x n ) merepresentasikan evidence yang nilainya konstan untuk semua kelas pada satu sampel. Penjabaran dari evidence tersebut yaitu : P(x 1, x 2, x 3, x n ) = P(x 1 x 2 x 3 x n ) = P(x 1 + x 2 + x 3 + + x n ) = P(x 1 ) + P(x 2 ) + P(x 3 ) + + P(x n ) n = i=1 P(x i ) = 1 (7) (8) 10

Sehingga persamaan (8) dapat disederhanakan menjadi sebagai berikut : Keterangan : Vj P(xi Vj) P(Vj) argmax V j V n i=1 P(V j x 1,, x n ) = P(V j ) P(x i V j ) = Kategori tweet j = 1, 2, 3, n. Dimana dalam penelitian ini j1 = kategori tweet sentimen negatif, j2 = kategori tweet sentimen positif, dan j3 = kategori tweet sentimen netral = Probabilitas xi pada kategori Vj = Probabilitas dari Vj (9) Untuk P(Vj) dan P(xi Vj) persamaannya adalah sebagai berikut : P(Vj) = P(xi Vj) = Keterangan : docs j all docs n k +1 n+ kosakata docs j = jumlah dokumen setiap kategori j all docs = jumlah dokumen dari semua kategori nk n (10) (11) = jumlah frekuensi kemunculan setiap n-gram kata = jumlah frekuensi kemunculan n-gram kata dari setiap kategori kosakata = jumlah semua n-gram kata dari semua kategori 2.3 Seleksi Fitur Mutual Information Tahap seleksi fitur (feature selection) bertujuan untuk mengurangi dimensi suatu kumpulan teks dengan cara menghapus kata-kata yang dianggap tidak penting sehingga proses pengklasifikasian lebih efektif dan akurat (Feldman & Sanger, 2007, Blitzer & Kogan, 2010). Selain itu, menurut Manning et al (2009) seleksi fitur biasanya dapat meningkatkan akurasi klasifikasi dengan menghilangkan fitur noise. Seleksi fitur secara umum dibagi menjadi dua metode, yaitu unsupervised feature selection dan supervised feature selection. Unsupervised feature selection adalah sebuah metode seleksi fitur yang tidak 11

mengutamakan informasi kelas dalam data pelatihan ketika memilih fitur untuk classifier, salah satu contohnya adalah IDF. Supervised feature selection adalah metode seleksi fitur yang menggunakan informasi kelas dalam data latih, sehingga untuk menggunakan seleksi fitur ini harus tersedia sebuah set pre-classied (Garnes, 2009). Mutual Information adalah contoh dari supervised feature selection. Fitur seleksi ini sering digunakan untuk menghitung bobot dari fitur. Mutual Information menunjukkan seberapa banyak informasi ada atau tidaknya sebuah term memberikan kontribusi dalam membuat keputusan klasifikasi secara benar atau salah. Nilai dari Mutual Information disimbolkan dengan notasi I, yakni I(U;C) = et {1,0} ec {1,0} P(U = et, C = ec)log 2 P(U=et,C=ec) P(U=et)P(C=ec) (12) Sedangkan U adalah variabel acak dengan nilai-nilai et = 1 (dokumen berisi term t) dan et = 0 (dokumen tidak mengandung t), dan C adalah variabel acak dengan nilai-nilai ec = 1 (dokumen di kelas c) dan ec = 0 (dokumen tidak di kelas c). Nilai dari I juga bisa dijabarkan menjadi I(U;C) = N 11 log NN 11 N 2 + N 01 log NN 01 N 1 N 1 N 2 + N 10 log NN 10 N 0 N 1 N 2 + N 00 log NN 00 N 1 N 0 N 2 (13) N 0 N 0 dengan N adalah jumlah dokumen yang memiliki nilai-nilai et dan ec yang ditunjukkan oleh dua subscript. Sebagai contoh, N10 adalah jumlah dokumen yang mengandung term t (et = 1) dan tidak dalam c (ec = 0). N1 = N10 + N11 adalah jumlah dokumen yang berisi term t (et = 1) dan untuk menghitung dokumen independen keanggotaan kelas (ec {0,1}). N adalah jumlah total dokumen atau N = N00 + N01 + N10 + N11. 2.4 Text Pre-processing Tahap text pre-processing adalah tahap awal dari text mining. Tahap ini mencakup semua rutinitas, dan proses untuk mempersiapkan data yang 12

akan digunakan pada operasi knowledge discovery sistem text mining (Fieldman & Sanger, 2007). Tindakan yang dilakukan pada tahap ini adalah tolowercase, yaitu mengubah semua karakter huruf menjadi huruf kecil dan Tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimatkalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik (.), koma (,), spasi dan karakter angka yang ada pada kata tersebut (Weiss et al, 2005). 2.5 Twitter Twitter adalah sebuah situs web yang dimiliki dan dioperasikan oleh Twitter Inc., yang menawarkan jaringan sosial berupa microblog sehingga memungkinkan penggunanya untuk mengirim dan membaca pesan Tweets (Twitter, 2013). Mikroblog adalah adalah satu jenis alat komunikasi online dimana pengguna dapat memperbarui status tentang mereka yang sedang memikirkan dan melakukan sesuatu, apa pendapat mereka tentang suatu objek atau fenomena tertentu. Tweets adalah teks tulisan hingga 140 karakter yang ditampilkan pada halaman profil pengguna. Tweets bisa dilihat secara publik, namun pengirim dapat membatasi pengiriman pesan ke daftar temanteman mereka saja. Pengguna dapat melihat Tweets pengguna lain yang dikenal dengan sebutan pengikut (follower). Tidak seperti Facebook, LinkedIn, dan Myspace. Twitter merupakan sebuah jejaring sosial yang dapat digunakan sebagai sebuah graph berarah (Wang, 2010), yang berarti bahwa pengguna dapat mengikuti pengguna lain, namun pengguna kedua tidak diperlukan untuk mengikutinya kembali. Kebanyakan akun berstatus publik dan dapat diikuti tanpa memerlukan persetujuan pemilik. Semua pengguna dapat mengirim dan menerima Tweets melalui situs Twitter, aplikasi eksternal yang kompatibel (telepon seluler), atau dengan pesan singkat (SMS) yang tersedia di Negara-negara tertentu (Twitter, 2013). Pengguna dapat menulis pesan berdasarkan topik dengan menggunakan tanda # (hastag). Sedangkan untuk menyebutkan atau membalas pesan dari pengguna lain bisa menggunakan tanda @. 13

Pesan pada awalnya diatur hanya mempunyai batasan sampai 140 karakter disesuaikan dengan kompatibilitas dengan pesan SMS, memperkenalkan singkatan notasi dan slang yang biasa digunakan dalam pesan SMS. Batas karakter 140 juga meningkatkan penggunaan layanan memperpendek URL seperti bit.ly, goo.gl, dan tr.im, dan jasa hosting konten seperti Twitpic, Tweephoto, memozu.com dan NotePub untuk mengakomodasi multimedia isi dan teks yang lebih panjang daripada 140 karakter (Twitter, 2013). Twitter menggunakan bit.ly untuk memperpendek otomatis semua URL yang dikirim. Fitur yang terdapat dalam Twitter, antara lain : 1. Laman Utama (Home) Pada halaman utama kita bisa melihat Tweets yang dikirimkan oleh orang-orang yang menjadi teman kita atau yang kita ikuti (following). 2. Profil (Profile) Pada halaman ini yang akan dilihat oleh seluruh orang mengenai profil atau data diri serta Tweets yang sudah pernah dibuat. 3. Followers Pengikut adalah pengguna lain yang ingin menjadikan kita sebagai teman. Bila pengguna lain menjadi pengikut akun seseorang, maka Tweets seseorang yang di ikuti tersebut akan masuk ke dalam halaman utama. 4. Following Kebalikan dari pengikut, following adalah akun seseorang yang mengikuti akun pengguna lain agar Tweets yang dikirim oleh orang yang diikuti tersebut masuk ke dalam halaman utama. 5. Mentions Biasanya konten ini merupakan balasan dari percakapan agar sesama pengguna bisa langsung menandai orang yang akan diajak bicara. 6. Favorite Tweets ditandai sebagai favorit agar tidak hilang oleh halaman sebelumnya. 14

7. Pesan Langsung (Direct Message) Fungsi pesan langsung lebih bisa disebut SMS karena pengiriman pesan langsung di antara pengguna. 8. Hashtag Hashtag # yang ditulis di depan topik tertentu agar pengguna lain bisa mencari topik yang sejenis yang ditulis oleh orang lain juga. 9. List Pengguna Twitter dapat mengelompokkan ikutan mereka ke dalam satu grup sehingga memudahkan untuk dapat melihat secara keseluruhan para nama pengguna (username) yang mereka ikuti (follow). 10. Topik Terkini (Trending Topic) Topik yang sedang banyak dibicarakan banyak pengguna dalam suatu waktu yang bersamaan. 2.6 N-gram N-gram adalah potongan n karakter dalam suatu string tertentu atau potongan n kata dalam suatu kalimat tertentu. Misalnya dalam kata Sinyal akan didapatkan n-gram sebagai berikut. Tabel 2.1 Contoh pemotongan N-gram berbasis karakter Nama N-gram Karakter Uni-gram S, I, N, Y, A, L Bi-gram _S, SI, IN, NY, YA, AL, L_ Tri-gram _SI, SIN, INY, NYA, YAL, AL_, L Quad-gram _SIN, SINY, INYA, NYAL, YAL_, AL, L _ Karakter blank _ digunakan untuk merepresentasikan spasi di depan dan di akhir kata. Dan untuk word-based n-gram contohnya adalah sebagai berikut. Kalimat : internet lancar mudah jangkauan luas stabil Tabel 2.2 Contoh pemotongan N-gram berbasis kata Nama N-gram Karakter Uni-gram internet, lancar, mudah, jangkauan, luas, stabil 15

Bi-gram Tri-gram Dst internet lancar, lancar mudah, mudah jangkauan, jangkauan luas, luas stabil internet lancar mudah, lancar mudah jangkauan, mudah jangkauan luas, jangkauan luas stabil 2.7 Flowchart Flowchart adalah penggambaran secara grafik dari langkah-langkah dan urutan-urutan prosedur suatu program. Simbol-simbol dari flowchart memiliki fungsi yang berbeda antara satu simbol dengan simbol lainnya. Fungsi dari simbol-simbol flowchart adalah sebagai berikut : Tabel 2.3 Fungsi Simbol-Simbol Flowchart Simbol Fungsi Simbol process, yaitu menyatakan suatu tindakan (proses) yang dilakukan didalam program. Simbol offline connector yaitu menyatakan penghubung bila flowchart terputus disebabkan oleh pergantian halaman (misalnya tidak cukup dalam satu halaman). Simbol online connector, berfungsi untuk menyatakan sambungan dari proses ke proses yang lainnya dalam halaman yang sama. Simbol arus/flowline, yaitu menyatakan jalannya arus suatu proses. Simbol decision yaitu menunjukkan suatu kondisi tertentu yang akan menghasilkan dua kemungkinan jawaban yaitu : ya/tidak. Simbol input/output, menyatakan proses input atau output tanpa tergantung jenis peralatannya. Simbol terminal yaitu menyatakan permulaan atau akhir suatu program. 16

Simbol document, mencetak keluaran dalam bentuk dokumen. 2.8 Bahasa Pemrograman PHP dan Database MySQL PHP (Hypertext Preprocessor) adalah bahasa komputer yang dibuat untuk pengembangan web dinamis. Pada umumnya PHP digunakan di server namun juga dapat berdiri sendiri sebagai aplikasi graphical (www.php.net, 2008). Penggunaan PHP dan MySQL dipilih karena PHP dan MySQL memiliki beberapa kelebihan sebagai berikut: 1. Bahasa pemrograman PHP adalah sebuah bahasa script yang tidak melakukan sebuah kompilasi dalam penggunaannya. 2. Web Server yang mendukung PHP dapat ditemukan dimana-mana dari mulai IIS sampai dengan Apache dengan konfigurasi yang relatif mudah. 3. Dalam sisi pengembangan lebih mudah, karena banyaknya milis-milis dan developer yang siap membantu dalam pengembangan. 4. Dalam sisi pemahaman, PHP adalah bahasa scripting yang paling mudah karena referensi yang banyak. 5. PHP adalah bahasa open source yang dapat digunakan di berbagai mesin (Linux, Unix, Windows) dan dapat dijalankan secara runtime melalui console serta juga dapat menjalankan perintah-perintah sistem. Sedangkan database MySQL memiliki beberapa kelebihan, yaitu: 1. Portability MySQL dapat berjalan stabil pada berbagai sistem operasi seperti Windows, Linux, FreeBSD, Mac Os X Server, Solaris, Amiga dan masih banyak lagi. 2. Open Source MySQL dapat didistribusikan secara open source (gratis), dibawah lisensi GPL sehingga dapat digunakan secara cuma-cuma. 3. Multiuser MySQL dapat digunakan oleh beberapa user dalam waktu yang bersamaan tanpa mengalami masalah atau konflik. 17

4. Performance tuning MySQL memiliki kecepatan yang menakjubkan dalam menangani query sederhana, dengan kata lain dapat memproses lebih banyak SQL per satuan waktu. 5. Column types MySQL memiliki tipe kolom yang sangat kompleks, seperti signed atau unsigned integer, float, double, char, text, date, timestamp, dan lain-lain. 6. Command dan functions MySQL memiliki operator dan fungsi secara penuh yang mendukung perintah Select dan Where dalam query. 7. Security MySQL memiliki beberapa lapisan sekuritas seperti level subnetmask, nama host, dan izin akses user dengan sistem perizinan yang mendetail serta password terenkripsi. 8. Scalability dan limits MySQL mampu menangani database dalam skala besar, dengan jumlah records lebih dari 50 juta dan 60 juta ribu serta 5 milyar baris. Selain itu batas indeks yang dapat ditampung mencapai 32 indeks pada tiap tabelnya. 9. Connectivity MySQL dapat melakukan koneksi dengan client menggunakan protocol TCP/IP, Unix soket (UNIX), atau Named Pipes (NT). 10. Localization MySQL dapat mendeteksi pesan kesalahan pada client dengan menggunakan lebih dari dua puluh bahasa. Meskipun demikian, bahasa Indonesia belum termasuk di dalamnya. 11. Interface MySQL memiliki interface (antar muka) terhadap berbagai aplikasi dan bahasa pemrograman dengan menggunakan fungsi API (Application Programming Interface). 12. Clients dan tools 18

MySQL dilengkapi dengan berbagai tool yang dapat digunakan untuk administrasi database, dan pada setiap tool yang ada disertakan petunjuk online. 13. Struktur Tabel MySQL memiliki struktur tabel yang lebih fleksibel dalam menangani ALTER TABLE, dibandingkan database lainnya semacam PostgreSQL ataupun Oracle. 2.9 Tinjauan Empiris Dalam penelitian ini, peneliti menggunakan beberapa jurnal sebagai tinjauan studi, yaitu sebagai berikut. a. Thumbs Up? Sentiment Classification Using Machine Learning Techniques (Pang et al, 2002) Kajian ini menjelaskan klasifikasi sentimen terhadap review film dengan menggunakan berbagai teknik pembelajaran mesin. Teknik pembelajaran mesin yang digunakan yaitu Naïve Bayes, Maximum Entropy, dan Support Vector Machines (SVM). Pada penelitian tersebut juga digunakan beberapa pendekatan untuk melakukan ekstraksi fitur, yaitu unigram, unigram + bigram, unigram + Part of Speech (POS), adjective, dan unigram + posisi. Hasil dari eksperimen yang dilakukan di penelitian ini menemukan bahwa SVM menjadi metode terbaik ketika dikombinasikan dengan unigram dengan akurasi 82.9%. b. Sentiment Analysis of User Generated Twitter Updates using Various Classification (Parikh et al, 2009) Makalah ini membahas analisis sentimen terhadap media jejaring sosial Twitter dengan menggunakan beberapa teknik klasifikasi. Metode yang digunakan adalah Unigram Naïve Bayes, Multinomial Naïve Bayes, dan Maximum Entropy Classification. Hasil yang diperoleh dari penelitian mereka dapat ditarik kesimpulan bahwa kedua Naïve Bayes memperlihatkan performa yang lebih baik dari Maximum Entropy. 19

c. Micro-blogging Sentiment Analysis Using Bayesian Classification Methods (Prasad, 2010) Pada makalah ini menyajikan penggunaan Naïve Bayes dengan berbagai macam pendekatan yakni, Bernoulli, Bernoulli Chi Square, Multinomial Unigram, Linear Bigram, Backoff Chi Square, Multinomial Unigram, Linear Bigram, Backoff Bigram, Empirical Bigram, dan Weighted-Normalized Complement Naïve Bayes (WCNB). Dari hasil uji coba diketahui bahwa Multinomial Unigram, Bernouli Chi Square, dan Linear Bigram menunjukkan hasil yang cenderung lebih baik dari pendekatan lainnya. d. Comparison of SVM and Some Older Classification Algorithms in Text Classification Tasks (Colas, F. & Brazdil, P., 2005) Makalah ini membandingkan metode Naïve Bayes Classifier dengan k-neirest Neighbor dan Support Vector Machine. Hasil penelitian mendapatkan bahwa metode Naïve Bayes Classifier memiliki performansi yang lebih baik dibandingkan k-neirest Neighbor dan Support Vector Machine untuk menyelesaikan binary classification pada dokumen berbahasa Inggris. Hasil penelitian juga menyebutkan waktu komputasi yang jauh lebih pendek oleh metode Naïve Bayes Classifier dan k-neirest Neighbor. Waktu komputasi Support Vector Machine berkembang secara kuadratik seiring dengan perkembangan jumlah data latih. e. Sentiment Analysis in Multiple Language: Feature Selection for Opinion Classification in Web Forums (Abbasi et al, TT) Penelitian mengenai analisis sentimen ini menemukan bahwa metode hibridisasi algoritma genetika EWGA mendapatkan hasil yang lebih baik dibandingkan metode SVM weight untuk feature selection. Sedangkan untuk proses klasifikasi sendiri dilakukan dengan metode SVM. Metode EWGA merupakan gabungan antara metode heuristik Information Gain (IG) dengan metode random Algoritma Genetika. 20