BAB II TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
BAB I PENDAHULUAN Latar Belakang

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN.

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB I PENDAHULUAN. Di era modern ini, macam-macam makanan sangatlah banyak dan beragam.

BAB II TINJAUAN PUSTAKA

BAB II KAJIAN PUSTAKA. pola seperti teknik statistic dan matematika (Larose, 2005).

BAB I PENDAHULUAN. informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen

BAB I PENDAHULUAN. Pada bagian awal penelitian ini dipaparkan secara lengkap latar belakang,

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

BAB IV PREPROCESSING DATA MINING

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB II LANDASAN TEORI

SENTIMEN ANALYSIS TERHADAP NILAI KEPERCAYAAN SEBUAH ONLINE SHOP DI INSTAGRAM

BAB II TINJAUAN PUSTAKA

KLASIFIKASI PADA TEXT MINING

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 3 METODE PENELITIAN

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN Latar Belakang

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

1. BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

KLASIFIKASI PADA TEXT MINING

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110

BAB I PENDAHULUAN. 1.1 Latar Belakang

JURNAL SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER SENTIMENT ANALYSIS POLITICAL LEADERS IN TWITTER

BAB I PENDAHULUAN 1.1. Latar Belakang

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER

3.1 Desain Penelitian

ANALISA SENTIMEN MENGGUNAKAN NAÏVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP KENAIKAN HARGA JUAL ROKOK PADA MEDIA SOSIAL TWITTER

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

1. Introduction. tertentu memegang peran penting dalam. Abstract

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

BAB I PENDAHULUAN Latar Belakang

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan

Sentiment Analysis menggunakan Naïve Bayes

BAB I PENDAHULUAN Latar Belakang

Aplikasi Opinion Mining dengan Algoritma Naïve Bayes untuk Menilai Berita Online

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III ANALISIS DAN PERANCANGAN

Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes

BAB I PENDAHULUAN. menggunakan teknologi yang disebut dengan internet. Hal ini, secara tidak

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. I.1 Latar Belakang

BAB 2 LANDASAN TEORI

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

Transkripsi:

BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan topik analisis sentimen cukup banyak, berikut beberapa penelitian yang tekait dengan analisa sentimen yang menggunakan seleksi fitur dan pemrosesan data awal antara lain penelitian yang dilakukan oleh: Penelitian Bo Pang dan Lillian Leemengambil judul Sentiment analysis using subjectivity summarization based on minimum cuts tahun 2004. Penelitian ini menggunakan dataset review filem dari IMDB yang meliputi 1.000 sentimen positif dan 1.000 sentimen negatif dan pada penelitian ini meneliti adanya polarity dalam setiam kalimat yang ada dalam sentimen review dengan menggunakan metode minimum cut atau dengan mengambil subjektivitas dan polarity data mampu memampatkan data menjadi lebih bersih lebih singkat namun tetap merepresentasikan dokumen yang asli dan juga menyertakan metode klasifikasi naïve bayes. Penelitian Jonathon Read mengambil judul Using emoticons to reduce dependency in machine learning techniques for sentiment classification Tahun 2005, yaitu dengan memanfaatkan emoticons yang ada pada yang mengambil dari artikel sebanyak 20.000 artikel berbahasa inggris yang pada dasarnya menunjukkan emosi penulis saat memberikan penulisan pada artikel atau pada review tersebut. Pada penelitian ini juga menggunakan metode klasifikasi naïve bayes. Penelitian Ravi Parikh dan Matin Movassate mengambil judul Sentiment analysis of user-generated twitter updates using various classification techniques Tahun 2009. Pada penelitaian ini peneliti mengambil dataset dari timeline posting di twitter sebanyak 370 sentimen positif dan 370 sentimen negatif serta menerapkan algoritma unigram dan bigram dengan menggunakan metode klasifikasi naïve bayes dan Maximum Entropy serta menunjukkan kinerja naïve bayes lebih unggul dibandingkan Maximum Entropy. Penelitian Christian Rohrdantz, Ming C Hao dkk mengambil judul Feature-Based Visual Sentiment Analysis of Text Document Streams Tahun 2012, pada penelitian ini 6

7 menggunakan dataset yang di ambil dari 50.000 web survei dan 16.000 dari RSS News Feeds pada penelitian ini menggunakan metode Linguistic Preprocessing,Feature Sentiment Identification, Context Identification untuk memilih fitur dan memetekan secara visual dari data-data yang berada dalam website sehingga dapat diperoleh berbagai pola visual dari data review atau survei meupun berita yang diperoleh dari website secara realtime. 2.2. Analisis Sentimen Analisis sentiment atau disebut juga Sentiment analysis atau opinion mining merupakan sebuah cabang penelitian di domain text mining yang mulai marak pada tahun 2003. Opinion mining atau sentiment analysis adalah riset komputasional dari opini, sentimen dan emosi yang diekspresikan secara tekstual. Jika diberikan satu set dokumen teks D yang berisi opini (atau sentimen) mengenai suatu objek, maka opinion mining bertujuan untuk mengekstrak atribut dan komponen dari objek yang telah dikomentari pada setiap dokumen dan untuk menentukan apakah komentar tersebut positif, atau negatif [10]. Pang et al. (2008) menyebutkan bahwa opinion mining adalah bagian pekerjaan yang melakukan review yang berkaitan dengan perlakuan komputasional opini, sentimen, dan subjektifitas dari teks [11]. Istilah opinion mining muncul dalam paper Dave et al. (2003) yang dipublikasikan dalam prosiding konferensi WWW pada tahun 2003. Publikasi tersebut menjelaskan istilah popularity dalam komunitas sangat terkait dengan pencarianweb atau pencarian informasi. Menurut Dave, et al. (2003) opinion mining tool yang ideal adalah alat yang memproses sekumpulan hasil pencarian untuk item tertentu yang menghasilkan suatu daftar atribut produk (kualitas, fitur dan lainnya) dan melakukan agregasi dari opini-opini tersebut [12]. Secara umum, opini dapat diekspresikan atas apa saja, misalnya produk, layanan, individu, organisasi atau suatu kejadian.term object digunakan untuk menunjukan entitas yang telah dikomentari. Menurut Liu suatu object memiliki seperangkat komponen dan satu set atribut [10]. Suatu object O adalah suatu entitas yang dapat berupa suatu produk, topik, orang, kejadian atau organisasi. O direpresentasikan

8 sebagai hirarki dari komponen, sub komponen dan lain sebagainya. Misalnya pernyataan kualitas suara dari Nokia 3630 sangat jelek, maka object disini adalah Nokia 3630 dan atribut yang dikomentari adalah kualitas suara. Liu mendefinisikan bahwa suatu kalimat opini merupakan kalimat yang mengekspresikan opini positif atau negatif secara eksplisit atau implisit. Liu juga mengatakan bahwa suatu kalimat opini dapat berupa kalimat subjektif atau kalimat objektif. Opini eksplisit merupakan opini yang secara eksplisit diekspresikan terhadap fitur atau objek dalam suatu kalimat subjektif. Sedangkan opini implisit merupakan opini terhadap fitur atau objek yang tersirat dalam suatu kalimat objektif [10]. Misalnya kalimat Kualitas suara dari telepon ini luar biasa merupakan opini yang positif dan eksplisit. Sedangkan kalimat Earphone ini rusak dalam dua hari merupakan opini yang negatif dan implisit. Liu juga mengatakan bahwa meskipun kalimat Earphone ini rusak dalam dua hari menyampaikan fakta objektif, namun secara implisit kalimat ini mengindikasikan opini negatif terhadap earphone. Secara umum, kalimat objektif menyiratkan opini postif, negatif ataupun netral [10]. Hingga sekarang, hampir sebagian besar penelitian di bidang sentiment analysis hanya ditujukan untuk Bahasa Inggris karena memang Tools/Resources untuk bahasa inggris sangat banyak sekali. Namun untuk penelitian kali ini peneliti mencoba meneliti menggunakan sentimen yang menggunakan bahasa Indonesia. 2.3. Pemrosesan Awal Teks Document Preprocessing yang dilakukan terdiri dari tiga tahapan antara lain: 2.3.1. Transform Cases Dengan fitur transform cases kita dapat secara otomatis mengubah semua huruf pada teks menjadi huruf kecil semua atau menjadi huruf kapital semua, pada penelitian ini semua huruf dirubah kedalam huruf kecil karena mayoritas teks berupa tulisan opini yang sebagian besar merupakan huruf kecil semua.

9 2.3.2. Filter Tokenize Tokenization adalah tugas memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal atau termmed word. Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca serta memfilter berdasarkan panjang teks. 2.3.3. Filter Stop Word (Indonesia) Stopword didefinisikan sebagai term yang tidak berhubungan irrelevant dengan subyek utama dari database meskipun kata tersebut sering kali hadir di dalam dokumen. Contoh stopwords adalah a, ada, adalah, adanya, adapun, agak, agaknya, agar, akan, akankah dan masih banyak lagi. dan untuk daftar Stopword untuk bahasa indonesia dibuat secara manual dan di integrasikan kedalam software Rapidminer. Kata-kata yang terlalu sering muncul dalam dokumen-dokumen bukanlah pembeda yang baik. Bahkan kata-kata yang muncul 80% dalam dokumen-dokumen tidak berguna dalam proses retrieval. Kata-kata ini disebut dengan istilah stopwords dan umumnya tidak dijadikan index term. Kandidat umum stopword adalah article, preposisi, dan konjungsi. Eliminasi stopwords bermanfaat dengan adanya pengurangan ukuran strukur index hingga 40%. Karena pengurangan ukuran index, beberapa kata kerja, kata sifat, dan kata keterangan lainnya dapat juga dapat dimasukkan juga ke dalam daftar stopword. Namun eliminasi stopwords dapat menyebabkan penurunan nilai recall (jumlah dokumen yang dihasilkan dan relevan/jumlah dokumen relevan). 2.4. Naïve Bayes Teorema Bayes adalah sebuah pendekatan untuk sebuah ketidaktentuan yang diukur dengan probabilitas. Teorema bayes dikemukakan oleh Thomas Bayes. Thomas Bayes hidup pada abad 18 yang merupakan orang yang sangat terkenal dalam bidang probabilitas. Pengklasifikasi Bayesian juga berguna dalam pembenaran teoritis untuk pengklasifikasi lain yang tidak secara eksplisit menggunakan teorema Bayes[13]. Berikut teorema bayes : ( ) = ( ) ( ) ( ) (1)

10 Naive bayes adalah penyederhanaan dari teorema bayes. Berikut rumus naive bayes : ( ) = ( ) ( ) (2) Keterangan : X H P(H X) P(H) P(X H) P(X) : data dengan class yang belum diketahui : hipotesis data x merupakan suatu class spesifik : probabilitas hipotesis H berdasarkan kondisi X (posteriori probability) : probabilitas hipotesis H (prior probability) : probabilitas X berdasar kondisi pada hipotesis H : probabilitas dari X Naïve Bayesian Classifier menyederhanakan hal ini dengan asumsi bahwa fitur-fitur yang terdapat didalamnya saling tidak tergantung atau independen, setiap kata independen satu sama lain. Naïve Bayesian Classifier menyederhanakan hal ini dengan asumsi bahwa fitur-fitur yang terdapat didalamnya saling tidak tergantung atau independen, setiap kata independen satu sama lain. Beberapa keuntungan naïve bayes [7], diantaranya: a. Kuat terhadap pengisolasi gangguan pada data b. Jika terjadi kasus missing value ketika proses komputasi sedang berlangsung, maka objek tersebut akan diabaikan c. Dapat digunakan untuk data yang tidak relevan 2.5. Pembobotan Atribut (Attribute Weighting) Untuk memilih atribut atau pembobotan atribut (attribute weighting) yang tepat terhadap analisis sentimen maka dapat dilakukan dengan beberapa metode pembobotan atribut diantaranya: 2.5.1. Weight by Correlation Operator ini memberikan skema pembobotan berdasarkan korelasi. Dan operator ini menghitung korelasi setiap atribut dengan atribut label dan mengembalikan nilai absolut atau kuadrat sebagai berat [14].

11 Perhitungan bobot dapat dilakukan dengan menggunakan rumus sebagai berikut: ( ) ( ( ) ) ( ) = 0 ( ( ) ) (3) Dimana: Corr(a) = koefisien korelasi antara feature a dan sentimen t = nilai treshhold Jarak terkecil akan menandakan bahwa hubungan semakin dekat, sedangkan jarak dapat di hitung dengan rumus Dimana (, ) = ( ) (, ) (4) (, ) =( ) u = data training v = data testing a i = feature i 2.5.2. Weight by Chi Squared Statistic Operator ini menghitung relevansi dari fitur oleh komputasi untuk setiap atribut contoh masukan menetapkan nilai statistik chi-squared sehubungan dengan atribut class [14]. Perhitungan dapat dilakukan dengan rumus sebagai berikut: (, ) = ( ) ( ) ( ) ( ) ( ) (5) A = the number of document in category c and containing t B = the number of document not in category c and containing t C = the number of document in category c and not containing t D = the number of document not in category c and not containing t N = the total number of document 2.5.3. Weight by SVM Operator ini menggunakan koefisien dari hyperplance dihitung oleh SVM sebagai bobot fitur[14].

12 Bobot fitur ini dapat di hitung dengan menggunakan rumus: Dimana (, ) = =1 (6) = bobot yang diperoleh dengan menerapkan metode terhadap dataset. P = jumlah elemen yang sama di bagian atas triangular matriks dari dan. Q = jumlah elemen yang berbeda di bagian atas triangular matriks dari dan.