Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes

dokumen-dokumen yang mirip
Jurnal Politeknik Caltex Riau

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

BAB I PENDAHULUAN. Pada bagian awal penelitian ini dipaparkan secara lengkap latar belakang,

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 LANDASAN TEORI

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Di era modern ini, macam-macam makanan sangatlah banyak dan beragam.

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

BAB I PENDAHULUAN 1.1 Latar Belakang

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

HASIL DAN PEMBAHASAN. Praproses

BAB I PENDAHULUAN. dengan lingkungan sosialnya pengguna social media seringkali menceritakan

JURNAL SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER SENTIMENT ANALYSIS POLITICAL LEADERS IN TWITTER

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Agus Soepriadi, 2 Meta Permata. Jurusan Teknik Informatika, STMIK Bandung, Bandung, Indonesia

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN.

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN. beberapa tahun terakhir (Dave Chaffey, 2016). Media jejaring sosial seperti Twitter,

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN Latar Belakang

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

BAB I PENDAHULUAN 1.1 Latar Belakang

DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED

BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

Kata kunci : metode pencarian, perpustakaan, Naïve Bayes Classifier.

BAB II TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

ABSTRAK. Kata Kunci: analisis sentimen, pre-processing, mutual information, dan Naïve Bayes. UNIVERSITAS KRISTEN MARANATHA

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

BAB III LANDASAN TEORI

BAB 2 TINJAUAN PUSTAKA

IMPLEMENTASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) UNTUK ANALISA SENTIMEN PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR

Abstrak. Arie Wahyu Wijayanto Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung

ANALISIS SENTIMEN TERHADAP OPINI PUBLIK MELALUI JEJARING SOSIAL TWITTER MENGGUNAKAN METODE NAIVE BAYES Alfarizy M. G. ( )

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

BAB 1 PENDAHULUAN. yang sudah maju seperti Amerika, Eropa, Jepang dan lain sebagainya.

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

BAB 3 ANALISIS DAN DISAIN

Identifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based

Aplikasi Opinion Mining dengan Algoritma Naïve Bayes untuk Menilai Berita Online

Analisis Sentimen Menggunakan Lexicalized-Hidden Markov Model(L-HMM)

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

SISTEM INFORMASI DETEKSI KEMACETAN BERDASARKAN TWEET MENGGUNAKAN NAMED ENTITY RECOGNITION (NER)

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB I PENDAHULUAN 1.1 Latar Belakang

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

ANALISA SENTIMEN MENGGUNAKAN NAÏVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP KENAIKAN HARGA JUAL ROKOK PADA MEDIA SOSIAL TWITTER

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR

Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN:

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

Penggunaan Web Crawler Untuk Menghimpun Tweets dengan Metode Pre-Processing Text Mining

BAB I PENDAHULUAN. banyak informasi yang tersedia di internet, maka akan semakin sulit juga untuk

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTER

ABSTRAK. Kata kunci : website, hotel, reservasi, CRM. iii Universitas Kristen Maranatha

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODE PENELITIAN

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

BAB V IMPLEMENTASI DAN PENGUJIAN SISTEM

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

ANALISIS SENTIMEN PASAR OTOMOTIF MOBIL: TWEET TWITTER MENGGUNAKAN NAÏVE BAYES

KLASIFIKASI CITRA FORMULIR MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) PADA PROSES DIGITALISASI FORMULIR

PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI KEPENDUDUKAN DAN SURAT-MENYURAT (STUDI KASUS KELURAHAN KADOKAN)

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. menggunakan teknologi yang disebut dengan internet. Hal ini, secara tidak

BAB I PENDAHULUAN 1.1 Latar Belakang

Data Penulis: Alumnus STEKOM Dwi Anggraeni, S.Kom Siti Jumaroh, S.Kom Siti Maftukhah, S.Kom A.Sulthoni, S.Kom

ANALISIS SENTIMEN PENGGUNA TWITTER MENGGUNAKAN METODE SUPPORT VECTOR MACHINE BERBASIS CLOUD COMPUTING

BAB III METODELOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

Analisis Sentimen untuk Komentar pada Sistem Pencarian Kost Menggunakan Metode Support Vector Machine (SVM)

BAB II TINJAUAN PUSTAKA

PEMBANGUNAN APLIKASI ANALISIS SENTIMEN BERITA MENGGUNAKAN METODE NAIVE BAYES

PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI KEPENDUDUKAN DAN SURAT-MENYURAT (STUDI KASUS KELURAHAN KADOKAN)

Klasifikasi Posting Twitter Kemacetan Lalu Lintas Kota Bandung Menggunakan Naive Bayesian Classification

Transkripsi:

Jurnal... Vol. XX, No. X, Bulan 20XX, XX-XX 1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes Abraham Koroh 1, Kartina Diah 2 dan Meilany Dewi 3 Program Studi Sistem Informasi Politeknik Caltex Riau, Pekanbaru 28265, 1 abraham11si@mahasiswa.pcr.ac.id, 2 diah@pcr.ac.id, 3 meilany@pcr.ac.id Abstrak Twitter merupakan salah satu microblog dimana pengguna bisa melakukan publikasi opini dalam bentuk status Twitter. Salah satu informasi yang bisa diperoleh adalah ISP. Status Twitter disimpan dalam jumlah yang besar dan memiliki informasi bernilai di dalamnya. Untuk memperoleh informasi tersebut diperlukan sistem yang mampu mengambil informasi otomatis yaitu sentimen analysis dengan metode klasifikasi Naive Bayes. Sistem mengklasifikasikan opini ke dalam kategori sentimen positif dan negatif kemudian dari hasil klasifikasi diketahui ISP dinilai positif atau negatif oleh pengguna Twitter. Akurasi pengklasifkasian data diuji dengan confusion matrix. Hasil analisis sentimen menunjukkan bahwa Telkomsel dinilai positif sedangkan Indosat dan XL dinilai negatif. Akurasi klasifikasi data status opini ISP pada Twitter adalah 91% dan akurasi pengujian menggunakan data latih adalah 86%. Kata kunci : Naive Bayes, confusion matrix, ISP, analisis sentimen, Twitter. Abstract Twitter is a microblog where users can express their opinion in form of Tweet. Internet Service Provider s opinions are one of Tweets that we can find. Huge amount of Tweet stored in database and by processing those Tweets we can find informations and patterns on it. Sistem classified opinion into positive or negative sentiment and the result of classification show the review of ISP. Classification accuration checked by using confusion matrix. Telkomsel get the highest positive review followed by Indosat and XL. XL and Indosat get the least positive review respectively. System accurately classified data at 91% and 86% while using training sets. Keywords: Naive bayes, confusion matrix, ISP, sentiment analysis, Twitter Dokumen diterima pada Hari Bulan, Tahun Dipublikasikan pada Hari Bulan, Tahun

2 Abraham Koroh 1. Pendahuluan Dalam tiga tahun terakhir, pengguna internet semakin bertambah tidak terkecuali Indonesia. Hal ini terlihat dari catatan statistik oleh perusahaan komputasi awan Akamai, yaitu tahun 2012 pengguna internet Indonesia mencapai 63 juta. Di tahun 2014 menurut situs keminfo, pengguna internet Indonesia mencapai 85 juta pengguna. 95 persen pengguna internet mengakses situs jejaring sosial atau microblog. Dalam menggunakan internet, dibutuhkan penyedia jasa layanan internet atau ISP. Contoh perusahaan ISP yang ada di Indonesia adalah Telkomsel, XL dan Indosat. Microblog merupakan gabungan antara pesan singkat dan blogging. Pengguna microblog bisa mempublikasikan pesan tentang apa yang mereka lakukan melalui microblog[1]. Pengguna internet tertarik mengakses microblogging karena microblog bebas diisi dengan pesan apapun dan dapat diakses dengan berbagai platform (multiplatform)[2]. Contoh situs microblog adalah Facebook, Twitter dan Plurk. Pada proyek akhir ini akan dikembangkan aplikasi yang dapat menganalisis sentimen status Twitter yang berkaitan dengan ISP di Indonesia, yaitu Telkomsel, XL, Indosat. Teknik yang digunakan adalah teknik klasifikasi. Klasifikasi adalah bentuk analisis data yang dapat digunakan untuk menggambarkan kelas data atau untuk memprediksi tren data masa depan[3]. Dengan teknik Naive Bayes data yang merupakan opini akan diklasifikasi ke dalam klasifikasi positif dan negatif. Dari data yang sudah diklasifikasi dicek jumlah data positif dan negatif untuk dianalisa sentimen yang ada pada data. 2. Tinjauan Pustaka 2.1 Text Mining Text mining (penambangan teks) adalah penambangan yang dilakukan oleh komputer untuk mendapatkan sesuatu yang baru, sesuatu yang tidak diketahui sebelumnya atau menemukan kembali informasi yang tersirat secara implisit, yang berasal dari informasi yang diekstrak secara otomatis dari sumber-sumber data teks yang berbeda-beda[4]. Text mining berusaha untuk menemukan pola baru dari sekumpulan text yang berjumlah besar. Adapun proses pokok pada text mining adalah text preprocessing, transformasi teks atau feature generation, feature selection, pattern discovery [3]. 2.1 Frequent Item-Set Frequent Item-Set dapat digambarkan sebagai proses pencarian set item yang sering muncul (frequent) dengan nilai support yang diinputkan ke dalam sistem. Untuk menentukan data frequent adalah dengan melihat jumlah kemunculan data. Nilai support ditentukan melalui nilai perbandingan antara jumlah kemunculan data dan jumlah data keseluruhan[3]. Tid Item-Set 100 {beer, chips, wine} 200 {beer, chips} 300 {pizza, wine} 400 {chips, pizza} Tabel 1 Tabel Item-Set

Analisis ISP Melalui Plurk Dengan Naïve Bayes 3 Item Tid Support Threshold Nilai Support {} {100, 200, 300, 400} 4 100% {beer} {100, 200} 2 50% {chips} {100, 200, 400} 3 75% {pizza} {300, 400} 1 25% {wine} {100, 300} 2 50% Tabel 2 Tabel Nilai Support Nilai support yang digunakan untuk klasifikasi adalah 0.032 dengan keyword yang dihasilkan adalah 10 keyword. 10 keyword tersebut adalah selamat, sukses, baik, lambat, jaya, aktif, tidak stabil, cepat, super dan suka. 2.2 Klasifikasi Naive Bayes Teknik klasifikasi Naïve Bayes merupakan teknik klasifikasi dengan metode probabilistic dengan menerapkan aturan Bayes[5]. Pada aplikasi ini, metode Naive Bayes yang digunakan adalah Naive Bayes model Bernoulli, dimana model Bernoulli mengamsumsikan bahwa peluang klasifikasi diukur berdasarkan banyaknya klasifikasi terhadap data. Langkah langkah metode klasifikasi : 1. Tentukan Peluang Tiap Klasifikasi 2. Hitung peluang masing masing kata yang telah dilakukan fitur seleksi. 3. Lakukan perhitungan masing masing klasifikasi dengan rumus : Keterangan : Tct = banyaknya kemunculan kata t dalam dokumen training pada kelas c V = Kamus kata (vocabulary) Untuk menghindari angka 0, maka nilai Tct akan ditambah 1 sehingga tidak ada peluang yang bernilai 0. Proses ini disebut dengan Laplace Smoothing[5]. Karena aplikasi menggunakan Naive Bayes model Bernoulli, maka penyebut ditambah dengan banyak kategori, yaitu 2 (positif dan negatif). Jadi rumus yang digunakan adalah :

4 Abraham Koroh 2.3 Pemrograman PHP dan MySQL PHP (Hypertext Preprocessor) adalah bahasa komputer yang dibuat untuk pengembangan web dinamis. Pada umumnya PHP digunakan di server namun juga dapat berdiri sendiri sebagai aplikasi graphical[6]. Sedangkan MySQL adalah sebuah perangkat lunak sistem manajemen basis data SQL (bahasa Inggris: database management system) atau DBMS yang multi-user dan multithread[6].. DBMS (Database Management System) merupakan suatu sistem perangkat lunak yang memungkinkan user (pengguna) untuk mengakses, mengontrol, memelihara, dan membuat database secara efektif dan efisien. Dengan DBMS, pengguna akan lebih efektif dalam memanipulasi dan mengontrol data.

5 Abraham Koroh 3. Pembahasan dan Perancangan 3.1 Pembahasan Sistem Sistem yang dibangun menggunakan API yang disediakan Twitter untuk mengambil data. Aplikasi yang dibangun menggunakan link untuk mencari data yang diminta oleh admin. Data status akan dipisahkan ke dalam kelompok data opini dan non opini. Selain memisahkan data opini, data juga di-preprocessing secara otomatis oleh sistem. Setelah memisahkan data opini, maka data opini dapat dilatih oleh admin. Admin kemudian dapat menguji data yang belum memiliki kategori. Halaman tamu tidak menggunakan API Twitter, namun halaman tamu menggunakan komentar yang diinputkan oleh tamu. Data tersebut dikategorikan dan data latih yang digunakan adalah data latih yang diinputkan admin. Gambar 1 Halaman Pengambilan Data Gambar 2 Halaman Hasil Kategori Dokumen diterima pada Hari Bulan, Tahun Dipublikasikan pada Hari Bulan, Tahun

6 Abraham Koroh 3.2 Use Case Diagram Gambar 3 Use Case Diagram 4. Pengujian dan Analisa 4.1 Pengujian Sistem Setelah sistem berhasil dibangun, dibuatlah pengujian untuk memastikan apakah sistem sudah berjalan dengan baik. Berikut ini adalah hasil pengujian menggunakan 196 data uji yang belum dikategori dan 100 data uji menggunakan data latih: Positif Negatif Positif 137 15 Negatif 1 43 Tabel 3 Confusion Matrix Data Uji 1 Positif Negatif Positif 13 5 Negatif 9 73 Tabel 4 Confusion Matrix Data Uji 2

Analisis ISP Melalui Plurk Dengan Naïve Bayes 7 4.2 Analisa Dari penelitian yang dilakukan, terlihat bahwa data latih mempengaruhi hasil dari klasifikasi Naive Bayes. Pengaruh data latih pada penelitian adalah data latih yang tepat menghasilkan keyword yang tepat. Keyword - keyword yang diperoleh digunakan pada penghitungan peluang klasifikasi Naive Bayes. Pengujian manual menggunakan 196 data uji dan menghasilkan 180 data yang benar dan 16 data yang salah diklasifikasi oleh sistem dengan akurasi klasifikasi sebesar 91%. Sementara itu pengujian otomatis yang menggunakan 100 data latih menghasilkan 86 data benar dan 14 data yang salah. Selain pemilihan data latih yang tepat, kemunculan keyword berpengaruh pada hasil klasifikasi. Jika seluruh keyword penentu klasifikasi data uji tidak muncul, maka yang dilihat adalah besarnya perkalian kemunculan keyword dan peluang positif atau negatif. Jika hasil perkalian menunjukkan peluang positif lebih besar, maka peluang data adalah positif dan berlaku tetap untuk data lainnya jika keyword penentu klasifikasi tidak muncul. 5. Kesimpulan dan Saran 5.1 Kesimpulan 5.2 Saran Kesimpulan yang diperoleh dari penelitian adalah : 1. Algoritma Naive Bayes dapat digunakan untuk mengklasifikasi status opini pada Twitter dengan akurasi sebesar 91% pada data uji manual dan pada data uji menggunakan data latih sebesar 86%. 2. Akurasi klasifikasi Naive Bayes dipengaruhi oleh pemilihan data latih dan kemunculan keyword pada data uji. 3. Data dengan hashtag #yangmerahyangterbaek memiliki data positif terbanyak sementara data negatif terbanyak adalah data dengan hashtag #xl pada tanggal 15 Juni 2016 hingga 28 Juni 2016. Adapun saran yang dapat diberikan untuk pengembangan aplikasi ini adalah sebagai berikut: 1. Menambah label data untuk mengukur tingkat positif dan tingkat negatif status Twitter. 2. Mengambil data Twitter tanpa data retweet. 3. Menganalisa sentimen menggunakan data Twitter berbahasa Inggris. 6. Daftar Pustaka [1] Passant, Alexandre., Hastrup, Tuukka., Bojars, Uldis., dan Breslin, John. 2008. Microblogging: A Semantic and Distributed Approach. [2] Agarwal, A., Xie, B., Vovsha, I., Rambow, O., dan Passonneau, R. 2011. Sentiment Analysis of Twitter Data. [3] Han, Jiawei dan Kamber, Micheline. 2006. Data Mining: Concepts and Techniques. San Francisco: Elsevier Inc

8 Abraham Koroh [4] Feldman, Ronen dan Sanger, James. 2007. The Text Mining Handbook Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press. [5] Manning, C.D., Raghavan, Prabakhar., Schütze, Hinrich. 2008. An Introduction to Information Retrieval. Cambridge (UK): Cambridge University Press. [6] Solichin, Achmad. (2009). Pemograman Web dengan PHP dan MySQL. Jakarta : Universitas Budi Luhur.