BAB I PENDAHULUAN. 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. Pada bagian awal penelitian ini dipaparkan secara lengkap latar belakang,

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. dengan lingkungan sosialnya pengguna social media seringkali menceritakan

BAB I PENDAHULUAN. menggunakan teknologi yang disebut dengan internet. Hal ini, secara tidak

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

ANALISIS SENTIMEN JASA EKSPEDISI BARANG MENGGUNAKAN METODE NAÏVE BAYES

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

PEMBANGUNAN TWEET AGGREGATOR DENGAN MENGGUNAKAN METODE NAÏVE BAYES

BAB I PENDAHULUAN 1.1 Latar Belakang

1. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB I PENDAHULUAN. beberapa tahun terakhir (Dave Chaffey, 2016). Media jejaring sosial seperti Twitter,

BAB II TINJAUAN PUSTAKA

ANALISIS SENTIMEN PADA JASA OJEK ONLINE MENGGUNAKAN METODE NAÏVE BAYES

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN. diwilayah jawa timur. Dengan jumlah penduduk pada tahun 2010 sebanyak

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER

BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen

BAB I PENDAHULUAN 1.1. Latar Belakang Rendy, 2013

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

TEXT MINING DALAM ANALISIS SENTIMEN ASURANSI MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER

BAB 1 PENDAHULUAN. saat ini cukup ketat dan kompleks. Setiap perusahaan dituntut untuk selalu mengerti

BAB I PENDAHULUAN. Di era modern ini, macam-macam makanan sangatlah banyak dan beragam.

BAB II DESKRIPSI OBYEK PENELITIAN

BAB I PENDAHULUAN 1.1. Gambaran Umum Objek Penelitian Gambaran Umum Perusahaan

BAB 1 Pendahuluan 1.1 Latar Belakang

BAB III METODE PENELITIAN

BAB 3 LANDASAN TEORI

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. dan saat ini menjadi industri yang paling berkembang dalam 10 tahun terakhir di

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

BAB I PENDAHULUAN. 1.1 Latar Belakang. Mikroblog adalah salah satu bentuk blog yang memungkinkan

3.1 Desain Penelitian

2016 SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN ALGORITMA C4.5

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. pilihan kartu simcard yang ditawarkan oleh penyedia jaringan telekomunikasi.

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN. tahun. Hal tersebut ditandai dengan perkembangan teknologi telekomunikasi yang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Pemilihan presiden merupakan momen penting bagi setiap negara, salah satunya

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB IV HASIL DAN PEMBAHASAN

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. komputer ataupun perangkat mobile mereka dari manapun dan kapanpun. Setelah

I. PENDAHULUAN. memunculkan persaingan yang semakin ketat. Ketatnya persaingan menuntut

PENGEMBANGAN METODE EKTRAKSI FITUR DALAM PENINGKATAN HASIL PERFORMA KLASIFIKASI SENTIMEN TWITTER

BAB 1 PENDAHULUAN. Salah satu dampak adanya globalisasi adalah perkembangan teknologi dibidang

BAB 1 PENDAHULUAN Latar Belakang

Gambar 1. 1 Logo BukaLapak

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN 1.1. Latar Belakang

Abstrak. Kata Kunci : Aplikasi Chat, Text Mining, Spam filtering. vii

BAB I PENDAHULUAN. 1.1 Latar Belakang Penelitian

BAB I PENDAHULUAN. Pada zaman sekarang ini bagi sebagian masyarakat kendaraan bermotor

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN. signifikan dilihat dari peningkatan jumlah pelanggan telepon selular pada saat ini

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Penelitian. Kebutuhan masyarakat akan alat komunikasi pada saat ini sangat

BAB I PENDAHULUAN. adanya berbagai macam alat komunikasi yang semakin memudahkan penggunanya

JURNAL SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER SENTIMENT ANALYSIS POLITICAL LEADERS IN TWITTER

BAB I PENDAHULUAN. perusahaan-perusahaan yang sebelumnya menguasai pasar. Bermacam-macam

Transkripsi:

BAB I PENDAHULUAN 1. 1.1 Latar Belakang Perkembangan dunia telekomunikasi meningkat secara signifikan dalam kurun waktu satu dekade terahir. Tidak hanya dari segi jumlah pengguna, jenis layanan yang ditawarkanpun semakin lama semakin beragam. Layanan telekomunikasi yang semula hanya berpusat pada layanan pengiriman pesan singkat dan telepon, kini semakin beragam setelah dimulainya era penggunaan internet. Menurut data Internet Live Statistics [1], tahun ini Indonesia berada pada urutan kedua belas negara dengan pengguna internet terbesar di dunia. Selain menduduki peringkat atas dalam jumlah pengguna internet, Indonesia juga menduduki peringkat atas dalam jumlah pengguna media sosial di dunia. Pada tahun 2015 Indonesia menduduki peringkat ke-enam dalam jumlah pengguna Facebook dan peringkat pertama pengguna Twitter di dunia [2]. Melihat banyaknya pengguna tersebut dapat dibayangkan betapa banyaknya data publik yang terhimpun dalam sosial media, terutama data berupa opini. Di antara media sosial yang umum digunakan di Indonesia, Twitter merupakan salah satu yang menghadirkan opini publik paling banyak. Twitter sendiri sejatinya merupakan media sosial dengan pertumbuhan paling cepat sejak diluncurkan pada tahun 2006. Jejaring yang membatasi pengguna untuk menulis 140 karakter ini pada bulan November 2013 memiliki 215 juta pengguna. Jumlah ini masih terus meningkat, hingga pada bulan Oktober 2015 jumlah pengguna aktif Twitter tercatat mencapai 302 juta. Para pengguna tersebut sedikitnya mengirimkan 500 juta tweet setiap harinya [3]. Tweet-tweet tersebut kemudian membentuk sebuah big data yang dikenal dengan karakteristik 5V yaitu volume, velocity, variety, varacity dan value. Big data ini kemudian dimanfaatkan untuk melakukan berbagai analisis seperti menentukan rating [4], analisis pengaruh pengguna[5], deteksi kemacetan [6] [7], menejemen bencana[8], dll. 1

2 Analisis sentimen atau yang disebut juga dengan opinion mining sendiri merupakan salah satu cabang ilmu dari data mining yang bertujuan untuk menganalisis, memahami, menggali dan mengekstrak data tekstual yang berupa opini terhadap entitas seperti produk, servis, organisasi, individu, dan topik tertentu bertujuan untuk menganalisa pendapat, sentimen, evaluasi, sikap, penilaian dan emosi seseorang. Untuk melakukan analisis sentimen, terdapat dua metode yang umum digunakan yaitu metode supervised learning dan unsupervised learning. Ada juga metode yang menggabungkan keduanya yaitu yang dinamakan dengan semisupervised learning. Metode supervised learning membutuhkan data latih yang telah diberi label untuk dapat melakukan klasifikasi, sedangkan metode unsupervised memiliki kemampuan untuk membagi kelas berdasarkan kemiripan tanpa perlu adanya label. Sementara itu, pada metode semi supervised, pembuatan model dilakukan dengan menggunakan sedikit data latih. Model tersebut kemudian akan terus mempelajari kata-kata baru dari klasifikasi yang dilakukannya. Sejauh ini metode supervised learning cenderung memberikan nilai akurasi yang lebih baik dikarenakan adanya kontrol terhadap data latih. Hal ini dimungkinkan karena pada metode supervised learning, data latih telah diberi label kelas terlebih dahulu sehingga classifier memiliki dasar pengetahuan dalam melakukan testing pada data. Semakin banyak jumlah data latih yang digunakan, semain bagus pula akurasi dari model yang dibangun. Mengenai classifier sendiri, selama ini terdapat empat buah algoritme yang cukup populer digunakan dalam proses klasifikasi. Keempat algoritme tersebut adalah Naïve Bayes, Support Vector Machine, K-Nearest Neighbor dan Decission Tree. Keempat algoritme tersebut menjadi paling populer dikarenakan kemampuannya untuk memberikan hasil akurasi yang tinggi, selain juga kemudahan dalam mengaplikasikannya seiring dengan banyaknya pustaka yang telah mendukung fungsi dari algoritme tersebut. Dalam mengaplikasikan metode supervised learning untuk melakukan klasifikasi sentimen pada Twitter, diperlukan sekumpulan data tweet yang telah diberi label sentimen. Pelabelan sentimen tersebut dapat dilakukan secara manual dengan verifikasi oleh ahli bahasa, maupun dilakukan secara otomatis, misalnya

3 dengan metode distant supervision [9] salah satunya dengan menggunakan emotikon. Pelabelan secara otomatis memiliki keuntungan dalam hal kemudahan dan waktu, namun hasil pelabelannya cenderung tidak akurat. Oleh karena itu, selama ini pelabelan manual lebih umum digunakan. Pelabelan manual sentimen pada Twitter memiliki tantangan lebih dibandingkan dengan pelabelan sentimen kalimat lain pada umumnya. Berbeda dengan penulisan kalimat biasa dimana selalu terdapat subyek, predikat, obyek serta keterangan, penulisan kalimat pada Twitter cenderung bebas dan tidak terikat aturan tertentu. Karenanya kalimat-kalimat pada Twitter cenderung tidak baku dan sangat bervariasi. Terlepas dari data Twitter yang sangat bervariasi tersebut, selama ini pelabelan selalu dilakukan pada semua tweet yang terkumpul pada saat proses query. Padahal beberapa aspek seperti panjang kalimat, kemurnian kalimat, konten, subyektifitas dan posisi sebuah kata yang mengandung opini dapat memberikan pengaruh yang besar terhadap akurasi dari model klasifikasi [10]. Panjang kalimat sendiri misalnya, semakin panjang suatu kalimat, tentu semakin sulit pula dalam menentukan sentimennya. Apalagi jika di dalam kalimat tersebut terdapat kalimat majemuk yang sarat dengan negasi, pelabelan tentu akan menjadi semakin sulit. Hal ini diperparah dengan karakteristik Twitter yang hanya memperbolehkan sebanyak 140 karakter dalam setiap tweet. Pembatasan karakter ini akan mengakibatkan adanya singkatan pada kalimat. Semakin panjang suatu kalimat dalam tweet, akan semakin banyak pula singkatan yang digunakan, sehingga semakin sulit juga untuk menentukan sentimen dari tweet tersebut. Pada penelitian ini dilakukan analisis terhadap pengaruh panjang tweet pada data latih terhadap akurasi dari model klasifikasi. Data latih yang telah terkumpul kemudian diberi label dan dilakukan filterisasi terhadap jumlah kata. Percobaan kemudian dilakukan untuk mengetahui batas maksimal dan minimal jumlah kata per tweet pada data latih yang dapat memberikan akurasi terbesar pada model klasifikasi. Agar lebih domain specific, data latih pada penelitian ini dibatasi pada data tweet yang mengandung opini mengenai jaringan telekomunikasi. Pemilihan topik jaringan telekomunikasi dilakukan karena banyaknya opini publik pada

4 Twitter mengenai jaringan telekomunikasi. Selain itu, selama ini Twitter juga menjadi media paling effektif bagi pelanggan telekomunikasi untuk melakukan komplain, yaitu dengan melakukan mention terhadap akun customer service dari perusahaan telekomunikasi tersebut. Banyaknya komplain pelanggan telekomunikasi pada Twitter tersebut dapat digunakan pula untuk mengetahui kualitas jaringan antara operator telekomunikasi di Indonesia. Oleh karena itu, model dengan akurasi terbaik yang diperoleh dalam penelitian ini kemudian digunakan untuk membangun sebuah sistem monitoring kualitas jaringan telekomunikasi berdasarkan analisis sentimen pada Twitter secara real time. 1.2 Rumusan Masalah Analisis sentimen menggunakan metode unsupervised yang umum dilakukan selama ini menggunakan seluruh data tweet sebagai data latih. Padahal beberapa aspek dari tweet seperti panjang kalimat dapat berpengaruh pada akurasi model klasifikasi. Dikarenakan karakteristik Twitter yang hanya memperbolehkan 140 karakter, maka semakin panjang sebuah tweet, akan semakin banyak pula singkatan di dalamnya. Hal ini menyebabkan tweet tersebut menjadi semakin sulit dipahami oleh mesin dan akhirnya mengurangi akurasi dari model klasifikasi. 1.3 Tujuan Penelitian Penelitian ini bertujuan untuk mengetahui pengaruh panjang kalimat terhadap akurasi model analisis sentimen. Penelitian mengidentifikasi batas maksimal dan minimal jumlah kata per tweet pada data latih yang paling optimal untuk mendapatkan model klasifikasi analisis sentimen yang paling akurat. Model dengan akurasi terbaik tersebut kemudian digunakan untuk mengembangkan sistem monitoring kualitas jaringan telekomunikasi berdasarkan parameter analisis sentimen secara waktu nyata. Sistem ini dapat memberi tahu berapa banyak keluhan yang diterima penyedia layanan telekomunikasi dan melakukan ekstraksi topik dari keluhan tersebut sehingga pengguna dapat mengetahui layanan manakah yang paling baik sesuai dengan kebutuhannya.

5 1.4 Batasan Masalah Batasan masalah yang digunakan untuk membatasi agar penilitan tidak terlalu meluas adalah: a. Penelitian hanya mencari batas minimal dam maksimal dari jumlah kata per tweet pada data latih yang dapat memberikan nilai akurasi terbaik pada model. b. Tweet yang diproses dalam sistem adalah tweet dengan Bahasa Indonesia yang wajar. Yang dimaksud dengan wajar di sini adalah yang sesuai dengan kriteria berikut ini: 1) Tweet dengan menggunakan Bahasa Indonesia yang baku. 2) Tweet dengan singkatan umum. 3) Tweet dengan bahasa gaul yang umum. c. Monitoring hanya dilakukan pada akun operator telekomunikasi GSM dengan pengguna paling banyak yaitu Telkomsel, Indosat Ooreedoo, XL Axiata dan Hutchison 3. 1.5 Manfaat Penelitian Adapun manfaat dari penelitian ini adalah: a. Penelitian dapat mengetahui batas minimum dan maksimum jumlah kata per tweet yang dapat memberikan akurasi terbaik pada model analisis sentimen. b. Penelitian ini mengidentifikasi metode yang cocok digunakan dalam klasifikasi teks Bahasa Indonesia yang singkat seperti pada Twitter maupun SMS. c. Penelitian menjadi alternatif metode pemantauan kualitas jaringan telekomuniasi secara waktu nyata berbasis data Twitter yang tidak membutuhkan biaya besar dalam implementasinya. d. Penelitian diharapkan dapat menjadi langkah awal dari pengembangan sistem monitoring kualitas jaringan telekomunikasi dengan menggunakan data dari media sosial yang dapat mendeteksi keluhan publik mengenai jaringan telekomunikasi secara nyata.

6 1.6 Keasliaan Penelitian Penentuan mengenai analisis sentiment untuk tweet dengan Bahasa Indonesia sendiri telah banyak dilakukan. Penelitian tersebut sebagian besar bertujuan untuk mencari classifier yang tepat dalam menentukan analisis sentiment dari tweet dengan Bahasa Indonesia. Seperti yang dilakukan oleh Harlili dan Wibisono [11] yang menggunakan Naïve Bayes Classifier (NBC) untuk menentukan apakah tweet mengandung opini atau tidak, dan mengelompokan sentimen dari tweet tersebut. Dalam penelitian ini digunakan sebanyak 33 ribu tweet yang dikumpulkan selama satu bulan sebagai data latih. Hasil eksperimennya menunjukkan bahwa model yang dikembangkan dapat mengklasifikasikan tweet yang mengandung opini dan nonopini dengan nilai akurasi masing-masing 91,83% dan 93,40%. Selain melakukan klasifikasi, Harlili dan Wibisono juga melakukan ekstraksi topik, namun hasil yang diperoleh masih belum memuaskan dikarenakan sistem yang dikembangkan hanya dapat mencakup 34,48% dari kata kunci. Secara spesifik penelitian mengenai analisis sentimen mengenai penyedia layanan telekomunikasi melalui media sosial juga pernah dilakukan. Salah satunya adalah penelitian Lazuardi [12] yang meneliti persepsi kualitas penyedia layanan Telkomsel dengan menggunakan text mining dan social network analysis pada percakapan pengguna Twitter. Hasil penelitian menunjukkan bahwa ada tiga kelompok kata yang paling dominan mengenai persepsi kualitas merek Telkomsel. Tiga kelompok kata tersebut menunjukkan persepsi kualitas layanan data, persepsi kualitas jaringan, persepsi mengenai SMS promo dan poin Telkomsel. Selain itu, Langi [13] juga melakukan penelitian mengenai analisis sentimen pada penyedia layanan telekomunikasi. Penelitian difokuskan kepada pencarian stopword dalam Bahasa Indonesia yang digunakan dalam pengolahan awal. Hasil penelitan menunjukkan bahwa penggunaan chi-square terendah sebagai stopwords berhasil memberikan dampak positif pada akurasi terutama pada Naïve Bayes Classifier. Sedangkan pada Algoritme Support Vector Machine sendiri penggunaan stopwords berdasarkan chi-square tidak memberikan pengaruh besar dikarenakan Algoritme Support Vector Machine sendiri tanpa stopword telah

7 memberikan nilai akurasi yang cukup tinggi. Selain itu, pada penelitian ini dibuat pula sebuah program real-time untuk mengetahui kepuasan pelanggan operator telekomunikasi seluler di Indonesia dengan Algoritme SVM tanpa stopword dan steamer. Manalu [14] juga melakukan penelitan serupa dengan menerapkan n-gram karakter untuk seleksi fitur dan Algoritme Naïve Bayes sebagai classifier. Penelitian menghasilkan sebuah sistem yang dapat mengklasifikasi sentimen secara otomatis dengan hasil pengujian 100 tweet mencapai 93% dengan 2700 data training. Apabila dicermati, selama ini penelitian analisis sentimen di Indonesia memang sebagian besar berfokus pada bagaimana meningkatkan akurasi dari model klasifikasi dan pencarian algoritme terbaik untuk proses melakukan klasifikasi. Berbagai cara telah dicoba dilakukan untuk meningkatkan akurasi dari model klasifikasi yaitu dengan memperbaiki proses preprocessing seperti membuat stopwords baru, memperbaiki proses stemming, dll. Namun belum terdapat penelitian yang secara spesifik meneliti pengaruh pembatasan minimal dan maksimal kata per tweet pada data latih terhadap akurasi dari model. Selain itu, penelitian sebelumnya mengenai pemilihan algoritme terbaik pada umumnya hanya berhenti pada pemilihan algoritme saja. Algoritme terbaik yang diperoleh tidak digunakan secara langusng dalam pengembangan sistem. Pada penelitian ini dilakukan analisis mengenai pengaruh pembatasan jumlah minimal dan maksimal kata per tweet pada data latih terhadap akurasi dari model analisis sentimen, memilih model terbaik dan menggunakannya dalam pengembangan sistem monitoring kualitas jaringan telekomunikasi secara real time.