BAB I PENDAHULUAN 1.1 Latar belakang Dalam beberapa tahun terakhir teknologi informasi dan telekomunikasi berkembang dengan pesat. Masyarakat mendapatkan manfaat dari tekonologi informasi dan telekomunikasi yang terus berkembang dengan pesat ini. Perkembangan ini membuat perilaku masyarakat terus berubah seiring dengan perkembangan teknologi tersebut. Salah satu perubahan perilaku ini ialah perilaku dalam memperoleh berita dari yang membaca dari media konvensional seperti koran, majalah, masyarakat mulai beralih ke media digital. Jumlah pengguna internet di Indonesia sebesar 82 juta (Kemkominfo, 2014). Membuat Indonesia menjadi negara kedelapan dengan jumlah pengguna internet terbanyak. Data dari World Bank menunjukan jumlah masyarakat Indonesia berkisar 249.9 juta jiwa sehingga terdapat 32.8% dari rakyat Indonesia yang menggunakan internet. Menjadikan negara Indonesia potensial untuk melakukan penelitian data mining pada media digitial. Soelistio et al. (2013) mengatakan bahwa Indonesia merupakan salah satu negara demokrasi terbesar. Hampir tiap hari terdapat berita tentang politik yang membahas seperti kasus korupsi yang dilakukan politisi ataupun berita tentang pilkada. Media massa memiliki peran penting dalam menyampaikan berita sehingga bisa mempengaruhi opini publik. Sekarang ini media massa makin berkembang dan mulai menyalurkan berita mereka melalui portal berita online yang mereka miliki. Tentunya ini merupakan salah satu cara yang efektif melihat jumlah pengguna internet di Indonesia yang mencapai 82 juta jiwa. Selain itu dengan menyalurkan berita secara digital membuka kesempatan untuk melakukan text mining untuk mendapatkan pengetahuan tentang pemberitaan entitas politik banyak sentimen negatif atau positif. Dimana entitas politik ini bisa berupa pejabat daerah, anggota DPR, anggota partai politik, partai politik, dan pejabat pemerintahan. Mulai tahun 2015 ini pergerakan politik di DKI Jakarta semakin tampak dipermukaan. Pergerakan politik tersebut menyambut pemilihan umum kepala daerah Jakarta pada tahun 2017 nanti. Gubernur DKI Jakarta saat ini Basuki Tjahaja Purna- 1
2 ma (Ahok) menjadi perhatian publik karena sikapnya yang banyak menuai prokontra. Prokontra tersebut terjadi karena watak dari Ahok. Media massa online menjadi corong penguat yang mendorong opini publik terhadap Ahok. Dalam proses text mining data yang akan digunakan tentunya harus dilakukan proses pengolahan agar bisa digunakan. Proses-proses antara lain casefolding, menghilangkan stopwords, menghilangkan tanda baca. Selain itu Bakliwal, Arora, et al. (2012) menekankan juga bahwa pentingnya prapemprosesan. Proses prapemprosesan juga dilakukan pada penelitian Aliandu (2013) dengan menggunakan delapan tahap prapemprosesan untuk mendapatkan data yang bersih. Sudah banyak penelitian yang menggunakan proses preprocessing pada penelitiannya. Seperti penelitian dari Putranti dan Winarko (2014) yang melakukan preprocessing pada data mereka dengan menggunakan cleansing, casefolding, parsing, filter bahasa, dan POS-Tagging. Selain itu juga ada penelitian dari yusufns2011 yang menggunakan preprocessing textitcleansing, casefolding, POS Tagger dan stemming. Kedua penelitian tersebut menggunakan sumber data yang sama yaitu Twitter, menggunakan preprocessing yang lumayan banyak merupakan hal yang wajar mengingat data Twitter yang pastinya memiliki banyak noise. Namun preprocessing ini berdampak kepada sumber komputasi yang semakin besar yang membuat proses preprocessing tidak menjadi efisien. Selain pertimbangan efisiensi, terdapat pertimbangan lainnya seperti belum ada cara yang baku atau tepat untuk preprocessing. Sehingga memunculkan kesempatan untuk mencari proses preprocessing yang tepat pada teks Twitter data berbahasa Indonesia. Dari latar belakang yang telah dijelaskan, pada penelitian ini akan dilakukan mencari variasi prapemprosesan terbaik dari variasi yang telah ditentukan pada data berita dari portal berita online berbahasa Indonesia. Selanjutnya hasil prapemprosesan digunakan untuk analisis sentimen menggunakan teknik machine learning dengan menggunakan metode Support Vector Machine (SVM) dan Naive Bayes, kemudian dibandingkan hasil evaluasi dari variasi-variasi prapemprosesan dan dari dua metode SVM dan Naive Bayes. Setelah didapatkan variasi prapemprosesan dan metode terbaik dilanjutkan dengan membuat visualisasi dari analisis sentimen dalam bentuk website.
3 1.2 Rumusan masalah Berdasarkan latar belakang yang telah diuraikan sebelumnnya, dirumuskanlah permasalahan sebagai berikut : 1. Dari variasi prapemprosesan yang telah ditentukan, Variasi prapemprosesan apa yang menghasilkan nilai uji terbaik untuk menjadi masukan data training dan testing pada proses klasifikasi analisis sentimen? 2. Bagaimana menerapkan algoritma machine learning yang terdiri dari Support Vector Machine dan Naive Bayes untuk melakukan klasifikasi sentimen? 1.3 Batasan masalah Pada penelitian ini, penulis membatasi ruang lingkup penelitian agar dapat memnghasilkan penelitian yang lebih fokus dan terarah. Sehingga menghasilkan penelitian yang bermanfaat bagi akademis dan masyarakat. Ruang lingkup permasalahan akan dibatasi seperti berikut : 1. Sumber berita yang digunakan ialah berita yang menggunakan bahasa Indonesia yang berasal dari detik.com dan kompas.com mulai dari awal Januari 2015 hingga akhir desember 2015. 2. Penelitian ini akan menggunakan Gubernur DKI Jakarta pada masa sekarang yaitu Ahok sebagai domain tokoh politik yang dipakai. 3. Proses praproses yang digunakan antara lain cleansing, casefolding, eliminasi KBBI, stemming, dan POS tagging. 4. Klasifikasi sentimen dibagi menjadi dua kelas yaitu positif dan negatif. 5. Proses klasifikasi dilakukan pada level kalimat. 6. Aplikasi yang dihasilkan berbentuk website yang menampilkan visualisasi grafik analisis sentimen tentang Ahok. 1.4 Tujuan penelitian Tujuan dari penelitian ini adalah mencari variasi prapemprosesan dan model klasifikasi terbaik untuk analisis sentimen pada kasus Gubernur DKI Jakarta sekarang, Basuki T Purnama atau biasa disebut Ahok.
4 1.5 Manfaat penelitian Dengan adanya penelitian ini diharapkan dapat memberikan manfaat sebagai berikut : 1. Memberikan rekomendasi bagi akademisi dan industri proses prapemprosesan dan algortima yang lebih baik digunakan untuk analisis sentimen. 2. Menjadi referensi masyarakat untuk melihat analisis sentimen Gubernur DKI Jakarta, Ahok pada media massa online. 3. Menjadi kontribusi pada penelitian dibidang text mining dan natural language processing dalam Bahasa Indonesia. 4. Memberikan kontribusi berupa data untuk penelitian selanjutnya. 1.6 Metodologi Penelitian Penelitian yang dilakukan akan dibagi dalam beberapa tahapan yang sistematis. Tahapan tersebut ialah : 1. Studi Literatur Studi literatur dilakukan untuk mengetahui penelitian dan perkembangan terkini dari penelitian yang akan dilakukan oleh penulis. Pada tahap ini peneliti mencari referensi yang terkait dengan text preprocessing dan analisis sentimen pada tokoh politik. 2. Pengumpulan Data Pengumpulan data dilakukan dengan mengambil data dari portal berita online kompas.com dan detik.com. Berita yang diambil adalah berita yang berkaitan dengan Ahok. Sehingga untuk mendapatkan berita tersebut menggunakan fitur pencarian yang telah disediakan oleh kompas.com dan detik.com. 3. Analisis dan Perancangan Sistem Analisis dan perancangan sistem peneliti akan melakukan analisis terhadap pengujian variasi prapemprosesan yang akan digunakan, selain itu juga terdapat analisis sistem yang akan dibangun. Setelah dilakukan analisis dilanjutkan dengan perancangan sistem yang akan dibangun, usecase diagram, database yang akan digunakan, dan tampilan antarmuka.
5 4. Implementasi Sistem Pada tahap implementasi dilakukan dengan mengikuti rancangan sistem yang telah dibuat. Sistem akan dibangun dengan basis web yang menggunakan bahasa pemprograman python dan python pada sisi server dan pada sisi client menggunakan html dan javascript. 5. Pengujian Pengujian dilakukan pada variasi prapemprosesan dan sistem yang dibangun. Proses pengujian pada variasi prapemprosesan menggunakan teknik pengujian 5-Cross Fold Validation dengan nilai evaluasi yang digunakan recall, precision dan f-measure. Setelah pengujian variasi prapemprosesan, dilanjutkan dengan pengujian sistem yang dibuat, pengujian dilakukan dengan mencoba menggunakan sistem untuk melihat jika semua fungsi pada sistem berjalan sesuai dengan fungsinya. 6. Penulisan Laporan Pada tahap penulisan laporan, hasil dari pengujian variasi prapemprosesan dan implementasi sistem pada penelitian akan ditulis pada laporan. Dalam tahapan ini juga termasuk penyusunan laporan, mengumpulkan hasil, serta pengambilan kesimpulan dan saran. 1.7 Sistematika Penulisan 1. BAB 1 : PENDAHULUAN Pada bab ini berisi tentang latar belakang penelitian, rumusan masalah, batasan masalah, tujuan, manfaat, serta metodologi penelitian dari penelitian yang dilakukan. 2. BAB 2 : TINJAUAN PUSTAKA Pada bab ini berisi mengenai penelitian-penelitian sebelumnya yang telah dilakukan yang terkait dengan penelitian yang penulis lakukan. 3. BAB 3 : LANDASAN TEORI Pada bab ini berisi tentang penjabaran teori yang dipakai.
6 4. BAB 4 : ANALISIS DAN PERANCANGAN SISTEM Pada bab ini berisi tentang analisis sistem yang akan dibangun dan rancangan antarmuka. 5. BAB 5 : IMPLEMENTASI Pada bab ini berisi mengenai implementasi rancangan sistem sentimen analisis yang diberni nama Electra. 6. BAB 6 : PEMBAHASAN DAN PENGUJIAN Pada bab ini berisi mengenai pengujian classifier yang dibuat dan pembahasan sistem yang telah dibuat. 7. BAB 7 : PENUTUP Pada bab ini berisi tentang kesimpulan dari penelitian yang telah dilakukan. Selain itu juga disertakan juga saran untuk penelitian selanjutnya.