HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.
LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi; Twitter merupakan salah satu media jejaring sosial telah menjadi bagian dari pola komunikasi masyarakat; Sentimen berhubungan dengan penilaian terhadap suatu konteks atau wacana; Melihat kecenderungan pola sentimen pada data menggunakan teknik visualisasi.
PERMASALAHAN Kalimat-kalimat pada tweet yang dapat berisi berita maupun sentimen seringkali mengandung banyak simbol dan unsur kata tidak baku; Kesulitan pengguna untuk melakukan interpretasi secara manual pada puluhan ribu data tweet.
TUJUAN Memberikan kemudahan pembacaan data tentang pola komunikasi di masyarakat terkait topik tertentu melalui visualisasi berdasarkan data masukan berupa tweet sehingga dapat diketahui kecenderungan pola sentimennya.
BATASAN MASALAH 1. Data yang digunakan dalam proses visualisasi data ini adalah data teks bahasa indonesia. 2. Topik sentimen yang diteliti pada Twitter adalah Pemilu 2014.
METODE
PENGUMPULAN DATA TWEET
PRA PEMROSESAN DATA TWEET 1. Inisialisasi data input berupa masukan data dari pengguna berdasarkan hasil pengunduhan data tweet sebelumnya. 2. Case folding, yakni proses penyetaraan kapitalisasi karakter dalam isi dokumen. 3. Filtering simbol dan karakter, yakni penghilangan karakterkarakter selain huruf (a,b,..,z A,B,..,Z), yakni karakter angka (0-9) dan simbol-simbol. 4. Pembakuan Kata, yakni proses mengubah kata-kata tidak baku dalam tweet menjadi kata baku sesuai KBBI. 5. Stopword removal, yakni penghilangan kata-kata yang tergolong sebagai stopword pada isi suatu dokumen. 6. Stemming, yakni proses pengembalian suatu kata ke bentuk kata dasarnya. Pada aplikasi ini, pilihan algoritma stemming yang digunakan adalah CS stemmer.
PENGKLASTERAN DATA TWEET 1. Inisialisasi data input berupa masukan data dari pengguna berdasarkan hasil pra pemrosesan data tweet sebelumnya. 2. Baca fitur (load term) merupakan proses pencarian kata yang termasuk dalam fitur yang diperhitungkan ke dalam dokumen input. 3. Pembobotan Kata, yakni proses pembobotan term-term pada tiap dokumen. Pembobotan dilakukan dengan menggunakan metode TF-IDF. 4. Pengklasteran data, yakni proses pengelompokan data berdasarkan fitur dan atau jumlah kelompok masukan. Proses ini menggunakan 3 (tiga) pilihan algoritma yaitu : K-Means, Cascade K-Means dan Self-Organizing Map Kohonen.
KINERJA CLUSTER 1. Sum Squared Error (SSE) Error merupakan jarak tiap titik diukur ke cluster yang terdekat. Nilai SSE dapat dirumuskan sebagai berikut ini : 2. Dunn Index (DI) Pengukuran kualitas klaster secara internal. Nilai DI dapat dirumuskan sebagai berikut ini :
REDUKSI DIMENSI Teknik reduksi dimensi adalah menemukan transformasi yang memenuhi ketentuan/kriteria tertentu; Pendekatan yang sederhana adalah Principal Component Analysis (PCA); Tujuan dari PCA adalah mengurangi dimensi data dengan mempertahankan variasi data yang ada.
PENGUJIAN Pengujian dilakukan terhadap proses-proses berikut : Pengujian Sistem Pengumpulan Data Tweet Pengujian Sistem Pra Pemrosesan Data Tweet Pengujian Sistem Pengklasteran Data Tweet : Pada variasi 3 (tiga) pilihan algoritma yaitu : K-Means, Cascade K-Means dan Self-Organizing Map Kohonen. Analisa Kinerja Pengklasteran. Jenis Sentimen. Pengujian Sistem Visualisasi Data Tweet : Visualisasi Data Tweet Asli Visualisasi Pengklasteran Data Tweet Visualisasi Pengklasteran Data Tweet Pada Peta
Pengujian Sistem Pengumpulan Data Tweet Hasil melakukan scrapping data pada kurun waktu bulan Juli 2013 sampai Oktober 2013 pada situs scraperwiki.com menggunakan kata kunci Pemilu 2014, didapat data dengan ukuran 57294 tweet.
Pengujian Sistem Pra Pemrosesan Data Tweet Dalam proses ini, data masukan dilakukan case folding, filtering, pembakuan kata (KBBI), stopword removal dan stemming. No. Data Tweet Asli Data Hasil Pra Pemrosesan 1. Parpol mana yang akan meraih suara terbanyak PEMILU 2014? Mari ikutan pollingnya parpol meraih suara pemilu mari ikut pollingnya 2. Partai Hanura hari ini tengah melakukan pembekalan kepada 560 caleg DPR RI yang akan maju di Pemilu 2014. partai hanura bekal caleg dpr ri maju pemilu 3. RT @Yusrilihza_Mhd: Pemilu 2014 sdh dekat, mari kita kampanyekan Pemilu Bersih, Jujur dan Adil. Jauhkan kecurangan dari Pemilu pemilu mari kampanye pemilu bersih jujur adil jauh kecurangan pemilu 4. #Web: Ada Indikasi Ke#curangan #Pemilu 2014, ungkap Komisi II #DPR http://t.co/nizhsmwjnt web indikasi kecurangan pemilu komisi ii dpr 5. KPU sosialisasikan teknis pencoblosan pemilu 2014 http://t.co/gstnla6urr kpu sosialisasi teknis coblos pemilu
Pengujian Sistem Pengklasteran Data Tweet Sistem pengklasteran data pada data uji coba sebanyak 57294 tweet dilakukan dengan menggunakan algoritma K-Means, Cascade K-Means dan Self-Organizing Map (SOM) Kohonen. Algoritma K-Means Full Data 57294 (100%) Data Hasil Pengklasteran Cluster 0 ( ) 1 ( ) 2 ( ) 3 ( ) 4 ( ) 271 (0,47%) 33973 (59,30%) 23050 (40,23%) Evaluasi Klaster SSE (Sum of Squared Error) Dunn Index - - 52885 0,16 Cascade K-Means 57294 (100%) 26332 (45,96%) 7912 (13,81%) 23050 (40,23%) - - 7073 0,67 SOM Kohonen 57294 (100%) 23688 (41,34%) 7907 (13,80%) 2520 (0,23%) 129 (4,40%) 23050 (40,23%) 9843 0,46
Pengujian Sistem Visualisasi Data Tweet Pengujian sistem visualisasi data tweet sejumlah 57294 tweet; Divisualisasikan berdasarkan desain sistem yang telah dipaparkan; Visualisasi data tweet asli; Visualisasi data tweet hasil pengklasteran pada diagram scatter; Visualisasi data tweet hasil pengklasteran pada peta geografi; Visualisasi atribut fitur utama melalui word cloud; Visualisasi evaluasi kluster yang telah terbentuk.
Visualisasi Data Tweet Asli 1 2 3 4
Visualisasi Data Tweet dengan Cascade K-Means
Visualisasi Data Tweet Hasil Pengklasteran Pada Peta Geografi Dari total seluruh data tweet berjumlah 57294, sebanyak 384 tweet memiliki nilai lat dan lng Algoritma Cluster 0 ( ) Cluster 1 ( ) Jumlah Tweet pada Peta Cluster 2 ( ) Cluster 3 ( ) Cluster 4 ( ) K-Means 0 223 161 - - Cascade K-Means SOM Kohonen 143 80 161 - - 136 80 3 4 161
Visualisasi Data Tweet Hasil Pengklasteran Pada Peta Geografi (3) 3
Visualisasi Data Tweet Hasil Pengklasteran Pada Peta Geografi (5) No. Kota Jumlah Tweet Sentimen 1. Jakarta 142 Positif 2. Bandung 109 Positif 3. Semarang 6 Negatif 4. Yogyakarta 45 Positif 5. Surabaya 12 Positif 6. Denpasar 10 Negatif
KESIMPULAN 1. Algoritma Cascade K-Means menghasilkan nilai SSE terkecil yaitu 7073 dan nilai Dunn Index tertinggi yaitu 0,67 dengan perolehan sentimen positif berjumlah 26332, negatif berjumlah 7912, dan netral berjumlah 23050; 2. SOM menghasilkan nilai SSE 9843 serta nilai 0,46 untuk Dunn Index yang terbilang lebih rendah kualitasnya daripada Cascade K-Means sebelumnya, meskipun memiliki jumlah cluster yang lebih banyak yaitu 5 cluster. 3. Hasil visualisasi data tweet terhadap hasil pengklasteran pada 3 variasi algoritma telah berhasil diimplementasikan pada diagram scatter menggunakan konfigurasi evaluator Analisa Komponen Utama dengan variabel korelasi pada parameter input sebesar 0.95 dan penyertaan seluruh attribut dengan nilai -1 pada variabel attributes include.
REFERENSI 1. Sumpeno, Surya, Destuardi. 2009. Klasifikasi Emosi Untuk Teks Bahasa Indonesia Menggunakan Metode Naive Bayes. Seminar Nasional Pascasarjana ITS. Surabaya 2. Prasetyo, Eko. 2012. Data Mining : Konsep dan Aplikasi menggunakan Matlab. Andi : Yogyakarta. 3. Santoso, Budi. 2011. Text Mining dan Web Mining. Fakultas Teknik Informatika UKDW : Yogyakarta. 4. Santoso, Budi. 2006. StudiEM : Sebuah Program Email Mining. http://budsus.blogspot.com/2006/06/studiem-sebuah-program-email-mining.html. Diakses pada tanggal 3 Juni 2013. 5. Asian, Jelita. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. 6. Nurfalah, Adiyasa. 2011. Analisis Sentimen Pada Opini Berbahasa Indonesia Menggunakan Pendekatan Lexicon-Based. Fakultas Pascasarjana Intitut Teknologi Telkom. Bandung. 7. Mahendra, I Putu Adhi Kerta. 2008. Penggunaan Algoritma Semut dan Confix Stripping Stemmer Untuk Klasifikasi Dokumen Berita Berbahasa Indonesia. Tugas Akhir. ITS. Surabaya. 8. R.A. Johnson & D.W. Wichern. 1988. Applied Multivariate Statistical Analysis. Prentice Hall. USA.