HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

dokumen-dokumen yang mirip
dimana δ C, C adalah jarak anggota tiap klaster dan adalah jarak antar pusat klaster. TEKNIK VISUALISASI

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI OPINI PADA DATA TWITTER DENGAN EKSPASI QUERY MENGGUNAKAN PENDEKATAN SINONIM

BAB III METODOLOGI PENELITIAN

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia

Oleh: ARIF DARMAWAN NIM

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB II LANDASAN TEORI

Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

BAB I PENDAHULUAN I - 1

JURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI)

PEMETAAN SEBARAN MUTU PENDIDIKAN DASAR MENGGUNAKAN METODE SELF ORGANIZING MAPS

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1. Latar Belakang

IMPLEMENTASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) UNTUK ANALISA SENTIMEN PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB III METODOLOGI PENELITIAN

Jurnal Politeknik Caltex Riau

BAB III ANALISIS DAN PERANCANGAN

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

ANALISIS KECENDERUNGAN INFORMASI DENGAN MENGGUNAKAN METODE TEXT MINING

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

ANALISIS SENTIMEN TERHADAP OPINI PUBLIK MELALUI JEJARING SOSIAL TWITTER MENGGUNAKAN METODE NAIVE BAYES Alfarizy M. G. ( )

THESIS KLASTERISASI HARGA SAHAM DAN KOMODITAS MENGGUNAKAN METODE HYBRID KLASTERISASI. Halim Budi Santoso

BAB II TINJAUAN PUSTAKA

ANALISIS SENTIMEN JASA EKSPEDISI BARANG MENGGUNAKAN METODE NAÏVE BAYES

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

Training. Level Transformasi Wavelet. Banyak Fitur. Ukuran Dimensi. 0 40x x30 600

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

BAB 3 LANDASAN TEORI

Teknik Reduksi Dimensi Menggunakan Komponen Utama Data Partisi Pada Pengklasifikasian Data Berdimensi Tinggi dengan Ukuran Sampel Kecil

ANALISIS KLASTERING LIRIK LAGU INDONESIA

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

Pengklasifikasian Pengaduan Masyarakat pada Laman Kantor Pertanahan Kota Surabaya I dengan Metode Pohon Keputusan

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

BAB III METODELOGI PENELITIAN

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR

BAB III Landasan Teori

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh

IMPLEMENTASI TEXT MINING PADA MESIN PENCARIAN TWITTER UNTUKMENGANALISISTOPIK TOPIK TERKAIT KPK dan JOKOWI

BAB 2 TINJAUAN PUSTAKA

UKDW. Bab 1 PENDAHULUAN

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

BAB 3 LANDASAN TEORI

3.1 Desain Penelitian

IMPLEMENTASI ALGORITMA NEURAL NETWORK DENGAN METODE PRUNE UNTUK KLASIFIKASI PENENTUAN DOSEN PEMBIMBING TUGAS AKHIR TUGAS AKHIR

SEMINAR PROGRESS TUGAS AKHIR

APLIKASI TANYA JAWAB DENGAN METODE SISTEM TEMU KEMBALI INFORMASI BERBASIS TEKS BAHASA INDONESIA MENGGUNAKAN SEMANTIK WEB TUGAS AKHIR

BAB V EKSPERIMEN TEXT CLASSIFICATION

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

Aplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian

ANALISIS SENTIMEN PADA JASA OJEK ONLINE MENGGUNAKAN METODE NAÏVE BAYES

BAB I PENDAHULUAN. menggunakan teknologi yang disebut dengan internet. Hal ini, secara tidak

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Text Pre-Processing. M. Ali Fauzi

1. BAB I PENDAHULUAN 1.1 Latar Belakang

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

TEXT MINING DALAM ANALISIS SENTIMEN ASURANSI MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

IDENTIFIKASI KEMATANGAN BUAH TOMAT MENGGUNAKAN SOM (SELF ORGANIZING MAPS) ARTIKEL SKRIPSI

JURNAL PENERAPAN COMPLETE AND AVERAGE LINKAGE PADA PEMBENTUKAN RESEARCH GROUP DOSEN

BAB II TINJAUAN PUSTAKA

Penggunaan Kernel PCA Gaussian dalam Penyelesaian Plot Multivariat Non Linier. The Use of Gaussian PCA Kernel in Solving Non Linier Multivariate Plot

BAB I PENDAHULUAN 1.1 Latar Belakang

Transkripsi:

HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi; Twitter merupakan salah satu media jejaring sosial telah menjadi bagian dari pola komunikasi masyarakat; Sentimen berhubungan dengan penilaian terhadap suatu konteks atau wacana; Melihat kecenderungan pola sentimen pada data menggunakan teknik visualisasi.

PERMASALAHAN Kalimat-kalimat pada tweet yang dapat berisi berita maupun sentimen seringkali mengandung banyak simbol dan unsur kata tidak baku; Kesulitan pengguna untuk melakukan interpretasi secara manual pada puluhan ribu data tweet.

TUJUAN Memberikan kemudahan pembacaan data tentang pola komunikasi di masyarakat terkait topik tertentu melalui visualisasi berdasarkan data masukan berupa tweet sehingga dapat diketahui kecenderungan pola sentimennya.

BATASAN MASALAH 1. Data yang digunakan dalam proses visualisasi data ini adalah data teks bahasa indonesia. 2. Topik sentimen yang diteliti pada Twitter adalah Pemilu 2014.

METODE

PENGUMPULAN DATA TWEET

PRA PEMROSESAN DATA TWEET 1. Inisialisasi data input berupa masukan data dari pengguna berdasarkan hasil pengunduhan data tweet sebelumnya. 2. Case folding, yakni proses penyetaraan kapitalisasi karakter dalam isi dokumen. 3. Filtering simbol dan karakter, yakni penghilangan karakterkarakter selain huruf (a,b,..,z A,B,..,Z), yakni karakter angka (0-9) dan simbol-simbol. 4. Pembakuan Kata, yakni proses mengubah kata-kata tidak baku dalam tweet menjadi kata baku sesuai KBBI. 5. Stopword removal, yakni penghilangan kata-kata yang tergolong sebagai stopword pada isi suatu dokumen. 6. Stemming, yakni proses pengembalian suatu kata ke bentuk kata dasarnya. Pada aplikasi ini, pilihan algoritma stemming yang digunakan adalah CS stemmer.

PENGKLASTERAN DATA TWEET 1. Inisialisasi data input berupa masukan data dari pengguna berdasarkan hasil pra pemrosesan data tweet sebelumnya. 2. Baca fitur (load term) merupakan proses pencarian kata yang termasuk dalam fitur yang diperhitungkan ke dalam dokumen input. 3. Pembobotan Kata, yakni proses pembobotan term-term pada tiap dokumen. Pembobotan dilakukan dengan menggunakan metode TF-IDF. 4. Pengklasteran data, yakni proses pengelompokan data berdasarkan fitur dan atau jumlah kelompok masukan. Proses ini menggunakan 3 (tiga) pilihan algoritma yaitu : K-Means, Cascade K-Means dan Self-Organizing Map Kohonen.

KINERJA CLUSTER 1. Sum Squared Error (SSE) Error merupakan jarak tiap titik diukur ke cluster yang terdekat. Nilai SSE dapat dirumuskan sebagai berikut ini : 2. Dunn Index (DI) Pengukuran kualitas klaster secara internal. Nilai DI dapat dirumuskan sebagai berikut ini :

REDUKSI DIMENSI Teknik reduksi dimensi adalah menemukan transformasi yang memenuhi ketentuan/kriteria tertentu; Pendekatan yang sederhana adalah Principal Component Analysis (PCA); Tujuan dari PCA adalah mengurangi dimensi data dengan mempertahankan variasi data yang ada.

PENGUJIAN Pengujian dilakukan terhadap proses-proses berikut : Pengujian Sistem Pengumpulan Data Tweet Pengujian Sistem Pra Pemrosesan Data Tweet Pengujian Sistem Pengklasteran Data Tweet : Pada variasi 3 (tiga) pilihan algoritma yaitu : K-Means, Cascade K-Means dan Self-Organizing Map Kohonen. Analisa Kinerja Pengklasteran. Jenis Sentimen. Pengujian Sistem Visualisasi Data Tweet : Visualisasi Data Tweet Asli Visualisasi Pengklasteran Data Tweet Visualisasi Pengklasteran Data Tweet Pada Peta

Pengujian Sistem Pengumpulan Data Tweet Hasil melakukan scrapping data pada kurun waktu bulan Juli 2013 sampai Oktober 2013 pada situs scraperwiki.com menggunakan kata kunci Pemilu 2014, didapat data dengan ukuran 57294 tweet.

Pengujian Sistem Pra Pemrosesan Data Tweet Dalam proses ini, data masukan dilakukan case folding, filtering, pembakuan kata (KBBI), stopword removal dan stemming. No. Data Tweet Asli Data Hasil Pra Pemrosesan 1. Parpol mana yang akan meraih suara terbanyak PEMILU 2014? Mari ikutan pollingnya parpol meraih suara pemilu mari ikut pollingnya 2. Partai Hanura hari ini tengah melakukan pembekalan kepada 560 caleg DPR RI yang akan maju di Pemilu 2014. partai hanura bekal caleg dpr ri maju pemilu 3. RT @Yusrilihza_Mhd: Pemilu 2014 sdh dekat, mari kita kampanyekan Pemilu Bersih, Jujur dan Adil. Jauhkan kecurangan dari Pemilu pemilu mari kampanye pemilu bersih jujur adil jauh kecurangan pemilu 4. #Web: Ada Indikasi Ke#curangan #Pemilu 2014, ungkap Komisi II #DPR http://t.co/nizhsmwjnt web indikasi kecurangan pemilu komisi ii dpr 5. KPU sosialisasikan teknis pencoblosan pemilu 2014 http://t.co/gstnla6urr kpu sosialisasi teknis coblos pemilu

Pengujian Sistem Pengklasteran Data Tweet Sistem pengklasteran data pada data uji coba sebanyak 57294 tweet dilakukan dengan menggunakan algoritma K-Means, Cascade K-Means dan Self-Organizing Map (SOM) Kohonen. Algoritma K-Means Full Data 57294 (100%) Data Hasil Pengklasteran Cluster 0 ( ) 1 ( ) 2 ( ) 3 ( ) 4 ( ) 271 (0,47%) 33973 (59,30%) 23050 (40,23%) Evaluasi Klaster SSE (Sum of Squared Error) Dunn Index - - 52885 0,16 Cascade K-Means 57294 (100%) 26332 (45,96%) 7912 (13,81%) 23050 (40,23%) - - 7073 0,67 SOM Kohonen 57294 (100%) 23688 (41,34%) 7907 (13,80%) 2520 (0,23%) 129 (4,40%) 23050 (40,23%) 9843 0,46

Pengujian Sistem Visualisasi Data Tweet Pengujian sistem visualisasi data tweet sejumlah 57294 tweet; Divisualisasikan berdasarkan desain sistem yang telah dipaparkan; Visualisasi data tweet asli; Visualisasi data tweet hasil pengklasteran pada diagram scatter; Visualisasi data tweet hasil pengklasteran pada peta geografi; Visualisasi atribut fitur utama melalui word cloud; Visualisasi evaluasi kluster yang telah terbentuk.

Visualisasi Data Tweet Asli 1 2 3 4

Visualisasi Data Tweet dengan Cascade K-Means

Visualisasi Data Tweet Hasil Pengklasteran Pada Peta Geografi Dari total seluruh data tweet berjumlah 57294, sebanyak 384 tweet memiliki nilai lat dan lng Algoritma Cluster 0 ( ) Cluster 1 ( ) Jumlah Tweet pada Peta Cluster 2 ( ) Cluster 3 ( ) Cluster 4 ( ) K-Means 0 223 161 - - Cascade K-Means SOM Kohonen 143 80 161 - - 136 80 3 4 161

Visualisasi Data Tweet Hasil Pengklasteran Pada Peta Geografi (3) 3

Visualisasi Data Tweet Hasil Pengklasteran Pada Peta Geografi (5) No. Kota Jumlah Tweet Sentimen 1. Jakarta 142 Positif 2. Bandung 109 Positif 3. Semarang 6 Negatif 4. Yogyakarta 45 Positif 5. Surabaya 12 Positif 6. Denpasar 10 Negatif

KESIMPULAN 1. Algoritma Cascade K-Means menghasilkan nilai SSE terkecil yaitu 7073 dan nilai Dunn Index tertinggi yaitu 0,67 dengan perolehan sentimen positif berjumlah 26332, negatif berjumlah 7912, dan netral berjumlah 23050; 2. SOM menghasilkan nilai SSE 9843 serta nilai 0,46 untuk Dunn Index yang terbilang lebih rendah kualitasnya daripada Cascade K-Means sebelumnya, meskipun memiliki jumlah cluster yang lebih banyak yaitu 5 cluster. 3. Hasil visualisasi data tweet terhadap hasil pengklasteran pada 3 variasi algoritma telah berhasil diimplementasikan pada diagram scatter menggunakan konfigurasi evaluator Analisa Komponen Utama dengan variabel korelasi pada parameter input sebesar 0.95 dan penyertaan seluruh attribut dengan nilai -1 pada variabel attributes include.

REFERENSI 1. Sumpeno, Surya, Destuardi. 2009. Klasifikasi Emosi Untuk Teks Bahasa Indonesia Menggunakan Metode Naive Bayes. Seminar Nasional Pascasarjana ITS. Surabaya 2. Prasetyo, Eko. 2012. Data Mining : Konsep dan Aplikasi menggunakan Matlab. Andi : Yogyakarta. 3. Santoso, Budi. 2011. Text Mining dan Web Mining. Fakultas Teknik Informatika UKDW : Yogyakarta. 4. Santoso, Budi. 2006. StudiEM : Sebuah Program Email Mining. http://budsus.blogspot.com/2006/06/studiem-sebuah-program-email-mining.html. Diakses pada tanggal 3 Juni 2013. 5. Asian, Jelita. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. 6. Nurfalah, Adiyasa. 2011. Analisis Sentimen Pada Opini Berbahasa Indonesia Menggunakan Pendekatan Lexicon-Based. Fakultas Pascasarjana Intitut Teknologi Telkom. Bandung. 7. Mahendra, I Putu Adhi Kerta. 2008. Penggunaan Algoritma Semut dan Confix Stripping Stemmer Untuk Klasifikasi Dokumen Berita Berbahasa Indonesia. Tugas Akhir. ITS. Surabaya. 8. R.A. Johnson & D.W. Wichern. 1988. Applied Multivariate Statistical Analysis. Prentice Hall. USA.